不会起名字的医学和分子生物学汪涛








      

关注风云之声


提升思维层次



导读



你现在把这个特定的病毒叫“新冠病毒”,“非典型”都已经给占用了,那以后再遇到更新的冠状病毒怎么办?总不能叫“非典新型”“新非典新型”吧?

注:风云之声内容可以通过语音播放啦!读者们可下载讯飞有声APP,听公众号,查找“风云之声”,即可在线收听~



一、不是我不明白、是对“方言术语”太无奈




    我们以往在看病时,医生给开的药方很少人能看明白的。那种狂草的书体真不明白他们自己是怎么认出来。难道医生都是书法家不成?这个只是书写方式的问题。但更让人头疼的是现在大多数药方都是用计算机打印出来的正楷字体,不仅一般的普通人看不明白,其他专业的科学家们可能也很少人能看明白。每一个字都能认识,合在一起就不认识了。原来我以为是这个领域的知识真的特别深奥,但最后学多了以后才发现,真不是其他专业领域的人脑子笨,而是医学和分子生物学领域的专家们起名字的习惯实在是太糟糕了。

    就以基因领域为例,其实学到最后发现基因的知识远不像最初表现的那么难,尤其是计算机和信息专业领域出身的人,更应该容易理解。但要是在现在的方言术语基础上,很可能会被绕的晕头转向很长时间也不得要领。




二、基因




    我们先说下计算机领域的二进制信息。一段二进制的信息就是一串二进制的0、1两个不同数字形成的串。你要想读明白这些串是什么意识,首先得像文字断句一样,知道几个0、1的串是一组,这就是“位长”的问题。一般来说,如果是8位长,就是8个0、1是一组。一切数字或信息都按8个一组的0、1数字进行编码。这样“断句”以后,就很好理解了。
    如果用十进制信息,就是十个不同的数字形成的串来表达。如果用十六进制,就是十六个不同的字符组成的串来进行表达。
    基因其实几乎一样的,只是它是用最多5种基本的符号(碱基),而每种基因里最多是4种不同的符号来表达。双链的DNA和单链的RNA有一个符号不同。以下就是全部5种不同的基因基本符号:
  • A 腺嘌呤

  • G 鸟嘌呤

  • C 胞嘧啶

  • T 胸腺嘧啶   只用于DNA

  • U 尿嘧啶      只用于RNA

     这本来并不复杂,可是你要是只去按他们方言的术语去理解,那就完蛋了。

    “嘌呤”“嘧啶”,这、这都是些什么玩意儿?这些术语简直就不是要让人类看明白的。如果以后出现“心叮咚”“肺咣当”“唵嘛酸”“呢叭脂”“咪吽碱”什么的,你也不要有任何奇怪,他们就是要把一些本来很简单的知识搞成像天书一样以显得牛叉。
    鸟嘌呤,为什么前面有个鸟字呢?原来最初是从鸟粪中提取出来的。另外一个尿嘧啶,为啥要加个尿字呢?当然,要学习医学等真离不开大的和小的,但好歹照顾一下其他学科人的感受好不好。基因是一切生命的基础,基因里总共就5个元素,居然名称就一个与大的有关,一个与小的有关,这让人怎么接受嘛!



三、一个概念包含N个错误的“密码子”




    最初见到密码子这个概念时,相信绝大多数人都被搞晕了。首先见到的是密码,这个显然是引用信息和情报领域的概念,由此也使很多人不断在说“遗传密码”。但如果你真的是搞密码学专业的人去研究遗传密码和密码子等问题时,就全蒙了。因为一说到密码,就得有明文、密码、密钥、密文等。用密码对明文加密形成密文,然后用密钥对密文解码恢复出原始的明文。可是遗传密码的密文、密钥、明文、密码各是什么?完全是一头雾水。其实就只有明文,根本不存在什么加密、解密过程。用“遗传密码”这个术语,简直就是故意让你在迷宫里走了一大圈,最后才发现真相根本就不在迷宫里,而就在你进入迷宫的入口处。
    那“密码子”是什么东西?其实就在前面说了,基因信息就是一串不同字符形成的长串。这个串有多长?人的基因双链DNA有30多亿个“基本字符”,展开来有2米多长。就像一句没有标点符号的长串文字,你要读懂它,得首先学会给它“断句”。记得上中学时语文老师讲了一个有关断句的笑话。一个富人家为自己的孩子请了一个私塾,就是私人老师。他们家是要管老师吃饭的,那得先说说饭菜的标准是什么。以前的语言是没有标点符号的,得自己学会断句。老师就写了一个字条:无鸡鸭也可无鱼肉也可青菜一般足矣。富人一看,这标准很低嘛,鸡鸭鱼肉都不要,只要青菜就够了。他的断句是这样:无鸡鸭也可,无鱼肉也可,青菜一盘足矣。可当饭菜上来后,老师不干了,老师的断句是:无鸡,鸭也可,无鱼,肉也可,青菜一般足矣。人家意思是鸡鸭中必有一样,鱼肉中必有一样,再加一盘青菜,这是两荤一素的标准。所以,断句不同,相同的字符串就会造成完全不一样的含义。无论自然语言、计算机的语言还是基因的语言,都需要“断句”,才能有效理解。
    计算机信息的断句很简单,位长一般都是一样的,你只要确定从什么地方开始,什么地方结束,中间全部用相同位长分别截开,就成有意义的信息了。基因也是一样,它的位长是3,就是三个基本的基因符号(碱基)一组来读取。每个3位一组的单元,就是一个有意义的基本信息单位。就是这么简单的一个玩意,竟要用“密码子”这样莫名其妙的方言术语来表达,这分明就是不想让人好好理解嘛。
    我个人认为计算机信息领域的“位长”概念是比较好和科学的,因为长度固定,因此用位长这个概念可以很好地表达本质。基因采用4个不同的符号,它们不同的组合,如果按计算机信息技术的概念,应当叫“编码”。以3的位长进行编码,所以就有4的3次方倍,等于64种不同的编码。每3个碱基组成的有意义的编码,前面两个碱基表达不同种类的氨基酸。后面我们还会谈到,基因领域的人对“编码”这一概念的使用也是混淆得云天雾地。



四、“中心”在哪里?




    我们再来看看基因科学里最重要的知识点之一,就是所谓“中心法则”。它最初是1958年由弗朗西斯·克里克于提出的。什么意识呢?就是DNA可以变成RNA,RNA可以变成蛋白质。但蛋白质不能反过来变成RNA和DNA。最开始弗朗西斯·克里克提出中心法则的时候,还没发现RNA可转成DNA。

    好了,基本的知识其实就是这么简单,并不复杂。可是这里就引起一堆问题,首先你说“中心法则”,那很自然的人们就想这“中心”是什么,为什么叫“中心法则”?抱歉,真没发现有人解释得清楚。其实你说“有向法则”不就得了吗?即使以后发现蛋白质真的能在某些特殊条件下转成RNA,也不影响“有向法则”的成立。但你说“中心法则”,这是以谁为中心呢?
    还有,从DNA转成DNA,从RNA转成RNA这被称为“复制”。
    从DNA转成RNA叫转录。
    从RNA转成DNA叫“逆转录”,有的甚至叫“反转录”。刚开始我还以为是像反对党一样反对转录呢。凭啥说从DNA到RNA就是正的,从RNA到DNA就是“反”的呢?如果你以为反转录真的有什么东西是反的,就会发现事实上没有任何解释。逆转录也并非像正电与负电那样,正好在所有方面都反过来的。
    从RNA转到蛋白质叫“翻译”。这个就更是太费解了,怎么能叫“翻译”呢?说到翻译,从语言学上来说是完全不同规则的两套语言,从一套语言按含义相同转成另一套语言,这叫翻译。比如中文是数以千计的各不相同方块字组成,英文是以26个字母为基础组成,基本的字、词和语法都完全不一样。因此,要互相理解,就必须要以含义为准进行翻译。那么,基因在RNA里和在蛋白质里面是完全不同的两套语言吗?难道RNA和DNA中的A,G,C,T,U,在蛋白质里面变成不一样另一种物质,或者编码规则不一样了。RNA里的ACU,在蛋白质里变成CGA了?完全不是,它们基本符号(碱基)以及编码规则都是一样的。反倒是DNA到RNA时,T要变成U。基本符号和编码规则没变,那怎么能说是“翻译”呢?
    叫转录是可以的,这就是计算机里把相同的信息从硬盘转录到U盘,从硬盘转录到内存,从内存转录到CPU的寄存器,或从内存转录到U盘,从U盘里一个区域转录到另一个区域……这些都是信息的转录。因此,如果我们这样来命名:
  •  D-D转录,是从DNA到DNA。

  •  R-R转录,是从RNA到RNA。

  •  D-R转录,是从DNA到RNA。

  •  R-D转录,是从RNA到DNA。

  •  R-P转录,是从RNA到蛋白质。


    如果按上述命名方法,多么地简单和容易理解。只不过在计算机里,任意两种存储介质里的信息理论上说都可以相互转录,但在基因里,从RNA到蛋白质的转录是单向和不可逆的,也不能直接从DNA转录成蛋白质,蛋白质也不能转录成DNA。
    但是,以上只是基因科学一定阶段的认知。


    随着基因科学的发展,人们发现DNA、RNA、蛋白质三者两两之间,和它们自己与自己之间都存在各种不同类型的作用。这样就更不知道“中心”在哪里了?但不同方向转录的过程原理不同,这还是永远成立的。因此,叫“有向原则”更为科学和严谨。



五、编码和模板




    DNA是双链,在转录成RNA时,一条链可以实现转录功能,另一条链不能。基因方言术语把能实现转录的一条链称为“模版链”或“反义链”,不能实现转录的一条链叫“编码链”或“有义链”。但是,模版和编码在其他学科里是什么含义呢?“模版”是很多学科里都用到的,模版应该是不动的,以它为基础为复制出与模版相一致的产品。而编码一般是一个动词,指通过一定规则对其他对象进行编码。所以,基因科学里把两条链的名称搞反了。

    有义链也叫正义链,刚开始我还以为这一条链是正义的,另一条链是非正义的呢,原来非正义的那条链它叫“反义链”。

    DNA的双链从信息论角度说,信息内容本质上是完全等价和一样的。就是在DNA双链上每个碱基对都是互补的。如果一条链上的碱基是C,另一条链上就是G。反过来也是,一条链上是G,另一条链上就是C。一条链上是A,另一条链上就是T,一条链上是T,另一条链上就是A。这就是为什么DNA的双链被解旋酶(你就把它看成切开DNA双链的剪刀)切开后,每一条链都可以独立地转录形成完整的相同DNA。在DNA到DNA复制时,两条链都可以进行,按现在方言术语是都可以作为复制的模版链。但在从NDA到RNA转录时,只有其中一条链可以转录成RNA链,另一条链不行。那么,如果我们用另一套普通话专业术语,看看是不是特别简单清楚:

    在D-D转录时,两条链都可以作编码链(此处是指可以转录的)。而在D-R转录时,只有其中一条链是RNA编码链,另一条链是非RNA编码链。这不就完了吗?多简单的事儿。并且,如果你这样来理解,很多按照普通话术语已经成熟的知识形成的全新思路就会喷涌而出。例如,非RNA编码链并非绝对地就不能转录成RNA,因为既然在双链DNA中单独每一条链都可以转录成完整的DNA,那么,非RNA编码链可以先转录成完整的DNA,其实就是生成了RNA编码链与自己配对形成完整的DNA。然后再以这个RNA编码链为基础不就可以转录成RNA了吗?

    还有蛋白质里有个种类叫伴娘蛋白(chaperone)。说到”伴娘“,马上人们就会想到“新娘蛋白”“新郎蛋白”“伴郎蛋白”在哪里?可惜都没有,只有伴娘一个人在那里参加婚礼。




六、把不会起名字进行到底




    除以上概念混淆地起名字以外,这个领域还经常把一些本来是指通用类型的概念给安到一些特定的对象上。这是非常要命的,会给以后其他研究的发展带来极大困扰。
    例如染色体。”染色“本来是一种相当通用的化学和分子生物学的测量方法,就是通过染色剂染色,使得需要进行测量的物质更容易被看到。但基因科学里却把一类特定的对象叫染色体,好像染色是它的专利一样。
    我们最终回到中国疫情相关的命名上吧,可以说一直就是采用这种不会起名字的方法去命名。在出现SARS的时候,搞出一个“非典型性肺炎”。“典型”和“非典型”这是通用性的形容词,而且是变化的。过去非典型的,过一段时间认识清楚了就成典型的了。可是就这么“非典”一直叫下来。
   这次出现COVID-19疫情和对应的SARS-CoV-2病毒,从开始到最终确定名称的确有一个过程,中间换过几个名字。世卫组织最终都已经有正式的相对比较科学的名称了,但中国却一直用“新型冠状病毒肺炎”(新冠肺炎,新冠病毒)的名字。“新型”“非新型”或“典型的”都是与时间相关的通用形容词。为什么有人认为石正丽2年前的论文里就在研究这个“新型冠状病毒”了,纯属起名字错误造成的误解。
    冠状病毒有很多种,分为四个属:α、β、γ、δ。第一个冠状病毒是在1937年发现的,从鸡身上分离出来。但直到2002-2003年的SARS流行之后才开始引起医学界重视。在此过程中不断有新型的冠状病毒被发现,未来肯定还有更多新型冠状病毒被发现。你现在把这个特定的病毒叫“新冠病毒”,“非典型”都已经给占用了,那以后再遇到更新的冠状病毒怎么办?总不能叫“非典新型”“新非典新型”吧?

扩展阅读:
力挽狂澜:中国如何自救而后拯救世界 | 汪涛
“三期叠加”致世界经济大危机 | 汪涛
谁才是真正的隐瞒者?——迄今为止对疫情追责问题最深度研究 | 汪涛
COVID-19 专治各种不服 | 汪涛
为什么我不赞成太多讨论追责问题 | 汪涛
为什么西方国家忽视中国的成功抗疫经验?| 汪涛

背景简介本文作者汪涛,曾为中兴通讯国际市场管理体系的奠基人,现为析易船舶总经理。文章2020年4月9日年发表于微信公众号 纯科学不会起名字的医学和分子生物学,风云之声获授权转载。
责任编辑陈昕悦

文章转载自微信公众号:风云之声

类似文章