人类“完整说明书”出炉全部基因组测序完成

来源:参考消息 | 作者:proac3c72 | 发布时间: 2021-06-19 | 2649 次浏览 | 分享到:

西班牙《国家报》网站6月3日发表题为《一个国际联盟完成迄今最全面人类基因组测序》的报道称，人类无知的真实程度只能随着时间的推移而被感知。人类曾在不知道微生物存在的情况下长期生活，直到17世纪荷兰布商安东尼·列文虎克用他自制的显微镜观察到了用肉眼无法看到的微小生物。如今，另一项巨大的技术进步使得首次获得人类基因组的完整序列成为可能。人类已经等了30万年才能看到自己的“完整说明书”。

约20年前，一个庞大的国际科学团队公布了人类基因组序列的草图，但那个版本充满漏洞。美国生物信息学家亚当·菲利皮将这项任务比作一幅风景画拼图，其中还缺少蓝色天空的图块。

报道称，另一个大型科学团队，即“端粒到端粒”联盟，现已发布了人类基因组的“第一个真正完整的测序”。科学家对人类基因组全部30.55亿个碱基对进行了测序。在此前的测序中，约有8%的序列缺失或错误。

这些序列中包含着各种“说明”，例如，大脑中的神经元知道如何传递想法。人类拥有数万个基因，它们被储存于细胞中心的脱氧核糖核酸（DNA）分子中。基因信息以四种碱基（C、G、T和A）的形式存在，每两个碱基形成碱基对。当前的大规模测序技术（用于医院研究具有遗传性的疾病）不能一次读取很长的人类基因组，但可以识别几百个字母的片段，然后通过参考基因组进行排列。

报道称，当排列高度重复的DNA片段（如ATATATATATAT）时，问题就出现了，这就像风景拼图中的蓝天图块一样难以排序。为了绕过这个障碍，研究人员使用了尖端技术，例如来自英国牛津纳米孔公司的测序仪，这些设备通过一个小孔能够一次读取数十万个字母。

“端粒到端粒”联盟由美国加利福尼亚大学圣克鲁斯分校的卡伦·米加和美国国家人类基因组研究所的亚当·菲利皮领导。该联盟成员认为，这开启了基因组学研究的“一个新时代”，在这个时代中，没有任何基因组区域是遥不可及的。该研究作者于5月27日发表了他们的测序结果草图。有了他们的新数据，人类基因组的基因数量将达到19969个，其中百余个是由“端粒到端粒”联盟发现的。

报道称，来自西班牙巴塞罗那基因组中心的荷兰专家勒妮·比克曼对这项新研究表示赞赏。“这些缺失的部分是寻找可能导致疾病（如癌症）的DNA错误的新前沿，”这位研究人员说，“此前，我们对这些区域一无所知，但这项研究提供了研究它们所需的信息和工具。”

比克曼指出，“端粒到端粒”联盟仅从一名女性的细胞中获取了DNA，因此该测序还无法区分人与人之间的差异，而且也缺乏仅存在于男性体内的Y染色体的信息。这位荷兰科学家说:“该研究的作者使用的技术是在不久的将来获得这些信息的大有前途的工具。”

另据美国《大众机械》月刊网站6月3日报道，21年前，研究人员曾公布人类基因组的第一份测序草图。这是一项巨大的成就，但是该序列仍然缺失了基因组大约8%的测序结果。

现在，世界各地通力合作的科学家们表示，他们终于补上了这来之不易的8%。

报道称，如果他们的研究结果经得起同行审查，而且事实证明他们确实完成了对人类基因组全部的测序和汇编——包括其中所有的空缺，那么这可能改变医学的未来。

完成宏大工程

很长时间以来，人类基因组的测序一直是一项具有重要目标的宏大工程。为什么？因为随着人类对自身遗传密码了解程度的提高，可以制造出更好、更定制化的药物，例如那种曾推动首批有效的新冠病毒疫苗诞生的基因类医学技术。

报道称，人类拥有46条染色体，分成23对，它们由数以万计的单个基因组成。每个基因包含若干数目的碱基对，而碱基对则由腺嘌呤（A）、胸腺嘧啶（T）、鸟嘌呤（G）、胞嘧啶（C）组成。人类基因组中存在数十亿个碱基对。

2000年6月，“人类基因组计划”和私营企业美国塞莱拉基因组公司曾宣布了人类基因组的第一份草图。这是工作多年的成果，而人类持续制造出更出色的计算机和算法来处理基因组加快了工作速度。当时，让科学家们感到惊讶的是，在30多亿个独立的碱基对“字母”中，估计人类只有3万到3.5万个基因。而今天，这个数字比当时的估计低了很多，约为2万。

3年后，人类基因组计划结束了其绘制人类基因组整体图谱的使命，并以如下方式作出解释：

报道称，“‘完成的序列’是一个技术性术语，意为该序列极为精确（碱基对字母的错误率低于万分之一）和具有高度连续性（仅余的空缺对应的是那些用现有技术无法可靠完成测序的区域）。”

在这里，“现有技术”成为关键字眼。当时，人类基因组计划使用了一种被称为细菌人工染色体的方法：科学家利用一种细菌克隆出基因组的每一个片段，然后对它们分组研究。完整的“细菌人工染色体资料库”则是2万个精心培育、内含克隆基因的细菌。

但是，这种方法势必会漏掉完整基因组的某些部分。而其原因恰恰成为引导新的科学家团队合力完成这一成就的重要线索。

引发技术突破

2000年版基因组草图未曾触及的那隐秘的8%中究竟隐藏着什么？这部分基因组中的碱基对由许许多多重复的模式组成，这些模式使其变得难以操纵，从而无法采用细菌克隆法加以研究。

细菌人工染色体等方法根本不适用于存在大量重复模式、剩余的8%基因组。美国斯塔特网站的资深撰稿人马修·赫珀说：“当前主力DNA测序仪是由美国伊卢米纳公司生产的，方法是提取微小的DNA碎片，对它们进行解码，并重新组装拼图。这种方法对于基因组的大多数部分很管用，但是对于DNA编码大段重复的区域却并不管用。”

报道称，这从直觉上是说得通的：想象从1数到50与简单地一遍又一遍重复1、2、1、2……之间的不同。使细菌人工染色体方法获得成功的部分原因是科学家小心翼翼地把重叠部分减至最少，并加以匹配，而在有着很多重复、尚未被研究过的那部分基因组中，这几乎不可能。

那么，新方法有什么不同呢？让我们先来看看它们的原理是什么。总部在美国加利福尼亚州的太平洋生物科技公司和总部在英国的牛津纳米孔公司采用了不同技术，但奔向同一目标。

报道称，太平洋生物科技公司采用一种被称为“高保真”的系统，在该系统中碱基对被循环排列——真的像圆环一样，直到它们被全部和高保真地读取（于是便有了那个名字）。该系统的历史只有短短几年，但在读取那些较长序列时，无论是读取的长度还是准确率都迈出一大步。

牛津纳米孔公司则在其专利装置中采用了电流。一条条碱基对链被挤压穿过显微纳米孔，每次仅一个分子，在那里以电流作用于它们以便观察它们是什么类型的分子。通过对每个分子施加电流，科学家可以识别完整的碱基对链。

报道称，这项新研究发表在生物学论文预印本网站美国生物学论文档案网，在这项研究中，一个由大约100名科学家组成的国际联合团队同时采用了太平洋生物科技公司和牛津纳米孔公司的技术，以找出人类基因组中某些仍然不为人知的片段。

该联合团队搜寻的范围大得惊人。斯塔特网站报道称，“联合团队表示，他们将DNA碱基的数量从29.2亿个增加到了30.5亿个，增幅为4.5%。但是，基因的个数只增加了0.4%，增至19969个”。这表明，与它们所构成的基因相比，这一区域中大量重复的碱基对序列的规模有多么庞大。

报道称，美国哈佛大学生物学家、测序技术之父乔治·丘奇告诉斯塔特网站，如果这项研究结果通过同行评审，这将是对脊椎动物基因组的首次完整绘制。而原因似乎仅仅在于两种新技术都使得极长的碱基对链可以被立刻读取。

为什么缺失的基因信息如此重要？原因在于，基因研究存在诸多偏颇，少数最热门的基因占据着大部分的研究兴趣和经费，而那些被忽视的基因往往掌握着大量关键机制，例如导致疾病的机制。

现在只存在一个小小的缺憾，不过这一缺憾在2000年宣布的第一份基因组草图中也同样存在：两个项目研究的细胞都只有23条染色体，而不是全部46条染色体。这是因为他们使用的是从生殖系统提取的细胞，而生殖系统的卵子和精子各携带全部染色体数量的一半。

报道称，这种细胞来自葡萄胎，即精子和不含细胞核的卵细胞结合后没有生命力的极早期发育形态。这种细胞被保存和培养为用于科研的“细胞系”，选择这种细胞可以使测序的巨大工作量减少一半。

下一步是将这份研究报告发表在经过同行评审的出版物上。此后，太平洋生物科技公司和牛津纳米孔公司都将寻求对46条染色体的人类基因组进行排序。但我们也许要等待一段时间。

扫描下方二维码，关注公众号

科研人员公众号

科研界

即时工作、学习、生活的

资讯平台

最重要的不漏

给您精中选优

关注公众号

　　　　　　工业和信息化部　国家发改委　农业部　卫计委　中国农业科学院　

　　　　　　国家科技管理信息系统公共服务平台

地址：北京市海淀区翠微中里14号楼，北京市海淀区北蜂窝路21号院

电子邮箱

密码