2018 年 10 月 10 日,华大在深圳国家基因库正式对外发布一项迄今为止最大规模的中国人基因组学大数据研究成果。这是由中国科学家主导,历时两年,对 14 余万中国人的无创产前基因检测数据进行深入研究后,首次揭秘中国人群基因遗传特征的科研成果,也是由华大主导的「百万人群基因大数据研究」项目的首秀。
对此,华大生命科学研究院院长、文章第一通讯作者徐讯博士表示,本次研究成果有两个重要意义,首先,这标志着生命科学产业已经从单个样本的检测和诊断,正式进入了基因大数据时代;其次,也验证了基于大人群的精准医学研究已成为新的科研模式,对基因组学大数据研究具有开创性价值。
华大发布最大规模中国人基因组学大数据研究成果
基因是生命的密码,国家级人群基因组学研究以及对遗传资源的保护与应用是精准医学的基础,直接影响到一个国家在生物医学领域的核心竞争力。大规模人群基因组学的研究,可以发现与疾病(或表型性状)显著相关甚至是起决定性作用的遗传变异。因此,美、英等多个国家发起了国家级人群基因组学研究计划并公开数据供全球科学家研究使用,为全人类的医疗健康事业做出了巨大贡献。2018 年 10 月 3 日,英国政府宣布将在未来五年内开展五百万人基因组计划,并表示从 2019 年起,全基因组测序将被作为标准之一辅助重病患儿、患有难治愈或罕见疾病成年患者的治疗。这标志着精准医学研究进入了大数据时代。
中国在国家级人群基因数据研究上暂时处于落后的状态,主要原因在于大型研究项目的完成需要较长周期,项目设计、样本采集及基因测序需要花费大量的时间与资金,合理利用已有的数据将大大加速这一进程。华大的科学家们发现,无创产前基因检测的基因组测序数据,可以为大规模的人群队列研究提供一个全新的思路。
据估计,目前全球的无创产前基因检测已超过 1200 万例,仅华大基因一家机构已完成逾 350 万例,为出生缺陷防控做出重大贡献。截至目前,华大基因累计发表无创产前基因检测相关的科研论文 53 篇,其中 SCI 论文 47 篇 (46 篇为与多家医疗机构合作共同发表),内容涉及方法学、临床验证、临床案例、无创双胎、无创单基因病& 全基因组、无创染色体微缺失/微重复综合征等。
由于无产创产前基因检测数据的特殊性,使得现有的分析方法都不能对其进行深层次的研究,导致其蕴含的巨大价值无法被挖掘。此次发表于《细胞》的成果, 是华大研究团队在大规模人群队列研究的一次尝试, 取得了极其显著的成果。
华大研究员、文章第一作者刘斯洋博士表示,在这次研究中,我们建立了全新的研究思路和分析算法,突破了当前组学领域难以使用超低深度全基因组测序数据进行遗传学研究的局限和挑战,首次证明了无创产前基因检测数据可用于回答遗传学以及医学领域多个重要问题的价值和潜力,该方法和策略可被全球基因组学研究参考与应用。
在严格遵从《人类遗传资源管理暂行办法》和生命伦理原则的规范下,以及充分重视知情同意和隐私保护的前提下, 华大研究团队选取了 14 余万无创产前基因检测数据展开了群体水平的研究,开发了一系列适用于此类数据的分析方法,揭示了包括 31 个省、36 个少数民族与汉族在内的中国人群精细的遗传结构,实现了多种表型的全基因组关联研究,揭示了中国人群中病毒序列分布特征,构建了包含约 900 万个多态性位点的炎黄中国人群基因频率数据库 (CMDB),并成功发表于最新一期的国际顶级学术期刊《细胞》中。
徐讯表示,此次研究成果不仅填补了大规模中国人基因组学研究领域的众多空白,并表明无创产前基因组测序数据或者类似的全基因组超低深度测序数据可以有效地用于群体遗传学、疾病与表型等领域的高水平研究,并将在遗传病诊断、肿瘤研究、药物研发等领域得到广泛的应用。
图 1. Cell 文章截图
中国南北方 6 大遗传差异首次被揭开 南方人免疫力更强
虽然我国人口众多,历史悠久,但长久以来,由于实验研究抽样不充分,导致我们对自身的遗传特征认识不多。
在本次研究中,华大的研究小组成功构建了包含 904 万个多态性位点在内的中国人基因频率数据库(CMDB),其中约有 20 万个多态性位点属于首次发现,这是目前正式发表的最大规模的中国人群基因频率数据库。
值得一提的是,研究小组确定了 6 个在地区纬度方向上受到强烈自然选择的基因,它们在基因频率上呈现明显的南北差异,充分展现了饮食、气候、病原体等环境因素对中国人群的演化所起到的选择作用。
图 2. 6 个在中国受到显著自然选择的基因位点
比如,由于古代在北方、西北等地区如新疆、青海和内蒙古等省份可能由于蔬菜获取比较困难,导致生活在这些地区的人们肉类摄入比例较大,因此,促进脂肪代谢率的等位基因在这些地区有明显富集的趋势。
与机体免疫功能相关的编码了红细胞补体受体 I 的基因 CR1 呈现了南方富集的现象。古代中国南方被称为南蛮瘴气之地,自然环境恶劣,病原微生物尤其是疟疾盛行,因此对于生存于该地区的人在免疫力方面有较高的要求。
此外,与耳垢干湿、体味(如狐臭)、大汗腺分泌等相关的 ABCC11 基因,也呈现了明显的南北方选择差异。除了部分广西、广东和海南的中国人没有这个基因突变之外。绝大部分的生活在北方温带气候地区的人们都有这个基因突变,突结果表现为干性耳垢、体味较小、大汗腺分泌较少,这样可能更有利于北方的生存环境。而在炎/闷热的南方,则没有这方面的自然选择压力,从而使野生型基因在南方长久地流传下来。
同时,研究小组通过分析人群遗传距离的变化和基因流方向,揭示了汉族与少数民族群体的遗传结构特点及中国各省与欧洲、南亚、东亚人群的基因交流程度(或者说是通婚程度),发现当今中国人的遗传特点同时受到丝绸之路及近代人口大规模迁徙等因素的多重影响。
本次研究发现,甘肃以及靠近甘肃省的宁夏和青海省的汉族人群体中所含有的欧洲人成分高于其它省份,为全国平均水平的 1.7 倍,达到 0.115%。这个地区在古代恰巧是丝绸之路的必经之地——河西走廊的所在之处,是中西方人群汇聚的地方,很可能由此导致该地区汉族人有较高的欧洲血统。
首次发现「怀双胞胎」基因 后代的真实身高也可能通过基因测算
图 3. 四个重要表型的 GWAS 研究
通过数据分析,研究小组一次性发现并且验证了 48 个与身高以及 13 个与 BMI 显著相关的基因位点,包括这些位点在内的常见突变位点分别解释了 48% 的身高遗传率以及 10% 的 BMI 遗传率。随着研究的进一步深入,科学家和算法工程师有可能可以利用这些信息构建适合于中国人的身高预测模型,通过基因数据推断个人的身高情况。
另外,研究小组对怀孕年龄和双胎怀孕两个表型进行了深入分析,发现了两个与怀孕年龄显著相关的基因位点,暗示着这两个位点的突变与生育力密切关联; 与此同时,还在 NRG1 基因中发现了一个和双胞胎妊娠显著相关的突变位点,也就是说携带 NRG1 基因的突变,有更高的几率怀上双胞胎。
首次揭示中国人病毒图谱 发现中国人的乙肝病毒携带率最高
华大的研究小组还首次全面揭示了全国 31 个省级行政单位的人群病毒感染发生率以及病毒在血浆中丰度的分布。
研究发现,中国人血浆的病毒组与欧洲人存在比较大的差异,比如,在欧洲人群中排名前两位的分别是与皮肤急疹相关的疱疹病毒 7 型及与鼻咽癌相关的疱疹病毒 4 型,而在我国人群中排在首位的则是乙肝病毒,其感染发生率大约为 2.5%。
此外,在分析病毒易感性和基因型之间的关系时,在 MOV10L1 与 MLC 的基因区域首次发现了一个与疱疹病毒 6 型易感性极显著相关的基因突变。疱疹病毒 6 型可引发幼儿丘疹,另外也可导致中枢神经系统症状,最新的研究还发现疱疹病毒 6 型的感染与阿兹海默症 (老年痴呆症) 显著相关。如果这个研究能够进一步得到证实,未来就有可能通过基因检测一个人是否容易感染疱疹病毒 6 型,从而间接推断其易感阿兹海默的几率。因此,这项结果对阿兹海默症的研究也有重要的参考价值。
图 4. 血浆病毒谱分析