人类基因组数据欧洲中心化致生物学“盲区”：研究揭示重大偏差

13:13, 09 十二月

编辑者： Katia Cherviakova

近期发表于《自然-通讯》（Nature Communications）杂志的一项重要研究揭示，当前应用于现代生物医学的人类基因组基础图谱中存在着关键的生物学“盲区”。这种局限性源于一个历史遗留问题：基因数据中，来自欧洲血统的个体代表性严重超标，这直接导致全球相当大比例人口的DNA信息解读出现偏差，无法被充分捕获。

由巴塞罗那超级计算中心（BSC）和基因组调控中心（CRG）的专家牵头的研究团队明确指出，现有参考目录中的这种偏倚性，使得数以千计的、特定于非洲、亚洲和美洲人群的RNA转录本被系统性地忽略。论文的第一作者保罗·克拉维尔-雷维列斯（Pau Clavell-Revuelta）强调，我们所依赖的基因图谱正在扭曲对遗传变异的正确解读。CRG的首席合著者罗德里克·吉戈（Roderic Guigó）进一步证实，绝大多数参考序列都源自欧洲人群，这使得那些对非欧洲群体独有的基因或转录本被置于研究的视野之外。

这种数据结构上的疏漏，实际上掩盖了关于个体疾病风险的至关重要的信息。研究引用了已知的案例来佐证其观点：例如，非洲儿童对支气管扩张剂的疗效差异，以及亚洲患者对标准抗凝剂产生不良反应的情况，这些现象很可能就是由这些数据空白造成的。为了揭示这些隐藏的生物学机制，研究团队采用了长读长RNA测序技术，分析了来自八个不同族群的43名捐献者的血液样本。

通过深入的分析，科学家们识别出了41,000个在官方数据库中缺失的潜在转录本。其中，有2,267个转录本被证实是特定于某一族群的，主要集中在非洲、亚洲或美洲群体，并且是科学界此前未曾发现的。更引人注目的是，有773个转录本似乎来源于先前未被识别的基因区域，其中包括多达476个新基因的鉴定。BSC的另一位主要作者玛尔塔·梅莱（Marta Melé）指出，许多这些依赖于族群特异性的新转录本，出现在与自身免疫性疾病、哮喘和代谢特征相关的基因中。

分析结果还证实了一个关键事实：对于DNA修复至关重要的特定SUB1基因变异体，在秘鲁血统的个体中存在，但却完全被现行的参考图谱所忽视。为应对这一严峻挑战，研究人员呼吁全球范围内的科研力量进行整合，共同构建人类泛转录组——一个涵盖所有人群所有RNA分子的综合性目录。在处理研究中生成的超过十太字节（terabytes）的数据时，位于BSC的超级计算机MareNostrum 5发挥了核心作用。

吉戈教授总结道，这项发现仅仅是“冰山一角”，因为本次研究的范围仅限于对成年个体血液细胞的分析。他认为，这种对基因数据多样性的不足，正在拖慢个性化医疗领域预期的进展速度，并强调了拓宽基因组数据基础的紧迫性，以确保未来医疗方案的精确性。