癌症检测革命 新机器学习方法解密基因组 暗物质

事实证明,识别和表征染色体内的重复序列(有时被称为“垃圾 DNA”或“暗物质”)非常困难,因为它们可能在癌症或其他疾病中发挥作用。

现在,约翰霍普金斯大学金梅尔癌症中心的研究人员开发了一种新方法,利用机器学习来识别癌组织以及游离 DNA(cfDNA)中的这些元素——从肿瘤中脱落并漂浮在血液中的片段。这种新方法可以提供一种非侵入性的方式来检测癌症或监测治疗反应。机器学习是一种人工智能,它使用数据和计算机算法来执行复杂任务并加速研究。

在实验室测试中,这种名为 ARTEMIS(疾病重复元素分析)的方法检查了 1,200 多种重复元素,这些元素构成了人类基因组的近一半,并发现大量以前未知与癌症相关的重复在肿瘤形成过程中发生了改变。研究人员还能够识别 cfDNA 中这些元素的变化,从而提供一种检测癌症并确定其起源于体内哪个部位的方法。这项研究的描述将于 3 月 13 日发表在《科学转化医学》上。

ARTEMIS揭示“暗基因组”在癌症中的作用

“当你考虑现有的癌症基因及其周电话数据 围的 DNA 序列时,你会发现它们充满了这些重复序列,”约翰霍普金斯金梅尔癌症中心癌症遗传学和表观遗传学项目联合主任、肿瘤学教授兼医学博士 Victor E. Velculescu 博士说,他与约翰霍普金斯大学医学院医学博士/博士生 Akshaya Annapragada 和约翰霍普金斯大学肿瘤学副教授 Robert Scharpf 博士共同领导了这项研究。

“在 ARTEMIS 之前,基因组中的这一暗物质基本上被忽略了,但现在我们发现这些重复序列并不是随机发生的,”Velculescu 说道。“它们最终聚集在以各种不同方式改变的癌症基因周围,这让我们首次看到这些序列可能是肿瘤发展的关键。”

在一系列实验室测试中,研究人员首先检查了定义独特重复序列的 12 亿 kmers(DNA 短序列)的分布,发现它们富含人类癌症中常见的变异基因。例如,在已知的 736 个驱动癌症的基因中,487 个基因的重复序列数量平均比预期高出 15 倍。

这些重复序列在涉及细胞信号通路的基因中也显著增加

电话数据

而这些通路在癌症中通常失调。研究人员 揭开细胞基本 机期间使用社交媒体进行实时更 机制的新生物学 还利用新一代测序技术,即允许研究人员快速检查整个基因组序列的技术,观察重复序列是否在癌症中直接改变。他们使用 ARTEMIS 分析了参与全基因组泛癌分析 (PCAWG) 的 525 名患有不同癌症的患者的肿瘤和正常组织中的 1,200 多种不同类型的重复元素,发现每个肿瘤中平均有 807 个改变的元素。这些元素中有近三分之二(1,280 个中的 820 个)以前从未在人类癌症中观察到改变。

然后,他们使用机器学习模型为每个样本生成 ARTEMIS 评分,以提供可预测癌症的全基因组重复元素变化的摘要。ARTEMIS 评分以高性能 (AUC=0.96) 区分了 525 名 PCAWG 参与者的肿瘤与正常组织,在所有分析的癌症类型中,1 为满分。无论肿瘤类型如何,ARTEMIS 评分增加都与总生存期和无进展生存期缩短有关。

癌症检测和监测的增强

研究人员接下来评估了 ARTEMIS 在癌症 买房b 无创检测方面的潜力。他们将该工具应用于丹麦肺癌筛查研究 (LUCAS) 中 287 名肺癌患者和非肺癌患者的血液样本。ARTEMIS 以曲线下面积 (AUC) 0.82 的曲线下面积将患者归类为肺癌患者。但是,当与另一种名为DELFI(DNA 片段评估,用于早期拦截)的方法(由 Velculescu、Scharpf 及其团队的其他成员之前开发的一种检测 cfDNA 片段大小和分布变化的检测方法)结合使用时,组合模型以 AUC 0.91 的曲线下面积将患者归类为肺癌患者。在 208 名有肝癌风险的人群中也观察到了类似的表现,其中 ARTEMIS 以 AUC 0.87 的曲线下面积将肝癌患者与其他肝硬化或病毒性肝炎患者一起检测到。与 DELFI 结合使用时,AUC 增加到 0.90。

最后,他们评估了 ARTEMIS 血液测试是否能够识别癌症患者体内肿瘤的来源。当使用 PCAWG 参与者的信息进行训练时,该工具可以对 12 种肿瘤类型中的肿瘤组织来源进行分类,平均准确率为 78% 。研究人员随后将 ARTEMIS 和 DELFI 结合起来,评估了 226 名乳腺癌、卵巢癌、肺癌、结直肠癌、胆管癌、胃癌或胰腺癌患者的血液样本。在这里,该模型正确地将患者归类为不同类型的癌症,平均准确率为 68%,当模型被允许建议两种可能的肿瘤类型而不是单一的癌症类型时,准确率提高到 83%。

“我们的研究表明,ARTEMIS 可以揭示反映人类癌症巨大潜在变化的全基因组重复景观,”Annapragada 说道。“通过阐明所谓的‘暗基因组’,这项研究为癌症基因组提供了独特的见解,并为全基因组重复景观作为癌症检测、表征和监测的组织和血液生物标记物的效用提供了概念验证。”

Velculescu 表示,下一步是在更大规模的临床试验中评估该方法:“你可以想象,这种方法不仅可用于多种癌症的早期检测,还可用于其他应用,如监测治疗反应或检测复发。这是一个全新的领域。”

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注