啃书文库 > 生活 >
癌症一直是人类面临的最具备挑战性的疾病之一,据统计每年有超越 1900 万的新发病例和 1000 万死亡病例。早期测试出癌症同时结合已有些治疗方法,可以显著提升各种癌症种类的存活率和治疗成效。
现在,AI(人工智能)有望加快这一过程,大夫可能非常快就能借助 人工智能 来测试和诊断病人的癌症,从而尽快进行治疗。
近日,来自伦敦帝国理工学院和剑桥大学的研究团队练习了一种AI模型——EMethylNET,通过察看 DNA 甲基化模式,从非癌组织中辨别出 13 种不相同种类型的癌症(包含乳腺癌、肝癌、肺癌和前列腺癌等),准确率高达 98.2%。
有关论文以“Early detection and diagnosis of cancer with interpretable machine learning to uncover cancer-specific DNA methylation patterns”为题,已发表在 Biology Methods and Protocols 上。
据论文描述,该模型依靠于组织样本(而不是血液中的 DNA 片段),现在还处于实验阶段,需要对更多元化的活检样本进行额外的练习和测试,方可进一步用于临床。
研究职员觉得,这项研究的一个要紧意义在于用了一个可讲解的AI模型,为其预测背后的逻辑提供了说明。该研究同时探索了他们的模型的内部工作原理,发现了该模型在理解致癌潜在过程方面有显著提高。
多分类模型表现出色,准确率超越 98%
癌症一直是人类面临的最具备挑战性的疾病之一。癌症的演变特质极为复杂,治疗困难程度会伴随发现时间的推移而提高。癌症的早筛至关要紧,是医学界一直努力攻克的要紧方向之一。
遗传信息通过 DNA 中的四种碱基(A、T、G和 C)的模式进行编码。细胞外的环境变化可能致使某些 DNA 碱基通过添加甲基团而被修改,这一过程称为“DNA 甲基化”。每一个细胞都拥有数百万如此的 DNA 甲基化标记。研究职员在癌症早期进步过程中察看到了这类标记的变化,判断它们可能能够帮助癌症的早期诊断。辨别特定于不同癌症种类的 DNA 甲基化特点,就像大海捞针一样困难。
在这项工作中,研究团队借助机器学习技巧从正常组织特异性甲基化中辨别出癌症特异性变化,借助了来自 13 种癌症种类和相应正常组织的 DNA 甲基化微阵列数据。基于 Illumina Infinium 阵列的甲基化组数据,并根据办法中所述提取、清理和处置数据。剖析该甲基化微阵列数据,用一对甲基化和未甲基化探针确定给定 CpG 地方的甲基化探针强度与总体强度的比率(称为 beta 值)。
他们练习并评估了四种不一样的模型种类:逻辑回归、支持向量机(SVM)、梯度提高决策树(XGBoost)和深度神经互联网(DNN)。对于前三种模型种类,创建了二分类和多分类模型。
因为二元逻辑回归模型的表现并不明显优于二元 XGBoost 模型,并且多类逻辑回归的 MCC 得分低于多类 XGBoost 和 DNN,因此研究将剖析重点放在 XGBoost 和 DNN 上。
在这类独立数据集上进行测试时,大部分二元 XGBoost 模型(在 TCGA 数据上练习)表现好。为了创建更稳健的模型并改进这类结果,研究职员设计了 EMethylNET, EMethylNET 是一种由 DNN 模型组成的模型,该模型基于从多类 XGBoost 中学习到的特点进行练习,可进一步提升性能。
图 | 办法概述
通过对单个肿瘤和正常组织的 DNA 甲基化进行二元分类来测试癌症状况,13 个模型中有 5 个(COAD、KIRC、LUAD、LUSC 和 UCEC)达成了完美的测试集性能。在所有模型中,平均准确率为 98.7%,平均 MCC(不受紧急类别不平衡影响的性能指标)为 91.9%。
他们在整个练习数据上练习了一个多类 XGBoost 模型,该模型可以高度准确区域分 13 种癌症种类和正常样本,总体准确率为 98.2%,总体 MCC 为 98.0%。同时模型在独立的异构数据集上达成高精度,在独立数据集上也表现出好的性能。
图 | 二元 XGBoost 模型在独立数据集上的性能
用基于甲基化的办法对癌症进行测试和分类的文献数目庞大,而且还在不断增加。EMethylNET 与其他有关研究进行了比较剖析,证明 EMethylNET 在相同种类作品中达成了具备竞争优势的测试集性能。
表 | 有关研究大全
多类基因与癌症有关过程息息有关
用可讲解办法(譬如 XGBoost)的一个重点优势是可以辨别用于分类的特点,研究团队从多类 XGBoost 模型(即 EMethylNET 的输入特点)中探索了 PCC。PCC 可以映射到近端基因——基因体或启动子地区(作为转录起始位点上游 1500 个碱基对窗口)与 PCC 重叠的基因,通过将多类 PCC 映射到近端基因而获得的基因称为“多类基因”。
他们对多类基因进行功能富集剖析,发现其富含能够帮助致癌用途和转录调控特点的基因,并在癌症有关通路和互联网中富集。多类基因组由 229 种已知的肿瘤抑制因子和致癌基因、546 种转录调节因子组成,并参与广泛的癌症有关渠道和过程。
除此之外,他们还发现,基因列表包括很多非编码 RNA 基因,主要由 lncRNA 组成。这与愈加多的研究表明 lncRNA 和其他非编码 RNA在致癌用途中起重点用途的看法一致。
与有关研究相比,该研究是第一个提供深入的特点剖析,其中 CpG 由模型自由选择,没事先的特点选择会给特点剖析结果增加潜在偏差。
人工智能 预测癌症指日可待?
“通过在更多样的数据上更好的练习与在临床上的严格测试,像如此的计算办法最后将提供可以帮助大夫进行癌症早期测试和筛查的 人工智能 模型,”该论文的通讯作者 Shamith A Samarajiwa 说。“这将提供更好的治疗结果。”
依据练习数据的可用性,此办法可以扩展到测试数百种癌症种类。将来的应用包含将这种办法扩展到游离 DNA 的 DNA 甲基化数据,最后目的是通过液体活检办法早期测试多类型型的癌症。
除此之外,这种办法的一个明确的临床应用是筛查特定癌症种类或来源不明的癌症,尽管现在的模型并未为此目的进行优化,但已拥有这方面的拓展研究空间。
参考链接:https://academic.oup.com/biomethods/article/9/1/bpae028/7696058
- 上一篇:中微子与消失的能量之谜
- 下一篇:没有了
猜你喜欢
- 2024-05-31 口腔溃疡不太疼,小心癌症来敲门
- 2024-04-22 重拳:癌症的又一“克星”!直捣肿瘤之“家”
- 2024-04-18 全国肿瘤防治宣传周10个关于癌症的流言,不少人都中招了!
- 2024-04-15 胰腺癌的早期症状有什么早期胰腺癌的症状
- 2024-03-30 乌鸡汤的效果
- 2024-03-21 维生素C过量:一位癌症病人的生死教训
- 2024-03-19 致癌加自闭症儿童 无糖可乐不可以喝了吗
- 2024-02-24 男士养生合适吃那些 合适男士养生的食物有什么
- 热点排行
- 热门推荐
- 热门tag