微生物识别癌症:里程碑式研究被指重大数据错误
·据《科学》杂志8月2日的文章报道,时至今日,这项研究已经获得了数百次引用,为其他十几项研究提供了数据,并支持孵化了至少一个商业项目,该商业项目旨在利用人体血液中的微生物序列来揭示癌症的存在。
当地时间8月2日,《科学》(Science)杂志的一篇文章讲述了近期科学领域的一场激烈辩论,称一项里程碑式的研究可能存在“重大错误”,但被指存在错误的科学家表示不同意。
(相关资料图)
当地时间2020年3月11日,《自然》(Nature)杂志刊登一篇名为《血液和组织的微生物组分析提示癌症诊断方法》(Microbiome analyses of blood and tissues suggest cancer diagnostic approach)的论文,美国加州大学圣地亚哥分校(University of California San Diego)罗伯·奈特(Rob Knight)等科学家表明,不同类型的癌症与不同的微生物群落有关。他们使用人工智能梳理出可以提示特定癌症的微生物DNA,并提出了“一类基于微生物组的新型癌症诊断工具”。
据《科学》杂志8月2日的文章报道,时至今日,这项研究已经获得了数百次引用,为其他十几项研究提供了数据,并支持孵化了至少一个商业项目,该商业项目旨在利用人体血液中的微生物序列来提示癌症的存在。
然而,当地时间2023年7月31日,美国约翰霍普金斯大学(Johns Hopkins University)史蒂文· 萨尔茨伯格(Steven L. Salzberg)等人在论文预印本平台上发表了一篇文章,声称奈特等人2020年的论文存在“重大数据分析错误”。萨尔茨伯格等人指出,奈特等人未能正确地从测序的癌症组织数据库中过滤出人类DNA,这导致数以百万计的人类基因序列被错误地归类为微生物。“这篇论文的主要结论是完全错误的。” 萨尔茨伯格说。
奈特不认可这些批评,并指出,2023年1月也曾有一些科学家对其2020年的论文提出质疑,他的实验室已经在2023年2月发表的预印本中作出回应。“这个新的预印本指出的问题真的没有什么是尚未公开解决的。”奈特说,他于2019年共同创立了Micronoma公司,以开发基于微生物组的癌症诊断方法。他强调,2022年9月,他的团队在《细胞》(Cell)杂志上发表了一篇名为《泛癌症分析揭示了癌症类型特异性真菌生态和细菌组相互作用》的论文,使用了更新的方法来分析肿瘤中的真菌和细菌,并得出了与此前《自然》杂志上论文相似的结论。
尽管如此,旁观的研究人员表示,这次萨尔茨伯格等人针对奈特团队2020年的论文提出了更多缺陷,而且论点令人信服。英国剑桥大学(the University of Cambridge)的细菌遗传学家朱利安·帕克希尔(Julian Parkhill)说:“这是对原始论文错误之处的精准拆解。”
据《科学》杂志报道,多位研究人员告诉《科学》杂志,微生物组科学无疑具有生物医学的前景,许多其他研究小组已经将微生物与特定的癌症联系起来。英国诺丁汉特伦特大学(Nottingham Trent University)的微生物学家和生物信息学家莱斯莉·霍伊尔斯(Lesley Hoyles)说:“这场辩论为严重依赖计算方法的微生物组研究提供了一个警示。人们对出版物的内容缺乏质疑,我们需要有人做这类分析。”
癌症组织中出现了意外的细菌
奈特等人的论文使用了一个名为“癌症基因组图谱”(TCGA)的数据库,该数据库存储了来自人类癌症样本的大量DNA序列。数据库根据序列是否与人类参考基因组相匹配,将序列分类为人类或非人类(尽管这种分类不完善)。
奈特等人将TCGA的“非人类”序列,以及来自几十名无癌症患者和100名癌症患者的序列,与细菌、病毒和其他微生物的DNA数据库进行了比较,表明不同类型的癌症有特定的常驻微生物群落。然后他们将数据输入机器学习算法,可以仅从样本的微生物组成中预测癌症的类型或癌症是否存在,并称,其准确率有时接近100%。
然而,一些科学家注意到,奈特等人的实验结果中存在一些令人费解的发现。虽然这项工作在癌组织中发现了许多人类细菌,但除了神秘的海藻细菌外,还有一种与前列腺癌有关的海洋热液喷口细菌,以及一种与黑色素瘤有关的珊瑚细菌。
在2023年1月的预印本中,英国东英吉利大学(the University of East Anglia)的研究人员表示,这可能表明该研究的方法存在问题。他们特别指出,癌症组织中意想不到的微生物的存在可能是数据库错误的结果,其中一个物种的序列被错误地标记为另一个物种的序列。
帕克希尔解释说,人类DNA不小心进入微生物数据库是很常见的,它被错误地列在微生物物种名称下。除非研究人员在将其与微生物数据库进行比较之前,从人体组织测序数据中过滤掉人类DNA,否则他们有可能检测到并不真正存在于组织中的生物体。
在一篇27页的回应中,奈特和他的同事们对这些观察的重要性提出了质疑,他们称,他们在2022年发表于《细胞》杂志的论文中使用了新的方法,复制了2020年发表于《自然》杂志的论文的结论。
但这个回答并未让萨尔茨伯格信服,他开发了奈特等人2020年论文中使用的一些计算工具。萨尔茨伯格与东英吉利大学的研究人员合作,下载并重新分析了奈特等人研究数据中的一个子集。他们的分析发现,奈特等人认为是微生物的数百万序列实际上是人类的。最新的预印本认为,研究中发现的许多微生物根本不在TCGA的癌症样本中。
奈特表示,特定癌症中发现的序列的确切身份并没有改变他的研究团队的结论,“(分析)可以通过技术和数据来源进行改进。”他还指出,其他研究,以及他和他的同事进行的一项小型分析表明,即使更严格地排除了人类序列,微生物的差异仍然存在。
应谨慎对待严重依赖计算方法的研究
在2020年的论文中,由于组织样本来自多个不同的医疗中心和不同的时间,奈特等人使用了“标准化”的技术来试图消除可变性。但新的预印本称,这一过程是有问题的,它为每种癌症类型的数据引入了不同的电子标签,当研究小组将标准化数据输入他们的算法时,计算机可以偷偷地使用标签,而不是微生物数据,来确定样本来自哪种癌症类型。
奈特说,他的团队不同意最新预印本的分析,并再次强调,他们以不同的方式处理数据,得出了同样的结论。他补充说,他的团队没有特别的动力来梳理预印本的冗长分析或在社交媒体上解决它,即使它已经引起了轰动。“如果他们要在同行评审的期刊上发表这篇文章,我们会解决(它)。我认为这是做科学研究的适当方式,就像过去几个世纪一样。”
Micronoma首席执行官桑德琳·米勒-蒙哥马利(Sandrine Miller-Montgomery)在一份声明中说:“我们开发了额外的人体过滤和质量控制方法,将人类基因组DNA污染降到最低,发现这样做并不妨碍诊断癌症存在或类型的能力。”对于其正在进行的肺癌血液检测,Micronoma已经基于非人类的宏基因组组装生成了一个独立的、专有的微生物数据库。
目前,使用奈特等人2020年论文数据的其他学术团队的研究是否受到影响尚不清楚。“这些都是非常早期的阶段,这是一个相当复杂的问题。”美国国家癌症研究所的 Eytan Ruppin 说,他依靠前述数据集撰写了一篇名为《预测肿瘤微生物组的癌症预后和药物反应》(Predicting cancer prognosis and drug response from the tumor microbiome)论文,于2022年5月发表于《自然-通讯》(Nature Communications)。
“现在应该听取《自然》论文的原作者的意见,如果他们选择回应,就可以在这个重要话题上获得一个可能更加平衡和公平的观点。” Eytan Ruppin说。
一些科学家说,学术期刊应该对严重依赖计算方法的研究更加谨慎。美国雪松-西奈医学中心(Cedars-Sinai Medical Center)的微生物组科学家Ivan Vujkovic-Cvijin说:“在微生物组科学中使用机器学习缺乏标准。我认为这种科学分歧强调了开发它们的必要性。”
也有一些科学家希望有更多的讨论来解决原始论文中的问题。 “作为科学家,我们应该接受挑战。”帕克希尔说,“我们应该能够客观地处理它,并在必要时加以纠正。”
参考资料:
https://www.science.org/content/article/major-errors-alleged-landmark-study-used-microbes-identify-cancers
(原标题:微生物识别癌症:里程碑式研究被指重大数据错误,原作者不服)