美国劳伦斯伯克利国家实验室Nikos C. Kyrpides、Stephen Nayfach等研究人员合作开发出评估病毒基因组质量和完整性的新工具。相关论文于2020年12月21日在线发表在《自然—生物技术》杂志上。
研究人员报道了CheckV,这是一种用于识别封闭的病毒基因组、估计基因组片段的完整性并从整合的原病毒中去除侧翼宿主区域的自动化方法。CheckV通过将序列与完整病毒基因组的大型数据库进行比较来评估完整性,该数据库包括从对公开可获得的元基因组、元转录组和元病毒组的系统搜索中识别出的76262个病毒基因组。
在对模拟数据集进行验证并与现有方法进行比较之后,研究人员将CheckV应用到了由元基因组组装的病毒序列的各种庞大集合中,包括IMG/VR和全球海洋病毒组。这项研究揭示了44,652个高质量的病毒基因组(>90%完整),尽管绝大多数序列是小片段,这突出了从短读本元基因组中组装病毒基因组的挑战。此外,研究人员发现去除宿主污染大大改善了辅助代谢基因的准确识别和对病毒编码功能的解释。
据介绍,数百万个新的病毒序列已经从元基因组中鉴定出,但是这些序列的质量和完整性差异很大。