实验室应确定原始测序数据及 FASTQ 文件在服务器上存储的位置,并明确具备唯一标识的统一命名,便于数据调用与快速分类查找。文件命名建议包含数据检测/分析日期、检测实验室名称、标本类型、测序批次、唯一的标本编码等。命名规则一旦确定不得随意改动。
实验室可通过 FASTQC[19] 和 MultiQC[20] 等软件查看测序数据质量、总数据量、碱基质量值(Q20 和 Q30)等,结合测序芯片泳道上生成的簇密度设置质控点(如簇密度是否偏离有效范围,碱基识别质量值≥Q30 的数据比例是否偏低)判断本批次数据能否用于后续分析。数据过滤规则可根据实验室对 mNGS 检测的敏感性和特异性需求进行调整,建议设置 Q30 碱基数量占比>75%、有效序列长度不小于 50bp、含 N 碱基比例小于 10% 等参数阈值。
为了提高微生物数据的分析时效性,需要去除测序数据中的宿主序列,通常方法是把比对到人类基因组的序列进行过滤。真菌和寄生虫与人类的基因组序列有一定的同源性,在过滤宿主序列的过程中需要评估运行时间、去除效率与非特异性去除(非人源序列而被错误过滤)的序列比例。
物种注释是病原宏基因组检测最核心的内容之一,主要是将通过质量控制的非宿主序列与微生物参考数据库比对,或者经过从头组装成 contigs/scaffolds 后再比对到微生物参考数据库,确定在特定序列相似性阈值(如≥97%)下的物种分类级别。物种注释的准确性取决于所选注释工具的敏感性和特异性、算法阈值的合理性、参考数据库的完整性及其纳入微生物基因组的准确性 [12]。目前可用的注释工具分为三类:
(1)DNA-to-DNA 比对工具;
(2)DNA-to-Protein 比对工具;
(3)基于特征标记基因的比对工具。有研究表明,利用相同的模拟数据集测试不同的宏基因组学分类工具,发现不同的分类工具识别的物种数量可能相差 3 个数量级以上 [21]。在 mNGS 中,DNA-to-DNA 工具往往比 DNA-to-Protein 工具能够更好地进行物种分类 [22],但 DNA-to-Protein 工具在识别新发和高度可变的基因序列时敏感性更高 [23]。而在以注重物种丰度的微生物组学分析中,则推荐使用基于特征标记基因的比对工具 [24]。
总之,实验室在选择物种注释工具时,应基于检测的预期用途,从运行速度、准确率、精确率、召回率等维度评估性能 [17]。实验室可使用近缘物种的基因序列对分析软件的物种注释功能进行评估,另外在数据库或分析算法有变更时,以及定期对本实验室的 mNGS 物种/基因注释功能进行评估。
微生物参考数据库的选择显著影响物种注释分类的结果 [25,26]。《宏基因组测序病原微生物检测生物信息学分析规范化管理专家共识》[17] 中对 mNGS 常用微生物数据库的特征有较为详细的描述。目前没有任何一个公共数据库能够包含所有的潜在人类病原体的基因组信息(假阴性风险),且数据库中不可避免地存在一些注释错误或污染的序列(假阳性风险)[27]。因此在构建、使用和管理这类数据库时需要重点关注以下问题:
(1)充分评估数据库的全面性以及纳入物种在分类学上的代表性。同一微生物,往往具有遗传差异的不同亚型或株,在选择基因组时,应该考虑到微生物的遗传多样性,尽可能多地纳入不同亚型或株的高质量基因组;
(2)无论所选参考基因组的来源如何,实验室都需要通过重测序或其他技术手段确认其注释的准确性,序列的完整性,避免纳入错误注释、命名错误或代表性不足的微生物序列;
(3)病原体(尤其是 RNA 病毒)在自然状态下是不断发生变异的,所以需要及时(或定期)对参考数据库中的基因组信息进行更新及验证 [28,29],更新的频率取决于实验室或临床的需求,以及序列在公共数据库中的上传或更新时间 [28];发生可能影响结果的数据库修改、替换及更新等活动均需要重新进行评估;建议实验室每年对微生物数据库进行审核,必要时随时进行更新。但是对于使用本地化服务器的实验室,构建的数据库大小需要权衡服务器的计算能力以及报告的时效性要求。
mNGS 检测到的微生物常以读长数作为结果,但它受测序量、标本质量等因素的影响,并且同张芯片不同文库分配的下机数据量会有波动,所以有必要对读长进行归一化处理 [30]。建议将每百万测序读长中匹配到某一微生物基因组的特异读长(reads per million,RPM)作为归一化指标 [30]。如果希望比较不同微生物在同一文库中的读长,则还需考虑微生物基因组大小不同带来的差异(理论上,在相同条件下,基因组越长,测得的读长越多),建议通过计算每百万测序量下每一千个碱基的基因组长度的归一化读长来消除这种影响 [28]。需要注意,由于 mNGS 检测原理不同于 qPCR,RPM 不能作为微生物核酸的定量指标。
由于缺乏标准的 mNGS 生物信息学分析方案,各实验室自建分析流程内部使用的分析软件与数据库处在不断更新、确认及完善的动态过程中。为了保证每批次临床标本结果的可溯源性及可重复性,实验室需要明确每一次测试所使用的软件及数据库的版本,建议在报告单中体现,至少应包括分析日期、软件名称和版本号、对每个组成工具及算法的用户自定义参数和系统默认值等 [28],可使用版本管理工具如 Conda 完成 [31]。此外,可使用流程管理工具如 Snakemake 和 Nextflow 等对整个工具集进行版本控制。