从无序状态到清晰,数据预处理和统计选择影响着定量环境DNA(eDNA)分析
环境DNA(eDNA)分析具有极大潜力,可以提高物种检测灵敏度并估算物种丰度。快速增长的用户基础、持续的方法开发和优化催生了多样的eDNA捕捉和分析方法。尽管在标准化现场和实验室方案方面已做出重大努力,但在理解数据预处理和统计选择对最终结果的影响方面,尤其是在定量电子DNA分析方面,仍存在明显空白。这些见解对于制定协调分析工作流程的最佳实践指南至关重要。
为弥补这一空白,我们进行了广泛的文献综述,重点关注定量物种特异性eDNA研究。我们评估了数据的多样性,通过预处理和统计选择来评估eDNA浓度与物种丰度或生物量之间的相关性,并在可用时收集了原始数据集。随后,我们应用常用的数据分析策略,制定了提高定量eDNA分析可靠性和可重复性的通用建议。
我们的结果表明,现有文献中统计方法并不总是被清晰描述,原始数据很少公开。此外,用于评估定量相关性的数据预处理策略和统计检验的选择,会显著影响检测到正相关的可能性和效应量。
总体建议如下:(i) 提高方法描述和数据可用性的透明度;(ii)使用能够考虑数据特征的混合效应模型评估相关性;(iii)避免预处理定量eDNA数据,尤其是在与次优统计检验结合时。实施这些指南应提升定量eDNA数据的可访问性和透明度,最终提升管理者和政策制定者的使用价值。
1 简介
分析环境样本中的DNA,通常称为环境DNA或eDNA,已成为一种强大、经济且非侵入性的物种检测工具(Ficetola等,2008;Pilliod等,2013;Takahara等,2012)和社区监测(Bista等,2017;Creer等,2016;Hänfling 等,2016)。近年来,用户数量的爆炸性增长、持续的方法开发以及eDNA分析的广泛采用,催生了多样化的eDNA捕捉和分析方法(Hakimzadeh 等,2023;Tsuji 等,2019)。这种快速扩展促使了制定明确指南和标准化协议的需求(Goldberg 等,2016;Loeza-Quintana 等,2020;Mathon 等,2021)。尽管对现场和实验室方法给予了大量关注,但对数据预处理及可能的统计选择对最终结论的影响并未给予同等程度的重视。
准确建模eDNA数据需要仔细考虑数据的固有特征。首先,环境DNA调查数据通常具有层级结构,通常从多个地点采集多个样本,每个样本有多次PCR重复(Buxton等,2021;Picetola等,2015;Furlan等,2016)。分析需要适应这种层级数据结构,因为来自同一地点的样本和相同样本的PCR复制不会彼此独立。其次,调查以计数形式生成数据(即复制L)−1(C/L)或读数)理论上只能取正整数值(例如,一升采样水不能含有半份DNA副本)。分析此类数据的常见方法是假设计数为泊松分布。然而,计数数据的方差通常显著大于平均值,导致过度离散(Bliss & Fisher,1953),分析中需要加以考虑。第三,零值很常见,可能代表假(例如与采样或实验室协议错误相关的)或真正的零(即某物种因不存在于采样点而未被检测到)。零计数频率高于预期,会导致零通胀(Blasco-Moreno 等,2019;Heilbron, 1994),分析中也需要考虑这一点。因此,考虑数据结构、超离散和零通胀对于得出合理统计结论至关重要,但仍是一项具有挑战性的任务(Arnqvist, 2020;Blasco-Moreno 等,2019;艾夫斯,2015;O'Hara 和 Kotze,2010;St-Pierre 等,2018;Warton 等,2016)。
环境DNA调查广泛用于物种检测,但也可用于估计物种丰度或生物量,因为在理想条件下,通过定量物种特异性eDNA调查(即使用定量实时PCR(qPCR)或数字PCR(dPCR))获得的DNA拷贝数估计,将与物种丰度(A)或生物量(B)呈正相关。被广泛采用了多种数据预处理策略和统计方法来估计这些关系,这也引发了不同方法是否可能导致不同结果和结论的问题。在某些情况下,数据的层级结构(例如采样多个站点、中宇宙或实验罐;每个站点采集多个样本;执行多次PCR重复)会被纳入统计模型规范中(Eichmiller等,2016;Hinlo等,2018;Lacoursière-Roussel 等,2016)。在其他情况下,层级结构被忽略,或通过样本和/或PCR重复的平均来简化数据(Doi 等,2017;Kutti 等,2020;Skinner等,2020年;Thalinger 等,2019)。许多研究通过对数转化eDNA浓度数据处理了过度分散计数的问题,这通常能稳定方差(Doi等,2015;Dougherty等,2016;Thomsen 等,2012)。然而,数据转换对统计分析的影响仍存在争议(Ives, 2015;O'Hara 和 Kotze,2010)。为了解决eDNA数据中零膨胀的问题,一种方法是建立eDNA定量的下限。这可能包括过滤掉检测极限(LOD)或量化极限以下的零值或值(LOQ;Dunn 等,2017;Takahara 等,2012;Takahashi 等,2020),尽管该方法忽略了真正的零点(Blasco-Moreno 等,2019;Klymus 等,2020)。另一种常见的减少零通胀方法是在分析前对复制次数进行平均值(即取每个样本或站点的平均值)(Dougherty等,2016;Spear 等,2021)。然而,平均法消除了数据生成过程固有的变异性。此外,还应用了多种统计检验来评估电子DNA浓度与丰度或生物量(A/B)之间的相关性,包括Pearson或Spearman相关(Jo,2023;Plough 等,2018),线性或广义线性模型(Eichmiller 等,2016;Pilliod等,2013)和贝叶斯模型(Erickson等,2016)。这些不同的统计选择可能强烈影响最终结论(Arnqvist,2020; Gould 等,2025)。
据我们所知,有两项研究评估了不同数据预处理策略(Jo, 2023)或统计检验(Chambert 等, 2018)对定量物种特异性eDNA数据的影响。然而,对最常见的数据预处理策略与统计检测的综合影响的全面评估尚不足。为弥合这一空白,我们系统地检索了定量物种特异性eDNA研究,这些研究评估了eDNA浓度与物种A/B之间的相关性。我们评估了现有文献中多样化的数据预处理策略和统计选择,并检查了原始数据的可用性(即所有复制层次均可获得测量数据)。随后,我们确定了常见的预处理策略和统计检验,并应用它们重新分析现有的实证数据集。具体来说,我们评估了(i)定量eDNA数据分析过程中常见的分析选择及其方法的变异程度,(ii)这些分析选择如何影响检测eDNA丰度相关性及其效应量的能力。最后,我们利用结果确定了关键考虑因素和最佳实践指南,以提升定量eDNA分析的可靠性和可重复性。