综述:揭示偏倚位点:人群心理健康研究中偏倚来源的分类学探索
《Population Health Metrics》:Exposing the loci of bias: a taxonomical exploration of sources of bias in population mental health research
【字体:
大
中
小
】
时间:2025年11月23日
来源:Population Health Metrics 2.5
编辑推荐:
本综述系统梳理了流行病学研究中影响心理健康评估准确性的偏倚来源,受文艺复兴时期学者Rudolph Agricola分类学启发,构建了包含物质性(如结局指标特性、样本背景)和程序性(如数据收集、分析方法)偏倚位点的分类框架。作者强调在灾难与疫情(如COVID-19)心理健康影响研究中,需谨慎解读创伤后应激障碍(PTSD)、抑郁等指标因诊断标准(DSM-5/ICD-11)、样本脆弱性、暴露异质性及文化差异导致的估值波动,为公共卫生决策提供更可靠证据基础。
循证公共卫生政策的制定依赖于对人群健康状况、风险因素及脆弱性的有效评估。然而,当研究旨在确定特定因素(如灾难或潜在创伤事件暴露)的影响时,评估任务的复杂性尤为突出。研究者常面临诸多明显或潜在影响估计值可信度的因素。尽管已有大量研究致力于识别健康研究中的各种偏倚,但本文的独特目的在于系统分类和探讨流行病学研究中,特别是在暴露于或未暴露于潜在有害事件或环境的人群健康概念化与评估过程中出现的偏倚来源。本文的分类方法灵感来源于中世纪荷兰学者Rudolph Agricola的著作及其对“位点”(loci)的分类法。Agricola在《论辩证发明》(De inventione dialectica)中提出的位点分类法,为论证提供了结构化的信息源。本文则借鉴其思想,构建了一个用于系统概念化和评估流行病学研究中偏倚来源的现代分类框架。
偏倚位点指的是偏倚产生或可被观察到的具体点或来源。图2展示的树状结构包含了一些分支,使得能够对导致有偏观察的各种领域或因素进行独特的聚类。在最高层级,位点可分为“物质性”和“程序性”偏倚来源,分别与感兴趣的心理健康方面的实质或构成(评估什么)以及用于捕获或提取信息的技术(如何评估)相关联。
物质性位点分为两个簇:一个聚焦于“结局”的性质,另一个包含源自三个子簇(脆弱性、暴露和人口特征)的偏倚,这些子簇划定了结局的“背景”。程序性位点也形成两个簇:“数据收集”和“分析”,两者都以方法学偏倚来源为共同点。在树状结构的最低层级(图2右侧)显示了独特的偏倚位点。
有两个物质性位点簇可能影响流行病学研究中评估的心理健康问题的实质或构成。
结局类型存在多种选项。结局可能涉及一般健康状况(如幸福感或整体功能),也可能涉及特定的心理健康问题。结局范围可从严重障碍(如重度抑郁、焦虑障碍、创伤后应激障碍(PTSD)或延长哀伤障碍)到亚临床现象(如抑郁、焦虑、PTSD、哀伤、自杀倾向症状或一般性痛苦)。评估的结局类型至关重要:识别出的病例数量(无论是健康还是不健康)将取决于结局定义,并且在不同类别间差异很大。
心理健康状况是个人特质(稳定、持久)还是状态(暂时、情境性)的问题一直是学术争论的焦点。这种区分在心理健康影响评估中高度相关。结局本质上是可变的还是随日期或季节波动的,这对于将结局的变化归因于暴露、干预或其他因素至关重要。症状和情绪确实可能在监测时表现出波动性,而障碍或慢性状况通常以更持久的症状模式为特征,持续数月或数年,并且常常需要专业护理。
当感兴趣的结局涉及正式诊断时,需要标准化的诊断标准进行可靠评估。实践中,主流模型如DSM-5和ICD-11通常产生相似的估计值。然而,随着这些模型定期修订,障碍定义也在演变,基于不同版本的研究可能产生不一致的结果。
考虑到心理健康诊断标准的特殊性,应尽可能使用经过验证的测量工具。理想情况下,这些工具应在相同的语言或文化背景中,甚至更好的是在进行评估的特定人群中进行过验证。
工具开发者通常推荐特定的截断值来确定受访者的得分是否表明存在严重风险或超过诊断阈值。这些截断值是基于在给定人群中平衡敏感性和特异性而确定的。然而,当同一工具在不同人群中进行验证时,最佳截断值可能会发生变化。这会产生严重影响。不同的截断值会导致估计值的差异,并引发关于跨样本偏倚和可比性的问题。
另一个问题是评估反映的是新发病例数(发病率)还是一段时间内的总病例数(患病率)。尽管两者可以从同一数据中得出,但它们在概念上是不同的。在稳定状态的人口中,患病率、发病率和病程持续时间是相互关联的。在比较不同来源的发病率和患病率时,考虑所使用的操作定义及其影响非常重要。忽视这些区别可能会给计算出的平均值或汇总估计值引入偏倚。
结局簇中最后一个潜在的偏倚来源是评估所覆盖的时间范围。时间范围可以从“当前”到过去一个月、一年、自COVID-19大流行开始以来,乃至终生。已经证明,采用不同的时间范围会导致人群估计值存在显著差异,这可能受到记忆限制和回忆偏倚的影响。
至少可以识别出三个已确认会影响估计的心理健康结局的背景子簇位点。
第一个子簇由表明人口中个体脆弱性(及脆弱性历史)的因素组成。风险和保护因素(或健康决定因素)——包括年龄、性别、实际和感知社会支持程度、教育、收入以及既存健康状况——已在文献中得到广泛描述,无论是笼统而言,还是具体针对灾难和创伤相关心理健康问题。
基本假设是,具有越来越不利的脆弱性组合的个体和群体对第二个背景子簇——逆境暴露——的后果更为敏感。暴露可以表现为多种形式。初级暴露范围包括人们面临(可能的)死亡、严重伤害或失去亲人的事件和情境。可能的初级暴露列表非常广泛:有毒物质、恐怖主义、战争和武装冲突、流行病和大流行病、地震、风暴、飞机、火车或船舶灾难、交通事故以及身体或性暴力。尽管对暴露的原因及其健康后果的因果归因仍然具有挑战性,但灾难暴露对心理健康的深远影响已得到充分证实。暴露的类型很重要,包括其长期影响。此外,重复、累积或慢性暴露(表明暴露史)与心理健康问题的增加相关。
此外,重要的是要“超越火焰本身”考虑次级暴露。次级应激源大多是社会因素和人们生活环境的函数,包括在重大事件发生之前即存在并在事件期间影响他们的政策、实践以及社会、组织和财务安排,以及社会和组织对事件或紧急情况的响应。这些应激源伴随着心理健康风险的增加。
暴露在灾难时间线的不同阶段可能有所不同。许多研究记录了疏散和搬迁对心理健康的影响。房屋损失或住房损坏也会影响心理健康和幸福感,而失去工作可能比失去家园产生更强烈的影响。挑战在于避免将暴露过度简化为一个单一的、独立事件的陷阱。在现实情况下,暴露是威胁和损失的复杂且动态的组合。
第三个背景子簇包括作为被评估人口更广泛背景组成部分、并已被证实与心理健康相关的因素。这包括时间因素——进行评估的时间点。情绪和心理健康问题已被证明在不同阶段会发生变化,暴露和脆弱性因素的构成以及受影响人口的需求和问题也是如此。还可能存在季节性效应,例如在假期期间,人们可能无法参与调查或拜访医疗保健提供者。除了这些例外情况,一个连贯且不断增长的知识库记录了在暴露于潜在创伤事件和损失(包括灾难和大流行病)后的心理健康轨迹。通常,最常见的轨迹表明在最初几个月和几年内具有韧性或恢复。更普遍地,并且从长期角度来看,几项纵向研究表明,一般人群的心理健康随时间推移逐渐恶化。从时间视角来看,在审查特定事件和暴露的短期和长期影响时,必须考虑这些更广泛的模式。
许多研究强调了空间和地理因素的重要性,例如风险与实际暴露的接近程度。一些跨国比较指出了区域差异。然而,区域间的差异可能与其他位点相关,特别是文化、社会经济和制度因素。
在文化因素方面,一些研究报告了文化价值观或维度与心理健康之间的关联,以及不同国家间心理健康污名的差异。其他研究则验证了文化维度与社会经济维度之间的关联。
社会经济因素本身可能是偏倚的来源。在严重的心理健康问题方面,似乎存在一个悖论:脆弱性较低、较富裕国家的人口研究报告的患病率更高。相反,幸福感以及个体症状(如悲伤、担忧或不快乐)在较富裕的环境中往往表现出更有利的结果。
嵌入人口背景中的最后一个偏倚来源,源于历史或近期政策决策的制度因素。这些因素影响了对心理健康社会决定因素的处理方式,既助长了不平等,也有助于解释人群之间的差异。制度因素通过广泛的社会决定因素网络,不仅塑造了脆弱性,还影响了一级、二级和三级医疗保健系统中预防、诊断和治疗的可及性——这些问题对于那些试图评估和理解人群心理健康的人来说至关重要。
数据收集围绕选定的目标人群展开。这可能包括一般人群(成人或儿童和青少年),可能带有或不带有对特定风险、情境或事件暴露的关注。实际上,数据收集可能涉及从社区招募选定参与者、从精神病院或诊所招募患者、飞机失事幸存者或丧亲父母。这些人群的可及性各不相同。特别是,寻求帮助的样本对于识别医疗保健需求可能具有参考价值,但此类评估的代表性本质上是有限的。
数据源可能包括日记、访谈、社交媒体帖子、问卷、患者记录、健康登记库或实验室数据。每个数据源都有其自身潜在的偏倚,与其质量相关,并取决于哪些因素促进或阻碍了将参与者心理健康纳入评估。例如,健康登记库和患者记录通常只捕捉冰山一角,因为它们反映了更持久和临床相关的健康问题及相关医疗资源使用情况。相比之下,社交媒体内容和人口调查可以深入了解医疗领域之外的心理健康体验。
实际参与者也很重要。每个参与者都是其心理健康被记录的特定目标群体的代表。数据记录者可能是参与者自己,也可能是其他行动者——例如,代表孩子回答问题的父母、训练有素的非专业访谈员,或作为临床文档一部分常规记录患者数据的医疗保健专业人员。记录者的身份和培训本身就可能造成偏倚。
用于接触参与者的抽样方法是偏倚的根本来源。抽样方法大致分为概率抽样和非概率抽样。概率抽样确保总体中的每个成员都有已知的被选中机会,从而允许对整个群体进行统计推断。相比之下,非概率抽样涉及非随机选择技术,如方便抽样、滚雪球抽样(例如,在难以接触的群体中,如未登记移民或无家可归者)或基于判断或标准的目的性抽样。虽然这些方法通常更容易、更快捷地实施,但它们会降低代表性并增加偏倚风险。因此,样本中某些脆弱性、暴露或人口特征可能被过度代表或代表不足。已发现非概率抽样会高估心理健康问题的患病率。
测量时机也会影响评估。一周、季节或一年内的时间点、灾难时间线中的阶段、经济状况或既有的心理健康趋势,都可能影响人群的心理健康。
一个相关因素是测量持续时间。在处理大规模或难以接触的人群时,数据收集可能会延长。在某些情况下,数据收集持续一年或更长时间。在此类时间范围内,波动(无论是有意义的轨迹还是季节性效应)被合并为平均值,限制了数据用于理解纵向发展的效用。
响应率也影响评估的代表性和有效性。目标人群中的某些成员可能不愿意或无法参与调查,可能在完成调查前退出,或者可能无法进行随访或失访。这些不响应模式可能是随机的,也可能是系统性的,甚至可能与更广泛的国家层面社会经济特征相关。例如,在一项涉及24个国家的跨国PTSD研究中,发现响应率与国家脆弱性指数之间存在0.71(p < .001)的相关性。与可能预期的相反,与创伤相关调查的情感负担似乎不会对后续的创伤和非创伤调查的响应产生负面影响,因此不会偏倚研究结果。
可以使用激励措施来提高参与度。经济激励(如现金、礼品卡、折扣)或免费服务可能会说服个人参与。这些效果已有充分记录。虽然并非本身有问题,但如果激励措施不成比例地吸引了具有与较高心理健康风险相关的脆弱性或暴露特征的个体,则可能引入系统性响应偏倚。一种不那么有形的激励——在与特定风险相关的人群健康研究中尤其相关——是参与者在自己的经历得到承认时可能感受到的认可感。当机构、政府或媒体被认为淡化或忽视健康和安全关切时,这一点尤为突出。即使关切是合理的并且评估是本着诚意进行的,高度动机个体的自我选择也可能导致有偏的结果。
最后,样本量虽然严格来说不是偏倚的来源,但在此背景下是相关的。在许多情况下,代表性(可能受上述位点影响)比参与者数量更为关键。更大的样本可以减少随机误差,但不能防止系统偏倚。样本量也决定了在后续分析中探索和减轻其他偏倚来源的能力。
这把我们带到了最后一个簇,它强调了从收集数据的分析中产生的偏倚来源。虽然分析可以是减少偏倚的有效工具,但讽刺的是,它也可能引入偏倚。
分析引起的潜在偏倚的第一个来源涉及健康结局和预测因子可以被视为独立实体的程度。重叠的构念或变量可能会严重损害定量和定性分析。多个感兴趣的结局可能相互交织,即使它们被当作独立的实体处理并使用经过验证的工具进行测量。这些工具可能仍然捕捉到其他心理健康状况的特征。当预测变量存在类似重叠时,与结局的关联可能变得同义反复。最终,在单一评估中测量的几个概念可能都充当参与者总体幸福感的代理指标,包含了大量的共享方差。将它们视为独立现象可能比看起来更有问题。
本文探讨的偏倚位点,原则上既不罕见也不孤立;相反,它们共同嵌入每一个心理健康评估中。因此,缺乏校正或控制措施应被视为一个总体的偏倚来源。当采取 deliberate 步骤来预防或减少此类偏倚,或能够合理地排除它们时,研究的价值就会增加。这一原则同样适用于系统评价和荟萃分析。理想情况下,应进行方法学质量和偏倚的评估。尽管存在国际框架、工具和指南,研究人员有时仍会在未同时控制相关偏倚的情况下计算汇总患病率估计值——即使有适当的统计技术可用。这些并发校正对于避免将效应错误地归因于单个因素(而该因素实际上可能被另一个因素混淆)至关重要。
统计假象不是真实的关系或效应;它们是由数据处理或分析方式引起的扭曲或误解。例子包括探索性因子分析中使用的旋转类型、识别潜在类别的技术、多层级数据结构、分布形状、模型适当性、异常值处理、数据转换、代表性校正以及未检查的多重共线性或混杂。这些中的每一个都可能导致模型欠拟合或过拟合、方差膨胀以及其他形式的有偏估计——无论是由于疏忽还是 deliberate 选择。
当目标是评估结局随时间或特定暴露(如灾难或医疗干预)后的变化时,需要基线或对照组。然而,在这种情况下,参照组可能面临与研究组相似的偏倚来源。
一个特殊的分析挑战是区分哪些特征属于个体,哪些属于他们所属的群体。这种区分在单个观察层面和纵向研究中都至关重要,在纵向研究中,将个体内部的变化与群体层面的噪音隔离开是必不可少的。
最后要避免的陷阱是陷入个体主义谬误或生态学谬误。个体主义谬误发生在基于个体数据错误地得出群体层面的结论时(例如,仅仅因为某些人在灾难后患上PTSD,并不意味着每个人都会)。生态学谬误发生在从群体层面数据得出关于个体的结论时(例如,人群中女性PTSD患病率较高,并不意味着所有女性个体的风险都增加)。
本文旨在系统分类和探讨流行病学健康研究中的偏倚来源,重点是心理健康评估。为此,借鉴了类似性质的古典实践,概念化了一个分类学框架。这种方法背后的基本原理是,可以通过基于共享特征将项目分类来系统地组织信息。自然,对于某个项目是否被恰当标记、是否与其他项目重叠或应属于不同类别,总是存在争论的余地。因此,当前框架应被视为仅仅是一次分类的尝试——一个实用的启发式工具,说明了识别偏倚来源的可能“发现地”或“猎场”的多样性。
所提出的分类法包含了偏倚来源的例子,这些来源单独或组合可以影响心理健康问题的估计。这些范围从结局本身的性质,到人群的背景特性,再到数据收集方法和所使用的分析技术。在实践中,这些来源之间的相互作用通常是复杂的,并不局限于簇或子簇的边界。文化特征可能嵌入在诊断标准和症状表达中。制度选择可能反映在社会决定因素中,而社会决定因素又塑造了测量背景和被测量的个体。
研究人员若认真对待其工作,规范地讲,应努力最好地最小化偏倚来源,至少在设计或进行评估时意识到它们。偏倚来源与I类错误和II类错误相关,这是假设检验中的两个常见问题。能够清楚解释包含了哪些位点、对考虑其他偏倚来源持开放态度,并明确承认任何局限性或需要进行后续评估的研究人员——特别是当他们与结果没有既得利益时——更可能被视为值得信赖。
谦虚是恰当的。简单的事实是,偏倚来源无处不在,并且常常隐藏在显而易见之处。此外,虽然“所有研究都存在偏倚,但有些研究的偏倚更大”这一观点可能有效、吸引人且最重要的是诚实,但从务实的角度来看,期望在单一健康评估中解决每一个偏倚来源是不现实的——无论是在灾难、潜在创伤事件还是其他背景下进行的评估。在研究和健康评估的设计和实施中解释这些偏倚的责任,以及确保没有一个单一关切(例如,暴露、脆弱性或干预)被过度强调而其他可能更紧迫的问题被忽视的责任,在今天可能比以往任何时候都更加重要。
这意味着,学者们应按照科学严谨性的基本规则,使彼此能够评估所应用设计的优缺点。这可能看起来像是陈述显而易见的事实;然而,数据收集和分析的详细方法并非总是在科学研究中清晰报告,即使是在信誉良好的同行评审期刊上发表的。随后,未来关于分类法的工作不应局限于偏倚研究本身。此类工作还应通过建立具体的指南来推进协调统一,使研究人员能够在其研究中系统地考虑偏倚。
本文提出了一个偏倚来源的分类法,这些来源单独或组合可能影响人群健康评估。这些包括物质性偏倚来源(如结局的性质和样本背景,包括脆弱性、暴露和人口特征)和程序性来源(涉及数据收集和分析方法)。鼓励研究人员仔细考虑这些偏倚的“位置”或“起源”,并谨慎解读研究结果——特别是在使用它们为公共卫生政策提供信息或就人群健康问题的性质和严重性进行论证时。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号