
-
生物通官微
陪你抓住生命科技
跳动的脉搏
评估SF-6Dv2在中国结直肠癌患者中的信效度及其与EQ-5D-5L的效度比较研究
【字体: 大 中 小 】 时间:2025年09月24日 来源:Frontiers in Oncology 3.3
编辑推荐:
本研究首次在中国结直肠癌(CRC)患者中系统评估SF-6Dv2的信度(test-retest reliability)和反应度(responsiveness),并与EQ-5D-5L进行效度比较。结果显示SF-6Dv2具有更低的最高效应(ceiling effect)、优异的组间区分能力(known-groups validity)和良好的反应度,支持其在肿瘤健康经济评估(HTA)与临床实践中的应用价值。
结直肠癌(Colorectal Cancer, CRC)是全球最常见的恶性肿瘤之一,发病率和死亡率持续居高。根据GLOBOCAN 2022数据,CRC在全球癌症发病率中排名第三,在癌症相关死亡率中排名第二,同时是所有疾病中导致死亡和残疾的第16位主要原因。2022年,CRC(包括肛门癌)新发病例超过190万,死亡病例90.4万,约占全球癌症负担的10%。在中国,CRC是第二常见的恶性肿瘤,也是癌症死亡的第四大原因。治疗通常涉及复杂、多模式的策略,如手术、化疗和放疗,这些治疗方式给患者带来显著的身体和心理负担。CRC的高疾病负担不仅影响患者和家庭,还给医疗系统和经济资源带来巨大压力。
健康技术评估(Health Technology Assessment, HTA)在通过提供证据基础的政策决策来减轻癌症护理的经济负担方面发挥着关键作用。国际卫生机构和方法学指南广泛推荐成本效用分析(Cost-Utility Analysis, CUA)作为HTA框架中经济评价的首选形式。CUA采用质量调整生命年(Quality-Adjusted Life Year, QALY)作为其主要结果,这是一种综合了生存时间和生活质量的结果指标。QALYs通过健康状态效用值(Health State Utilities, HSUs)对生存年进行加权,这些效用值反映了个体对特定健康状态的偏好。准确估计HSUs对于确保CUA结果的有效性和可信度至关重要。
在用于估计QALYs的通用多属性效用工具(Multi-Attribute Utility Instruments, MAUIs)中,EQ-5D和SF-6D是全球使用最广泛的工具,并得到多个国家HTA机构的认可。在中国,这两种工具均被纳入《中国药物经济学评价指南(2020年版)》,作为经济评价中效用测量的推荐工具。EQ-5D已在多种癌症患者中得到广泛验证,包括乳腺癌、肺癌、胃癌和头颈癌,其心理测量特性在大多数癌症人群中已得到充分证实。一些研究也证实了其在CRC患者中的心理测量特性。
SF-6D的原始版本(SF-6Dv1)是基于36项简短健康调查(SF-36)开发的。最新版本的SF-6D,即SF-6Dv2,是通过修订维度水平之间模糊的区分标准并统一SF-6Dv1中正负措辞的不一致性而开发的。原始版本SF-6Dv1已在癌症人群中广泛使用。与EQ-5D-5L相比,它包含更多维度,能够更细致地描述癌症患者的健康状态。特别是其“活力(Vitality)”维度已被认为是捕捉癌症相关健康结果的有用指标。然而,SF-6Dv1存在明显的局限性,包括响应级别严重程度排序不明确、维度措辞解释不一致以及相对较高的缺失响应率。这些问题促使了修订版SF-6Dv2的开发,以提高清晰度、一致性和整体心理测量性能。迄今为止,已在多个国家开发了国家特定的SF-6Dv2价值集,包括加拿大、伊朗、日本、澳大利亚、英国和中国,这些本地化的价值集为健康经济评价提供了更文化相关的支持。
新兴证据已经检验了SF-6Dv2在一般人群和患者中的心理测量特性。研究结果一致显示,EQ-5D-5L往往表现出比SF-6Dv2更强的最高效应,而SF-6Dv2表现出良好的收敛效度和重测信度。值得注意的是,反应度仅在一项研究中进行了评估——Ding等在中国COVID-19患者中的调查,报告了良好的结果。已知组效度的证据仍然混合:Xie等在中国一般人群中发现SF-6Dv2的区分能力优于EQ-5D-5L,而Xu等在晚发型庞贝病患者中报告了EQ-5D-5L的更好性能。
尽管SF-6Dv2是近期开发的,但评估其在中国癌症人群中应用的研究仍然有限。现有研究结果表明其在肿瘤学环境中具有良好的收敛效度和反应度。然而,Zhang等在淋巴瘤患者中报告EQ-5D-5L的重测信度优于SF-6Dv2,而Xu等在经典霍奇金淋巴瘤幸存者中观察到SF-6Dv2的已知组效度较差。但据我们所知,尚无研究评估SF-6Dv2在CRC患者中的心理测量特性。
本研究旨在评估SF-6Dv2在中国CRC患者中的测量特性,特别关注重测信度、收敛效度、已知组效度和反应度。
在2022年8月至2023年12月期间,从中国黑龙江省哈尔滨市的三家三级医院连续招募了287名诊断为CRC的患者。纳入标准如下:医学记录中确认的CRC临床诊断;年龄18岁或以上;能够阅读和用中文交流并完成自填问卷。符合条件的患者在住院期间被接触,提供书面知情同意,并接受由训练有素的访谈者进行的面对面访谈。收集社会人口学特征,包括性别、年龄、户籍、婚姻状况、教育状况、就业状况和经济压力。健康行为信息包括吸烟或饮酒,以及健康检查的频率。临床特征包括癌症类型、分期、治疗方式和东部肿瘤协作组(Eastern Cooperative Oncology Group, ECOG)体能状态,从患者住院病历中提取。使用中文版SF-6Dv2和EQ-5D-5L进行健康效用评估。基线后7天内重新联系参与者以确定首次随访的资格。受访者被询问他们感知的疾病进展情况,使用单项锚定问题:“您当前的疾病变化状态如何?”选项为“改善”、“无变化”或“恶化”。报告健康“无变化”的参与者被纳入重测信度分析。基线后4个月,再次联系参与者进行第二次随访,使用相同的问卷。这些数据用于评估SF-6Dv2的反应度。
研究方案经哈尔滨医科大学伦理委员会批准(批准号:HMUIRB2023005),并按照赫尔辛基宣言进行。
EQ-5D-5L包括两个部分来评估调查当天的健康状态。第一部分是一个描述系统,包含五个维度:行动能力(Mobility)、自我照顾(Self-care)、日常活动(Usual activities)、疼痛/不适(Pain/discomfort)和焦虑/抑郁(Anxiety/depression)。每个维度有五个响应级别,从“没有问题”到“极端问题”,允许3125种独特的健康状态。这些状态可以使用国家特定的价值集转换为效用分数。在本研究中,使用Luo等开发的中国EQ-5D-5L价值集得出效用值,分数范围从-0.391(状态55555)到1.000(状态11111)。第二部分是一个垂直视觉模拟量表(EQ-VAS),范围从0(最差的想象健康状态)到100(最好的想象健康状态)。
SF-6Dv2是原始SF-6Dv1的修订版,源自SF-36v2的10个项目,反映过去四周的健康状态。描述系统包括六个维度:身体功能(Physical functioning)、角色限制(Role limitations)、社会功能(social Functioning)、疼痛(Pain)、心理健康(Mental health)和活力(Vitality)。疼痛维度有六个级别,其余维度有五个级别,允许总共18750种不同的健康状态。使用Wu等开发的中国SF-6Dv2价值集生成效用分数,分数范围从-0.277(状态555655)到1.000(状态111111)。
通过评估处于最好和最差健康状态的受访者比例,我们评估了每种测量受最高和最低效应影响的程度及其相关影响。如果超过15%的受访者在量表的任一端获得极端分数,则认为存在最高或最低效应,这会损害相应维度区分不同健康状态的能力。
使用Spearman等级相关系数评估收敛效度,该系数测量EQ-5D-5L和SF-6Dv2的效用分数和维度之间单调关联的强度和方向。相关强度解释如下:强(r > 0.50)、中(r = 0.35–0.49)、弱(r = 0.20–0.34)和差(r < 0.20)。基于先前文献,我们假设SF-6Dv2和EQ-5D-5L的疼痛维度之间以及心理健康维度之间存在强相关性。
通过比较根据已发表证据假设存在差异的亚组之间的SF-6Dv2效用分数来评估已知组效度。预计以下患者会报告较低的效用分数:吸烟或饮酒者;接受不频繁健康检查者;癌症III–IV期者;接受手术治疗者;ECOG体能评分≥1者;或EQ-VAS分数≤65者。对于每个二分类变量(如性别),应用独立t检验,该检验在近似正态性假设下比较两组之间的均值差异。使用效应大小(Effect Size, ES)和相对效率(Relative Efficiency, RE)进一步评估区分能力。ES是一种组间差异的标准化测量,通过将组间效用分数均值差除以合并标准差(SD)来计算,并解释为小(ES < 0.2)、中(0.2 ≤ ES < 0.5)或大(ES ≥ 0.5)。RE是工具间比较效率的指标,计算为SF-6Dv2的t统计量平方除以EQ-5D-5L的t统计量平方。RE为1.0表示区分能力相等,值>1表明SF-6Dv2的区分性能更优,值<1表明EQ-5D-5L的性能更强。
使用组内相关系数(Intraclass Correlation Coefficient, ICC)评估从EQ-5D-5L和SF-6Dv2得出的效用值之间的一致性,该系数量化从不同工具获得的测量之间的一致性或差异程度。ICC值解释为低(ICC < 0.40)、中(0.40 ≤ ICC ≤ 0.75)或高(ICC > 0.75)。ICC使用基于绝对一致性的双向混合效应模型计算,该模型考虑了工具间的系统差异和随机误差。构建Bland-Altman图以直观检查两种工具之间的一致性,该图以图形方式显示均值差和一致限。如果均值差接近零且大多数值落在均值差的±1.96个标准差范围内,则认为一致性令人满意,表明差异主要是由于随机变异而非系统偏差。
使用首次随访7天内报告“稳定”健康状态的患者数据评估SF-6Dv2的重测信度,这反映了在未变化条件下重复测量的稳定性。使用ICC和Gwet's AC分别评估效用分数和维度分数的重测信度。ICC是一种量化连续测量可重复性的统计量,根据先前描述的标准进行解释。Gwet's AC是一种校正机会的一致性系数,比Cohen's kappa更不受患病率和边际分布的影响,用于分类响应。对于Gwet's AC,值<0.4表示信度差,值在0.4和0.75之间表示中信度,值>0.75表示信度良好。
通过将三个月后第二次随访时自我报告健康状态变化的患者分为“改善组”和“恶化组”来评估反应度。反应度通过标准化响应均值(Standardized Response Mean, SRM)进行评估,SRM是一种基于分布的指数,通过将均值变化相对于变化分数的变异性进行标准化来量化对变化的敏感性。SRM计算为均值变化除以变化分数的标准差,并解释为小(0.20 ≤ SRM < 0.50)、中(0.50 ≤ SRM < 0.80)或大(SRM ≥ 0.80)。
所有统计分析使用SPSS 24.0版、STATA 13.0版和AgreeStat360进行。p值<0.05被认为具有统计学显著性。
图1说明了参与者流程图。排除年龄低于18岁、回答不完整或提供逻辑不一致答案的个体后,基线共纳入287名CRC患者。其中,131名患者完成了首次随访访谈并符合7天内健康状态稳定的标准,而111名参与者在4个月时完成了第二次随访访谈。
表1展示了基线和随访评估中参与者的社会人口学和临床特征。在基线时,287名患者中58.5%为男性,平均年龄58.14岁。约69.0%为城市户籍居民。首次和第二次随访评估的患者信息呈现在表1中。
如图2和附录表A所示,EQ-5D-5L在各维度上表现出向更好健康状态的显著偏斜,大量受访者报告“没有问题”,特别是在自我照顾(56.4%)和日常活动(41.85%)方面。值得注意的是,48名患者(16.7%)报告了完全健康(11111)。相比之下,SF-6Dv2的响应级别分布更为平衡,仅9名患者(3.1%)报告完全健康(111111)。值得注意的是,多达48.1%的患者在活力维度报告了中度问题。
如表2所示,SF-6Dv2和EQ-5D-5L的效用分数表现出强相关性(r = 0.716),表明良好的收敛效度。在维度水平上,SF-6Dv2的身体功能维度与EQ-5D-5L的行动能力、自我照顾和日常活动维度表现出强相关性(r分别为0.550、0.524和0.527)。类似地,SF-6Dv2的疼痛和心理健康维度与EQ-5D-5L的疼痛/不适和焦虑/抑郁维度强相关(r分别为0.675和0.627)。相比之下,SF-6Dv2的活力维度与EQ-5D-5L的疼痛/不适维度相关性差,与其余EQ-5D-5L维度仅存在中度相关性。
如表3所示,报告吸烟或饮酒的患者、接受不频繁健康检查的患者、癌症III–IV期的患者、接受手术治疗的患者、ECOG体能评分≥1的患者以及EQ-VAS分数≤65的患者,其SF-6Dv2平均效用分数较低,与研究假设一致。在所有亚组中,EQ-5D-5L的平均效用分数通常高于SF-6Dv2,平均RE为0.876。SF-6Dv2在按手术治疗状态(ES:0.366 vs. 0.259,RE >1)和ECOG体能评分(ES:0.651 vs. 0.514,RE >1)区分组别方面表现出优于EQ-5D-5L的区分能力。相反,EQ-5D-5L在按吸烟或饮酒状态(ES:0.593 vs. 0.299,RE <1)、体检频率(ES:0.661 vs. 0.519,RE <1)、癌症分期(ES:0.317 vs. 0.041,RE <1)和EQ-VAS分数类别(ES:0.992 vs. 0.762,RE <1)区分亚组方面表现出更大的区分能力。
从EQ-5D-5L和SF-6Dv2得出的效用分数表现出中度一致性(ICC = 0.686)。如附录图B所示,Bland–Altman分析显示,4.18%的点落在一致限之外,超过95%落在-0.349至0.534的范围内。
表4总结了基于131名在7天随访期间报告健康状态无变化的参与者的重测信度结果。SF-6Dv2效用分数的ICC为0.866,表明信度良好。在个体维度中,身体功能维度显示出最高的信度(Gwet's AC = 0.669),而疼痛维度表现出最低的信度(Gwet's AC = 0.322)。
在参与4个月后第二次随访的患者中,根据ECOG分数的变化将他们分为改善组(n = 27)和恶化组(n = 36)。随后在这些患者中评估了SF-6Dv2效用分数的反应度。总体而言,SF-6Dv2在恶化组中表现出比改善组更高的反应度(SRM = 0.788 vs. SRM = 0.687)。详细结果呈现在表5中。
据我们所知,这是第一项在CRC患者中系统评估SF-6Dv2测量特性的研究。我们发现,与SF-6Dv2相比,EQ-5D-5L产生显著更高的效用值和更明显的最高效应,这与在血友病、淋巴瘤和一般人群样本中的发现一致。有几个因素可以解释这些差异。首先,SF-6Dv2包含一个额外的活力维度,该维度专门捕捉癌症相关的疲劳和能量损失——这是常见但经常未被充分认识的症状,在癌症患者中尤其普遍。其次,SF-6Dv2在疼痛等维度中使用多达六个响应级别,提高了对细微健康变化的敏感性。第三,工具的回忆期不同:EQ-5D-5L捕捉“今天”的健康状态,而SF-6Dv2涵盖“过去四周”,使其能够报告更多的健康问题,特别是慢性或波动的症状,而不仅仅是评估当天存在的症状。
本研究发现SF-6Dv2和EQ-5D-5L的效用值表现出中到高度相关(r=0.716),在疼痛和心理健康等相应维度中具有较高的相关系数(r>0.6),这与先前的发现一致。然而,SF-6Dv2的活力维度与所有EQ-5D-5L维度均表现出弱相关性,这可能反映了结构和关注点的根本差异。活力捕捉患者的主观能量水平,并高度受情绪状态(如焦虑、抑郁)和治疗副作用(如化疗引起的疲劳)的影响,导致其变异性比EQ-5D-5L中更稳定的、基于功能的维度(如行动能力和日常活动)更大。这些差异凸显了在选择或组合这些工具时需要考虑测量异质性。
已知组效度分析显示,SF-6Dv2和EQ-5D-5L表现出互补但 distinct 的区分优势。SF-6Dv2在功能和恢复相关领域表现更好,对于ECOG体能状态(RE = 1.953)和手术治疗(RE = 1.796)具有更大的效应大小和更高的相对效率。这一优势可能反映了其多维结构,特别是“角色限制”和“活力”领域,以及其4周的回忆期,允许捕捉持续的损伤、疲劳和术后恢复轨迹,而不仅仅是短期波动。这些特性使SF-6Dv2特别适用于评估CRC患者的长期功能结局。相比之下,EQ-5D-5L在生活方式和感知相关亚组中表现出更强的敏感性。它更清晰地区分了吸烟和饮酒(RE = 0.243)、癌症分期类别(RE = 0.014)、健康检查频率(RE = 0.689)和自评健康(EQ-VAS,RE = 0.559)的患者。这些发现强调了EQ-5D-5L作为一种简洁高效工具的优势,能有效反映生活方式行为、疾病负担、预防性健康使用和整体健康感知。综上所述,这两种工具提供了互补的视角:SF-6Dv2在更长的回忆窗口内强调活力和功能恢复,而EQ-5D-5L则提供了对生活方式相关差异和一般健康状态的简约而强大的评估。它们的结合使用可以丰富CRC患者报告结局的评估,并支持更全面的临床和政策决策。
本研究证明了SF-6Dv2效用值具有良好的重测信度(ICC = 0.866)。功能和心理领域表现出更高的稳定性,而症状相关领域如疼痛和活力则表现出较低的稳定性,这种模式可能归因于症状状态固有的更大的短期变异性,受治疗副作用和情绪波动的影响。来自中国的证据进一步支持了我们的发现:Xie等在超重和肥胖人群中报告了SF-6Dv2优异的重测信度(ICC = 0.972)。在中国背景之外,Nahvijou等在伊朗乳腺癌患者中观察到SF-6Dv2可接受的重测信度(ICC = 0.66)。总的来说,这些结果表明SF-6Dv2在不同人群中通常表现出令人满意到优异的信度,尽管信度大小可能因疾病概况和症状负担而异。
本研究发现SF-6Dv2和EQ-5D-5L之间的效用值一致性(ICC = 0.686)高于血友病患者(ICC = 0.41),但低于一般人群(ICC = 0.78)。Bland-Altman分析显示,健康状态越差,两种工具之间的效用值差异越大,这与淋巴瘤患者中的发现一致。
本研究证明SF-6Dv2对CRC健康状态变化敏感,在恶化组中观察到的反应度高于改善组。恶化患者中更大的效用下降表明在疾病过程中对健康变化的感知存在不对称性。在我们的队列中,超过一半的患者接受了手术治疗,肿瘤切除可能是效用增益的主要决定因素;然而,恢复轨迹经常受到持久后遗症(如造口相关并发症、肠功能障碍)和持续心理困扰(如复发恐惧)的限制,这些因素减弱了感知的改善并限制了改善组的反应度。相比之下,来自血液恶性肿瘤的证据——使用EQ-5D-5L、SF-6Dv2和QLU-C10D——表明在改善患者中的反应度强于恶化患者。这些不同的模式强调了健康转变的显著性和评估中存在癌症类型差异:在CRC中,恶化往往是立即和显著的,而改善,即使是切除后,也被体验为逐渐和不完全的。总的来说,我们的研究结果肯定了SF-6Dv2捕捉临床有意义变化的能力,同时强调了在疾病轨迹和患者报告经验的背景下解释反应度的重要性。
本研究有几个局限性。首先,使用方便抽样和自愿参与可能引入了选择偏倚,因为参与者可能病情较轻或治疗反应较好。这可能导致低估疾病负担,并降低检测健康状态亚组间效度差异的能力,从而限制了评估SF-6Dv2敏感性的能力。其次,在重测期间未同时收集EQ-5D-5L数据。尽管通过重复测量评估了SF-6Dv2的信度,但缺乏比较器限制了对工具间纵向一致性的评估,限制了关于SF-6Dv2适用于监测疾病进展的结论。未来研究应使用全国代表性、分层、多中心样本以提高普适性,并包括癌症特异性工具(如EORTC QLQ-C30)进行标准验证。这种方法将允许更全面地评估SF-6Dv2的结构效度、反应度和跨工具一致性,阐明其在肿瘤学相关经济和临床研究中的适用性和优化潜力。
据我们所知,这是第一项在CRC患者中系统评估SF-6Dv2测量特性的研究。SF-6Dv2在CRC患者中表现出相当的信度和反应度,在区分临床已知组方面优于EQ-5D-5L,并显示出在癌症实践和研究中的应用前景。
生物通微信公众号
知名企业招聘