
-
生物通官微
陪你抓住生命科技
跳动的脉搏
健身应用能否实现长期效果?一项针对516,818名加拿大用户的24个月准实验研究
【字体: 大 中 小 】 时间:2025年09月25日 来源:British Journal of Sports Medicine 16.2
编辑推荐:
本推荐基于一项为期24个月的大规模准实验研究,该研究首次证实了含微额经济激励(FI)的多组分商业健身应用能使用户设备评估的日常步数(PA)在两年内持续增加约250步/天。研究揭示了关键影响因素:低基线活动人群(<5000步/日)效果最显著(接近1000步/日临床阈值),而高活动人群则出现步数下降。该发现为健身应用在慢性病管理的长期应用提供了实证依据。
本研究旨在探讨带有微额经济激励(FI)的多组分商业健身应用是否能在两年内提升人群水平的设备评估身体活动量(PA)。次要目标是探索特定协变量对纵向效应的影响。研究方法采用24个月的前后测准实验设计,在加拿大安大略省实施(2016年12月至2019年6月)。用户在完成1-2周的基线评估后,通过达成每日步数目标可获得微额FI(0.04加元/天)。通过多元线性回归模型评估从基线到关键时间点(如24个月)的周平均每日步数变化。结果显示,样本包含516,818名用户(女性占62.83%;平均年龄33.46±12.65岁),其中47.15%在基线时为低活动水平(<5000步/日)。总体而言,所有关键时间点的步数均高于基线(例如24个月时增加242步/天)。结论指出,每日约250步的适度PA增加可持续2年;重要亚组(如起始季节较早、低活动用户)的增加量接近或超过1000步/天——这一水平具有临床显著性,但高活动用户则观察到显著的每日步数下降。
尽管主流应用商店中有超过10万个商业健身应用,但对其长期(>12个月)效果知之甚少。系统综述显示,目前尚无随机对照试验(RCT)研究健身应用超过1年的效果。短期和中期的PA增加可能在一年后减弱,而许多健康益处(如体重维持)需较长时间积累。此外,长期评估更可能识别常见障碍(如季节转换或生活事件)下的PA习惯化。用户每年在健身应用订阅和高级功能上花费约40亿美元,因此需获得长期效果证据。在快节奏的数字环境中进行纵向RCT具有挑战性(如保留率问题、软件开发成本),因此采用内部效度增强策略(如反事实比较、亚组分析)的稳健准实验可为长期有效性提供见解,同时探索背景因素(如人口和干预特征)的影响。
本研究经Western University人类研究伦理委员会批准,遵循STROBE报告指南。未监测不良事件(如运动损伤)。研究应用为Carrot Rewards(Carrot),这是一个带有微额FI的多组分商业健身应用,由Carrot Insights与加拿大公共卫生局和各省/地区卫生部合作开发。应用在安大略省的Apple iTunes和Google Play商店免费下载,正式启动于2017年2月9日,后因政府资金不足于2019年6月19日停用。研究设计为纵向前后测准实验开放试验,用户在不同日期(2016年12月至2018年12月)下载应用,数据收集持续至应用停用前一日。用户启动“Steps”功能前经历1-2周基线期(无个性化每日步数目标、无PA激励),期间被要求尽量佩戴设备(智能手机或Fitbit)。基线需至少5/14天(2017年7月26日前)或3/7天(2017年7月26日后)的有效步数(1000-40,000步/天)以生成基线步数(反事实)。此后,每周计算有效研究周(≥4有效天)的周平均每日步数。干预基于行为经济学和自我决定理论,行为经济学利用“现时偏见”通过激励刺激行为,自我决定理论关注外部代理或偶然性(如FI)对行为维持的影响。主要结局为周平均每日步数,数据来自HealthKit(iOS)或Google Fit(Android),通过单次应用打开记录前7天步数。协变量包括年龄、性别、起始季节、应用参与度(按步数数据检索周比例定义:罕见<25%;有限26%-50%;偶尔51%-75%;定期76%-100%)、地理位置(按安大略省邮政编码前一位数字)和基线PA水平(低:<5000;中:5000-7499;高:7500-9999;极高:≥10,000)。统计分析使用R V.4.4.0,纳入具有有效基线步数和至少一个其他有效研究周(第23-108周)的参与者,缺失协变量信息者被排除。针对主要目标,为总样本拟合调整多元线性回归模型,以评估Carrot在24个月内的 impact,固定效应包括周(109水平)、性别(3水平)、地理位置(5水平)、应用参与度(4水平)和起始季节(8水平)分类变量,以及年龄和基线步数连续变量。通过8周窗口(关键时间点前后4周)计算关键时间点的周平均每日步数平均值,非标准化事后对比估计各关键时间点与基线的差异,特别关注12和24个月与基线的比较(以允许同年季节比较)。计算标准化差异(Cohen’s d),效应大小阈值:≥0.0(非常小)、≥0.2(小)、≥0.5(中)、≥0.8(大)、≥1.0(非常大)。统计显著性使用双尾z检验(p<0.05)。计算12和24个月时步数差异≥1000步/天的用户数(临床显著性阈值)。针对次要目标,开发单独调整多元线性回归模型,以探索协变量水平(起始季节、基线PA、应用参与度、地理位置)对纵向效应的影响,通过非标准化事后估计和95% CI进行比较(重叠CI视为无差异)。
总分析样本包括516,818名参与者。基线平均每日步数为6035(SD 3706),47.15%用户为低活动水平。12个月研究保留率在47.85%-68.09%之间(冬季2016/2017至春季2018),24个月保留率为46.95%(冬季2016/2017)和38.20%(春季2017)。
总体而言,所有关键时间点均观察到周平均每日步数较基线有非常小的增加。基线约12个月后增加464步/天,24个月左右增加242步/天。6个月时的增加在12和18个月时基本维持,仅24个月时增加量较小。多元线性回归模型协变量估计显示,例如男性估计值上移285步/天。图中观察到季节对PA影响的步数起伏,例如冬季2016/2017起始用户在研究周52和104附近(加拿大较冷冬季2017/2018和2018/2019)经历周平均每日步数下降。106,726名用户(40.69%)在12个月时每日步数增加至少1000步(65,157名用户(24.84%)减少同量);24个月时24,937名用户(38.69%)增加1000步(17,208名用户(26.70%)减少)。
起始季节分析显示,每日PA奖励暴露至少12个月的较早起始季节(如春季2017)用户在12个月时经历小幅周平均每日步数增加(vs later起始季节(暴露<12个月)的非常小增加;例如春季2017=596步/天 vs 春季2018=80步/天)。较早起始季节的增加在24个月时减少(vs 12个月;例如夏季2017下降约10%)。低活动用户(24个月分析样本的49.63%;31,991/64,454)在12和24个月时观察到大幅增加(1986步/天)。相反,基线PA水平极高用户(24个月分析样本的11.79%;7601/64,454)呈现大幅至非常大幅下降(例如24个月时-3969步/天)。所有应用参与度水平在所有关键时间点均显示非常小至小幅增加。12个月时PA随参与度增加略有下降,但24个月时无此现象。所有地理位置均注意到非常小的PA增加,人口最稠密的大多伦多地区增幅最小。
2020年一项针对加拿大两个较小省份Carrot用户的12个月前后测准实验(n=39,113)发现类似结果:典型应用用户较基线(vs “最后两周记录”)增加449步/天。但研究局限性包括招募窗口短(2016年6月13日至7月10日)、参与者“最后两周记录”季节未知、无省内地理位置考虑、无一年以上数据收集,限制结论强度。证据综述表明健身应用在短期至中期(<12个月)产生非常小至中等效应(如Singh等的伞式综述为911步/天),这是本研究计算效应(6和12个月时468和460步/天)的两倍,但略高于每日PA奖励暴露至少一年的较早起始季节(12个月时约600-825步/天)。这些综述还提示,当干预包含目标和计划行为改变技术、提及行为改变理论、包含游戏化元素(如积分、进度条)、结合个性化、针对步数(vs 其他PA行为)且保留率较高时,健身应用效应更大。这些均符合Carrot干预特征。目前无RCT检验健身应用超过一年的效果,Kamada等(2022)的准实验研究是唯一超过一年的研究,其调查游戏化健身应用在20,052名日本棒球迷中22个月的效果,发现用户每日步数在3个月时增加574步(vs 匹配对照),维持至9个月,但此后(10-22个月)PA改善与对照无显著差异,归因于有限纵向数据和干预参与度减弱。有观点认为,若能有意义参与(如每月一两次应用打开)长期维持(12+个月)并辅以证据应用功能,则纵向效应可能实现。Carrot相对高的保留率(此前和本研究均约40% at 24个月)支持这一假设。
首先,按起始季节的“停用”分析表明每日PA奖励与干预头12个月的PA改善相关(如表3中春季2017 vs 春季2018)。替代解释可能是较早安装应用者(“早期采用者”)可能已准备好行为改变(如处于改变“准备阶段”)。但前两季(冬季2016/2017和春季2017)干预效果并不比后续两季(夏季2017和秋季2017)更有效,这在一定程度上减弱了这种可能性。此外,每日PA奖励提供一年后撤除,在成本较低支持(如每周PA奖励)仍存在时,基本维持了PA增加,这是从干预可持续性/可扩展性角度的重要发现,与较短持续时间研究关于部分或完全FI撤除的报道一致(如PA减少约25%)。其次,Carrot主要由高风险低活动安大略人使用——应用目标人群。低活动用户效应最显著(24个月时1986步/天)。相反,高活动用户观察到显著PA下降(如极高者24个月时-3969步/天)。低活动用户的PA增加可能部分源于有限内化动机(如“我不喜欢步行”)从而对外部FI偶然性更敏感,符合自我决定理论。另一方面,该理论表明外部奖励可能削弱或“挤出”个体内在动机——尤其是当内在动机原本就高时(如高活动者)——并损害未来行为。或者,均值回归可解释为何低活动用户呈现PA增加而高活动者减少。但几个因素最小化了统计回归可能性:更长时间(最多14天)、季节分布且更稳定的基线反事实估计;回归模型中包含协变量以平衡关键时间点/协变量水平分布并减少混杂;为各基线PA水平拟合单独模型(周作为分类变量捕捉非线性波动);第二个反事实(“停用”)模仿中断时间序列设计以分离应用真实效应;发现跨关键时间点(如低活动用户12和24个月时增加1967和1986步/天)和协变量水平(如相似早/晚起始季节效应大小)的一致性。最后,高活动用户的PA减少也可用霍桑效应(导致基线PA高估)或关键时间点附近较低应用参与度(较高活动者干预需求较低或因不现实高每日步数目标(高达15,000步/天)失去兴趣导致步数跟踪和/或减少)解释。第三,12个月时较大参与度伴随略小PA改善,但24个月时无此现象。这种反向和中性剂量反应关系与此前较短持续时间研究报道的正向关系不同。原因可能是影响行为维持的心理机制随时间开始转变(如更多自决导致更多PA),用户不再需要频繁交互健身应用(如朝向每日目标的进展变得直观,可视化反馈不再关键)。换言之,“治疗保真度”变得不那么重要。另一解释可能是参与度较低用户仅在更活跃研究周打开应用(如赚取奖励)。这种情况下,关键时间点步数可能被高估。据我们所知,此处观察到的剂量反应关系是新颖的且需复制。
鉴于全球身体活动不足率持续,这些发现可能鼓舞健身应用用户、医疗保健提供者、应用出版公司、研究人员、政府和大型组织(如健康保险公司)通过健身应用干预促进更健康、更积极生活。Carrot似乎促进了人群水平PA,部分因为它利用行为经济学(如通过即时奖励利用“现时偏见”)和自我决定理论(如通过自我效能促进每日步数目标培养内在动机)概念。但如实施所示,微额激励对Carrot政府合作伙伴长期吸收而言成本过高。需要更可持续FI模型(如限时 only、自资金存款合同或基于抽奖的FI)。融入有前景的人工智能主导应用功能(如大语言模型对话代理(“聊天机器人”)、机器学习驱动步数目标利用数据丰富性)可能支持长期参与和有效性,同时保持FI低成本。本研究缺乏心理结局评估(如运动行为调节问卷)阻碍了更好理解高活动用户的负面效应,未来研究应优先考虑。
首先,缺乏对照组限制了这一力求平衡内部与外部效并促进真实世界影响的准实验的因果推断。为 address 此限制,确定了“干预前”时期(基线)以允许反事实比较。研究周0和1之间显著PA增加提示与潜在基线趋势相比有立即干预效应。自然发生的每日PA奖励“停用”提供了第二个反事实比较(如早 vs 晚起始季节在12个月时)。若干其他研究设计(如理论接地干预、扩展数据收集)、数据分析(如调整基线值、按协变量水平单独(敏感性)分析)和解释(如报告效应大小和方差、与相关工作比较)阶段策略也强化了因果推断。其次,12个月时47.85%用户保留,24个月时38.20%,耗损偏倚可能限制结论强度。结果可能不推广至停止应用使用者。第三,测量(如智能手机应用步数计数在自由生活环境中准确性可能变化)和历史(即与干预无关的长期趋势(如天气))偏倚也可能限制结论强度。扩展数据收集(2年)在多个时间点(4个关键时间点) within 较小关键窗口(12和24个月时8周窗口)接近中断时间序列设计并为解释提供支持。第四,小比例用户(约3%)基线步数设定日期(用于标示起始季节)晚于首次记录步数日期,可能因用户卸载后重装应用。这些用户的起始季节可能误标。最后,虽然稳健PA“维持”定义尚未共识,操作定义超过一年是合理的(跨理论模型建议维持发生在6个月至5年间)。
本研究表明,通过健身应用干预可实现非常小但持续的人群水平PA增加。背景因素(如基线PA水平、地理位置、应用参与度和微额激励)的影响作用可能为未来更具影响力干预提供信息。
Carrot Rewards计划部分由加拿大公共卫生局资助。此处表达的观点不一定代表该局观点。本研究曾在2025年行为医学学会第46届年会和科学会议上展示。
生物通微信公众号
知名企业招聘