基于学习的自动化程序修复技术：研究进展、挑战与未来展望

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Complex System Modeling and Simulation》：Learning-based automated program repair: A systematic literature review

【字体：大中小】 时间：2025年11月27日 来源：Complex System Modeling and Simulation CS13.7

编辑推荐：

　　本文针对软件缺陷修复效率低下的问题，系统综述了基于机器学习的自动化程序修复（APR）技术。研究人员从五大学习范式（监督学习、无监督学习、迁移学习、集成学习和语言模型学习）系统梳理了APR技术体系，通过对Defects4J等基准数据集的实证分析，揭示了当前技术面临修复精度不足、泛化能力弱等核心挑战，为突破复杂漏洞修复瓶颈提供了重要理论支撑。

在软件定义世界的时代，每一行代码都可能成为系统崩溃的导火索。传统软件调试如同大海捞针，开发人员平均需要花费数小时甚至数天定位并修复一个缺陷。随着软件规模呈指数级增长，人工调试已难以满足现代软件开发需求，自动化程序修复（APR）技术应运而生。然而，早期的基于规则或模板的APR方法存在明显局限性——它们只能处理特定类型的错误，缺乏适应复杂软件环境的灵活性。

正是在这样的背景下，深度学习技术为APR领域带来了革命性突破。将程序修复视为神经机器翻译（NMT）任务，让模型从海量代码库中自主学习错误修复模式，这一创新思路开辟了APR研究的新纪元。在《Complex System Modeling and Simulation》最新发表的研究中，Qijia Chen等人对基于学习的APR技术进行了系统梳理，不仅构建了完整的技术分类体系，更揭示了该领域面临的深层挑战与发展机遇。

研究人员采用系统文献综述方法，从ACM、IEEE等权威数据库筛选出代表性研究成果，从代码表示、学习机制到评估指标进行了多维度分析。关键技术方法包括：基于序列的补丁生成（将代码转化为标记序列进行转换）、基于抽象语法树（AST）的树结构分析、图神经网络（GNN）的代码关系建模，以及大语言模型（LLM）的生成式修复。研究特别关注了Defects4J基准数据集上的性能验证，涵盖了语法错误、语义错误和安全漏洞等多种缺陷类型。

3.1 基于序列的补丁生成

通过将输入代码转换为标记序列，把补丁生成建模为标记到标记的转换任务。研究显示，原始表示、代码上下文表示、提示表示和掩码表示四种代码组织方式中，结合上下文信息的表示方法能显著提升修复准确率。例如DLFix模型通过双向长短期记忆网络（BiLSTM）捕捉代码上下文依赖，在方法级代码修复中实现了较高精度。

3.2 基于树的补丁生成

针对生成补丁常出现语法错误的问题，研究者将源代码结构转换为抽象语法树（AST）。CODIT模型首先将代码转化为AST，通过树型LSTM学习语法变更模式，再使用Seq2Seq模型预测修复后的代码序列。这种方法有效降低了编译错误率，但处理复杂代码结构时仍存在效率瓶颈。

3.3 基于图的补丁生成

为捕获代码元素间的深层关系，Recoder等技术将AST转换为有向图，利用图神经网络学习节点间依赖关系。实验表明，这种方法在处理涉及多个变量的复杂缺陷时表现出色，但对计算资源要求较高。

4.1 监督学习

基于大量标注数据训练模型学习从错误代码到修复代码的映射。SequenceR采用双层双向LSTM架构，在Java程序修复中实现了端到端的修复流程。但这类方法严重依赖标注数据质量，且对未见过的错误类型泛化能力有限。

4.2 无监督学习

通过自监督方式从无标注程序中发现修复模式。BugLab模型通过协同训练检测器和选择器，在不依赖人工标注的情况下实现了错误检测与修复。这类方法虽降低了数据需求，但修复稳定性仍有待提升。

4.3 迁移学习

利用预训练模型（如BERT、GPT）在代码数据上获得的知识，通过微调适应特定修复任务。CIRCLE框架基于T5模型实现了跨编程语言的持续学习，显著提升了对新语种的适应能力。

4.4 集成学习

结合多个弱学习器提升修复效果。CoCoNuT技术融合卷积神经网络（CNN）和上下文感知NMT架构，在多种编程语言上实现了优于单一模型的修复性能。

4.5 语言模型学习

大语言模型（LLM）通过理解代码语义上下文生成修复建议。研究显示，ChatGPT在基础提示下成功修复了Defects4J中109个缺陷程序，但在复杂多错误场景中的表现仍需进一步提升。ThinkRepair创新性地采用思维链（CoT）提示技术，通过自动收集修复知识链提升了LLM的修复可靠性。

6.2 评估指标

研究系统比较了精度（Precision）、召回率（Recall）、正确补丁率（CPR）等指标的应用场景。实证发现，在正负样本分布均衡时，F1分数能更全面反映模型性能；而BLEU指标则适用于评估生成补丁与人工修复的相似度。

研究表明，当前APR技术仍面临四大核心挑战：复杂缺陷修复精度不足（仅能修复<20%的缺陷）、对新错误类型的泛化能力弱、计算资源需求高、补丁过拟合风险显著。这些局限性的根源在于模型对程序语义理解不足和领域知识缺失。

该研究的重要意义在于为APR技术发展指明了突破路径：通过融合程序分析技术与领域知识提升复杂缺陷修复能力；借助迁移学习和少样本学习增强模型泛化性；采用分布式计算框架优化修复效率；开发更强大的自动化验证工具降低过拟合风险。随着大语言模型在代码理解和生成方面的持续进步，基于学习的APR技术有望在软件开发自动化进程中发挥更重要的作用，为构建高可靠软件系统提供关键技术支撑。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号