"Leveraging Context-Aware Prompting for Commit Message Generation" 论文笔记
<h2 id="介绍">介绍</h2><p><strong>(1) 发表:EMNLP'24</strong></p>
<p><strong>(2) 背景</strong></p>
<p>现有方法通常存在一些缺点,例如只关注变化的行是不够的,或者在变化周围包含不相关的行会带来噪声。如图 1 所示,添加和删除的代码实际上是相同的,只是位置不同,导致代码更改定义不明确。此外,由于缺乏程序依赖关系分析,更改的行和程序的未更改部分之间的关联尚不清楚</p>
<p><strong>(3) 贡献</strong></p>
<p>基于代码属性图(CPG)理论的许多静态分析工具,本文提出了一个上下文感知的 Prompt。同时构建了一个上下文增强的的代码数据集 CODEC 用于提交信息生成</p>
<h2 id="工作">工作</h2>
<p><strong>(1) CODEC 数据集</strong></p>
<p>由于现有数据集缺乏对代码更改上下文的监督信号,因此我们为本文所研究的任务构建了自己的数据集</p>
<ul>
<li>
<p>收集:使用 PyDriller 在 Github 上手机至少 1000 Star 的 Java 存储库,除了源代码更改外,还记录了更改部分的上下文</p>
</li>
<li>
<p>过滤:使用了四种过滤规则</p>
<p>① 当更改的行数较多时,大多数自动生成的注释都是不可靠的,因此超过 20 行的更改将被忽略<br>
② 提交信息应有长度限制,少于 5 个单词的消息没有信息,而大于 150 个单词的消息可能会令人困惑<br>
③ 仅更改 Java 文件<br>
④ 删除不相关的信息,例如 issueID、commitID 和 URL</p>
</li>
<li>
<p>优化:根据之前的研究,仅考虑提交信息的第一句话。本文还给构建了一个 Bi-LSTM 模型以进保留 Why/What 的信息</p>
</li>
</ul>
<p><strong>(2) COMMIT 模型</strong></p>
<p><img src="https://img2024.cnblogs.com/blog/3614753/202509/3614753-20250922152929793-1727566345.png" alt="image-20250921105822773" loading="lazy"></p>
<ul>
<li>
<p><strong>构建 Added-Deleted Context Graph:</strong>使用静态代码分析工具 Joern3 为更改前后的代码构建两个 CPG,分别用于删除的行和添加的行,保留删除或添加部分的依赖节点。通过组合两个 CPG 得到 ADCG,然后可以通过程序切片从 Diffs 中提取 ADCG 节点指示的有用上下文语句</p>
</li>
<li>
<p><strong>依赖提取算法:</strong>考虑到过度平滑和平衡模型复杂性和效率之间的负面影响,我们将依赖关系的范围限制在一定深度。构建的算法可以在特定深度内从 ADCG 访问更改的语句</p>
<p>ADCG 中每个节点对应一条语句(或行),边表示语句之间的数据依赖或控制依赖。算法首先将变化的代码行作为初始节点集合,并基于它们构建初始的切片,然后以代码切片为工作队列,迭代地取出依赖关系:如果某个依赖片段的深度未超过预设的依赖深度,就检查其源节点或目标节点;一旦发现新的相关节点(即在依赖映射中能连接到尚未加入的节点),就将其加入依赖节点集合,并把新的依赖边加入切片中,等待后续处理。这样,依赖图会像“向外扩散”一样逐步更新。最后,算法收集所有相关节点的代码行作为结果,并将最初的变化行去除,只保留通过依赖传播得到的受影响行</p>
</li>
</ul>
<p><strong>(3) Prompt 设计</strong></p>
<p>将每个提示扩展成四个特定的模版,每个模板都由任务提示、代码差异和基本事实提交消息组成,在实验阶段分别对 T1~T4 进行实验来验证对于提示变化方面的鲁棒性</p>
<p>最终的优化函数如下:</p>
<p></p><div class="math display">\}(\max\prod_{j=1}^zP_\theta(z_j|x,f_{prompt},z<j))
\]</div><p></p><h2 id="实验">实验</h2>
<p>总而言之就是取得了 SOTA,然后验证了 Context-Rich 信息的正面提升</p>
<h2 id="总结">总结</h2>
<p>解决了现有提交信息生成未考虑上下文依赖关系变化的问题,并且基于此提出了一个方法和数据集</p><br><br>
来源:https://www.cnblogs.com/mianmaner/p/19105372
頁:
[1]