【技术实现步骤摘要】
基于预训练模型T5的编程问答帖子标题自动补全方法
[0001]本专利技术涉及计算机
,尤其涉及基于预训练模型T5的编程问答帖子标题自动补全方法。
技术介绍
[0002]作为一个供开发人员解决编程问题的共享问答网站,Stack Overflow吸引了数以百万计的编程爱好者和开发人员。开发人员可以通过发布或浏览高质量的问题帖来寻求问题的解决方案,提升编程能力。虽然Stack Overflow中问题帖的数量一直在快速增长,但研究人员发现,有相当数量的问题贴质量很低,无法及时吸引Stack Overflow中其他开发人员的注意。这些低质量的问题帖子不仅阻碍了潜在的回答者及时对帖子进行回复,也阻碍了知识生成和分享的过程。
[0003]然而已有研究表明产生低质量问题贴的主要原因之一是开发人员没有创建信息丰富的问题标题。一个简洁、准确的标题可以提高帖子的质量,从而帮助开发人员快速了解问题帖的关键信息。然而实际开发过程中由于缺乏领域知识或表达写作能力较差,开发人员不能很好的总结提炼问题标题。因此,为这些问题贴生成高质量的标题成 ...
【技术保护点】
【技术特征摘要】
1.基于预训练模型T5的编程问答帖子标题自动补全方法,其特征在于,包括以下步骤:(1)搜集高质量问题贴:使用编程语言标签从Stack Overflow中搜集相关问题贴,并设计四条启发式规则过滤低质量问题贴;(2)语料库的构建及预处理:从上述问题帖中提取有效信息组成<问题标题,问题描述,代码片段>三元组,形成初始语料库,并对每个实例的完整标题进行变体操作,每个变体的结尾都有不同数量的单词被屏蔽,形成残缺标题;(3)标题补全模型的构建:通过连接残缺标题和帖子内容,即问题描述和代码片段对多模态输入进行建模,采用多任务学习,微调基于Transformer的T5模型,得到标题自动补全模型;(4)标题补全模型的应用:通过分析开发人员提供的问题帖子的内容和提示信息,经过训练的模型在开发人员编写问题标题时提供完整的补全建议。2.根据权利要求1所述的基于预训练模型T5的编程问答帖子标题自动补全方法,其特征在于,所述步骤(1)中设计四条启发式规则过滤低质量问题贴,具体包括如下步骤:(1
‑
1)启发式规则一,提取的问题帖的分数必须大于等于10;(1
‑
2)启发式规则二,提取的问题帖必须包含代码片段;(1
‑
3)启发式规则三,提取的问题帖中必须具有一个被接受的回答作为最终答案;(1
‑
4)启发式规则四,提取的问题贴的标题长度必须大于等于4。3.根据权利要求1所述的基于预训练模型T5的编程问答帖子标题自动补全方法,其特征在于,所述步骤(3)中构建标题自动补全模型,包括如下步骤:(3
‑
1)通过添加前缀prefix来区分不同编程语言的标题补全任务;(3
‑
2)建模多模态输入:通过将不完整的标题X
incomp
与问题帖子的内容连接起来表示多模态输入,其中包含问题描述X
desc
和代码片段X
code<...
【专利技术属性】
技术研发人员:周彦琳,陈翔,杨少宇,裴加华,张子晨,黄一麟,
申请(专利权)人:南通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。