基于大语言模型的富文本代码审查方法、系统及介质技术方案

技术编号：41614324 阅读：52 留言：0更新日期：2024-06-13 02:18

本发明专利技术公开了一种基于大语言模型的富文本代码审查方法、系统、介质及设备，主要针对复杂的富文本文档进行代码审查。该方法预先构建不同编程语言的知识库，包括语法、句式等，对于不同的编程语言设计对应的代码审查提示词，作为大语言模型的额外知识；获取待审查的富文本数据，使用正则匹配的方法提取出富文本中的代码内容，对富文本数据进行正则解析匹配，确定富文本数据中每个代码块的编程语言并提取每个代码块的内容；将每个代码块和代码审查提示词一起输入到经过微调的大语言模型中，利用大语言模型强大文本理解能力，最终输出每个代码块的代码审查意见。此外，本发明专利技术对现有大模型进行更深入的领域训练和代码任务微调，强化其代码方面的能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于深度学习领域，具体涉及一种基于大语言模型的富文本代码审查方法。

技术介绍

1、富文本是一种可以使用多样式和格式的文本格式。与纯文本相比，富文本可以包含字体、颜色、字号、段落样式、超链接、图片、表格等丰富的内容和样式。富文本编辑器通常用于电子邮件、网页编辑和其他需要更复杂格式的文本输入和显示场景。markdown是一种富文本标记语言，其设计理念为：易读、易写和随意改。markdown使用简单的标记语法实现各种文本内容的格式化，它可以用来编写纯文本，但在文本中添加一些特定的标记后，就可以实现一些富文本的样式功能。markdown简单移动，且具有跨平台的优秀功能。markdown广泛应用在编写文档、编写博客、代码文档、技术文档等场景。其中，将代码嵌入markdown文本中尤其常用。

2、与此同时，对于markdown进行代码审查是一项重要的工作，以确保markdown内容的准确性和一致性。人工审查费时费力，并且对于审查人员具有较高的专业水平要求，尤其是当一个文本中存在多种编程语言的代码。自动化富文本代码审查可以大大减...

【技术保护点】

1.一种基于大语言模型的富文本代码审查方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于大语言模型的富文本代码审查方法，其特征在于，设计代码审查提示词时需考虑编程语言的语法规则、运行性能优化、代码优化以及待审查富文本代码的编程语言。

3.如权利要求1所述的一种基于大语言模型的富文本代码审查方法，其特征在于，所述富文本数据采用Markdown标记语言。

4.如权利要求1所述的一种基于大语言模型的富文本代码审查方法，其特征在于，所述大语言模型在预训练时采用交叉熵损失。

5.如权利要求1所述的一种基于大语言模型的富文本代码审查方法，...

【技术特征摘要】

1.一种基于大语言模型的富文本代码审查方法，其特征在于，包括以下步骤：

3.如权利要求1所述的一种基于大语言模型的富文本代码审查方法，其特征在于，所述富文本数据采用markdown标记语言。

4.如权利要求1所述的一种基于大语言模型的富文本代码审查方法，其特征在于，所述大语言模型在预训练时采用交叉熵损失。

5.如权利要求1所述的一种基于大语言模型的富文本代码审查方法，其特征在于，所述代码领域任务为代码摘要生成...

【专利技术属性】
技术研发人员：肖俊，黄贤山，王朝，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人