一种端到端软件功能点提取与识别方法技术

技术编号：40316561 阅读：4 留言：0更新日期：2024-02-07 20:59

本发明专利技术公开了一种端到端软件功能点提取与识别方法，结合深度学习生成式大语言模型，在软件造价领域实现端到端的功能点条目精确提取，通过人工智能网络架构，能够直接输出规范化的功能点条目。同时基于双向编码表示的文本分类BERT模型对功能点类别进行精确识别，以取得涉及不同领域软件造价评估的功能点精确识别与高泛化性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能软件，特别涉及一种依托于大语言模型、文本分类模型的高泛化性端到端软件功能点精准提取与识别。

技术介绍

1、软件工程项目的成本是影响项目质量和成效的重要因素之一。科学统一的软件造价评估成为有效进行软件工程项目管理的重要依据，也是当前软件工程领域产业发展的迫切需要，其首要任务是确定软件规模。功能点估算方法是一种可靠、有效的软件规模度量方法，它通过测量和统计软件的功能点来计算最终的造价。

2、然而，经典的软件功能点估算方法往往基于人工测算与审查方式完成，缺少统一的流程范式，并需要消耗大量人力物力，以实现从原始软件需求说明文档到功能点条目的提取与识别。

3、为了满足自动化需求，近年来基于机器学习的功能点识别技术被提出，现有的自动化软件功能点估算方法在端到端模式、数据泛化性、功能点精细化提取与识别存在一定问题：

4、问题一：无法实现端到端模式的功能点条目生成。

5、现有自动化软件功能点估算方法仅实现软件功能点的粗略识别，一般来说，它们基于机器学习方法对功能点条目数据集进行类别区分。而在实际场景应用中，仍然需要人工从完整文档中定位出功能点描述，针对功能点条目离线建立用于测试的功能点条目数据集，才能利用机器学习算法完成识别与最终条目生成。上述过程包含了人工提取与自动化识别两阶段，这种非端到端的模式流程繁琐。对于得到的结果，预处理与后处理都需要大量人力来判读来确定各个类型功能点的数目，进而完成造价评估。

6、问题二：现有功能点识别方法难以泛化和精确判别。

<p>7、基于机器学习的功能点识别方法在数据侧往往依赖于公开标注的功能点条目数据集，这些数据集通常是由人工筛选或仿真的功能描述样例构建而成的，缺少自动化功能点提取步骤，这导致了在真实应用场景下，对于特定领域的软件功能点识别的泛化性较差。

8、在模型侧，机器学习模型仅依赖于有限的数据和特征时，其性能可能受到限制，现有模型往往只能实现对简单样本中功能点类别的粗略判别，而在复杂情境下可能表现不佳。同时，传统的机器学习方法通常需要手动提取特征，这需要领域专家的知识和经验，同时会引入过多的归纳偏置，仅适合于小规模数据或简单样本的训练与测试。这种方法对于复杂的自然语言处理任务，如功能点识别，不够灵活和高效，因为自然语言的特征往往是多层次和抽象的。总的来说，现有自动化软件造价评估方法的整体流程泛化性差、精确提取与识别能力不足、缺少文档功能点条目提取方法，不满足智能化处理与端到端模式的需求。

9、因此，如何提供一种提高公路性能预测准确性和可靠性的端到端软件功能点提取与识别方法是本领域技术人员亟待解决的技术问题。

技术实现思路

1、本专利技术针对上述研究现状和存在的问题，提供了一种高泛化性的端到端软件功能点精准提取与识别方法，直接完成从原始软件需求说明文档到各个功能点条目的输出，并取得更精确提取与识别效果，适应于不同领域的软件造价评估任务。

2、本专利技术提供的一种端到端软件功能点提取与识别方法，包括如下步骤：

3、生成式大语言模型的构建步骤：

4、s1：构建问答对数据集，所述问答对数据集包括功能点文档段落，及其对应的规范化功能点条目真值，所述规范化功能点条目真值包括条目文本真值和对应的类别真值；

5、s2：构建深度学习模型，利用所述问答对数据集对深度学习模型进行训练，获得生成式大语言模型，所述生成式大语言模型的输入为功能点文档段落，输出为规范化功能点条目，所述规范化功能点条目包括条目文本；

6、文本分类bert模型的构建步骤：

7、s3：利用所述规范化功能点条目真值预训练双向编码表示注意力模型，获得文本分类bert模型，所述文本分类bert模型输入为条目文本，输出为各个条目文本对应的第二类别；

8、软件功能点提取与识别步骤：

9、s4：将功能点文档段落输入至所述生成式大语言模型，生成式大语言模型输出的所述条目文本输入至所述文本分类bert模型，获得所述第二类别并输出。

10、优选的，所述类别真值根据软件的数据功能和事务功能确定，包括：ilf、eif、ei、eo和eq。

11、优选的，所述s2中的深度学习模型采用transformer decoder-only架构。

12、优选的，所述s3中的双向编码表示注意力模型采用transformer encoder-only架构。

13、优选的，所述s2还包括：基于低秩自适应策略对预训练的生成式大语言模型进行调整：

14、对于预训练的生成式大语言模型权值矩阵引入低秩分解，将预训练的生成式大语言模型权重参数冻结，不接受梯度更新，作为替代仅更新两个秩为r的矩阵a和b；其中，a使用随机高斯初始化，对b使用0初始化，使模型的起始状态从预训练模型开始；

15、模型微调阶段采用优化的损失函数为：模型输出token与规范化输出数据真值token之间的交叉熵损失。

16、优选的，所述s4还包括：在将功能点文档段落输入至所述生成式大语言模型的同时，输入提示词，所述生成式大语言模型基于提示词对功能点文档段落进行规范化功能点条目的提取。

17、优选的，所述提示词包括对类别对应的条目文本真值，或类别对应的文档内容定义文本。

18、优选的，所述文本分类bert模型包括transformer编码器和功能点分类器，具体执行如下步骤；

19、将所述条目文本划分成单词或子词；

20、对每个单词或子词进行嵌入编码的提取，并将编码经过多层堆叠的transformer编码器提取文本分词特征，获得特征表示；

21、所述特征表示输入至功能点分类器进行文本分类，获得分类结果，并计算交叉熵损失更新功能点分类器参数；所述分类结果包括类别及对应的置信度，选择置信度最高的类别作为所述第二类别。

22、优选的，所述s2中的所述规范化功能点条目包括：条目文本和对应的第一类别；所述s4获得所述第二类别后还包括如下步骤：

23、将同一条目文本的对应第一类别与第二类别进行比较判断，若第一类别与第二类别相同，则输出当前条目文本对应的第一类别/第二类别；若第一类别与第二类别不同，且第二类别的置信度足够高，则输出当前条目文本对应的第二类别。

24、优选的，所述文本分类bert模型输出为具有规范化格式的条目文本及对应的第二类别。

25、本专利技术提出的端到端软件功能点提取与识别方法相较现有技术具有以下

26、有益效果：

27、本专利技术采取了基于文本问答对微调生成式大语言模型的技术方案，能够按固定格式输出规范化功能点条目，从而实现以端到端的方式完成对输入完整文档，生成所含的各类功能点内容与数目的操作。本专利技术消除了现有繁琐的人工提取与自动化识别两阶段流程，使功能点条目生成变得高效且无需人工干预。在软件造价评估过程中，直接列出文本文档来自技高网...

【技术保护点】

1.一种端到端软件功能点提取与识别方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种端到端软件功能点提取与识别方法，其特征在于，所述类别真值根据软件的数据功能和事务功能确定，包括：ILF、EIF、EI、EO和EQ。

3.根据权利要求1所述的一种端到端软件功能点提取与识别方法，其特征在于，所述S2中的深度学习模型采用Transformer Decoder-only架构。

4.根据权利要求1所述的一种端到端软件功能点提取与识别方法，其特征在于，所述S2还包括：基于低秩自适应策略对预训练的生成式大语言模型进行调整：

5.根据权利要求1所述的一种端到端软件功能点提取与识别方法，其特征在于，所述S3中的双向编码表示注意力模型采用Transformer Encoder-only架构。

6.根据权利要求1所述的一种端到端软件功能点提取与识别方法，其特征在于，所述S4还包括：在将功能点文档段落输入至所述生成式大语言模型的同时，输入提示词，所述生成式大语言模型基于提示词对功能点文档段落进行规范化功能点条目的提取。

8.根据权利要求1所述的一种端到端软件功能点提取与识别方法，其特征在于，所述文本分类BERT模型包括Transformer编码器和功能点分类器，具体执行如下步骤；

9.根据权利要求1所述的一种端到端软件功能点提取与识别方法，其特征在于，所述S2中的所述规范化功能点条目包括：条目文本和对应的第一类别；所述S4获得所述第二类别后还包括如下步骤：

10.根据权利要求1所述的一种端到端软件功能点提取与识别方法，其特征在于，所述文本分类BERT模型输出为具有规范化格式的条目文本及对应的第二类别。

...

【技术特征摘要】

1.一种端到端软件功能点提取与识别方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种端到端软件功能点提取与识别方法，其特征在于，所述类别真值根据软件的数据功能和事务功能确定，包括：ilf、eif、ei、eo和eq。

3.根据权利要求1所述的一种端到端软件功能点提取与识别方法，其特征在于，所述s2中的深度学习模型采用transformer decoder-only架构。

4.根据权利要求1所述的一种端到端软件功能点提取与识别方法，其特征在于，所述s2还包括：基于低秩自适应策略对预训练的生成式大语言模型进行调整：

5.根据权利要求1所述的一种端到端软件功能点提取与识别方法，其特征在于，所述s3中的双向编码表示注意力模型采用transformer encoder-only架构。

6.根据权利要求1所述的一种端到端软件功能点提取与识别方法，其特征在于，所述s...

【专利技术属性】
技术研发人员：赵冉，姜鸿翔，赵征，
申请(专利权)人：中安启成科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人