一种功能点提取处理方法和系统技术方案

技术编号:38893554 阅读:23 留言:0更新日期:2023-09-22 14:16
本发明专利技术属于软件分析技术领域,提供一种功能点提取处理方法和系统,该方法通过采集公共渠道可得到的需求分析文本、软件设计文本和系统设计文本,得到数据集,并进行功能点标注以建立知识库;根据所建立的知识库,采用KMP算法,将知识库中功能点与待处理文本进行字符串匹配,以提取待处理文本所包含的功能点,确定功能点的类别标签;将待处理文本输入预构建的自动提取模型,输出待处理文本所包含的功能点、及各功能点所属类别;对基于知识库提取的功能点、以及使用自动提取模型提取的功能点进行排序评估计算,以筛选功能点。本发明专利技术实现了更快速且更有效的功能点的自动提取过程,有效避免了功能点缺失的问题。避免了功能点缺失的问题。避免了功能点缺失的问题。

【技术实现步骤摘要】
一种功能点提取处理方法和系统


[0001]本专利技术涉及软件分析
,尤其涉及一种功能点提取处理方法和系统。

技术介绍

[0002]功能点分析方法是用于度量软件成本的一种方法。功能点通常是指功能点分析方法中的五种功能点。目前,通常由专家人工提取。但近年来出现了一些功能点自动化提取技术,可自动从需求分析文本中提取功能点。然而,对需求分析文本中隐含描述的功能点,无论是专家人工提取还是现有自动提取方法都存在一定缺失功能点的情况。此外,现有自动提取方法还存在因受限于模型能力导致功能点缺失的问题。此外,在如何更有效提升自动提取功能点、扩展功能点方面仍存在很大进步空间。
[0003]因此,有必要提供一种功能点提取处理方法,以解决上述问题。

技术实现思路

[0004]本专利技术意在提供一种功能点提取处理方法和系统,以解决现有技术中现有人工提取方法和自动提取方法均存在功能点缺失的问题,如何更有效提升自动提取功能点、扩展功能点等的技术问题,本专利技术要解决的技术问题通过以下技术方案来实现。
[0005]本专利技术第一方面提出一种功能点提取处理方法,包括:采集公共渠道可得到的需求分析文本、软件设计文本和系统设计文本,得到数据集,将所述数据集中的样本数据进行功能点标注,建立知识库;根据所建立的知识库,采用KMP算法,将知识库中功能点与待处理文本进行字符串匹配,以提取待处理文本所包含的功能点,并确定功能点的类别标签;使用预构建的自动提取模型,对待处理文本进行功能点自动提取,将所述待处理文本输入所述自动提取模型,输出所述待处理文本所包含的功能点、及各功能点所属类别;其中,基于Bert

BiLSTM

CRF算法,构建自动提取模型;在构建所述自动提取模型的过程中,包括多次优化模型参数;对基于知识库提取的功能点、以及使用自动提取模型提取的功能点进行排序评估计算,以筛选功能点。
[0006]根据可选的实施方式,所述基于Bert

BiLSTM

CRF算法,构建自动提取模型,包括:构建Bert层、BiLSTM层和CRF层,以构建所述自动提取模型;根据训练集中的样本数据的长度n,确定将生成的词向量的维度,具体将长度为n的样本数据输入Bert层,生成n*特定值的维度的第一向量,n的范围大于0并且小于等于512,所述特定值的范围为大于700并且小于等于800;将所述第一向量输入BiLSTM层,以建立n个向量之间的前后文联系,得到与待处理文本相对应的序列语义信息;将BiLSTM层所得到的序列语义信息输入CRF层,输出样本数据中所包含的功能点以及各功能点所属的功能点类别。
[0007]根据可选的实施方式,建立功能点标签集合,根据所述功能点标签集合,将所述数据集中指定比例的样本数据进行功能点标注,得到第一数据集,并将所述数据集中剩余的样本数据用于生成伪标签,得到第二数据集,所述功能点标签集合包括以下各功能点标签:使用ILF表示的第一类标签、使用EIF表示的第二类标签、使用EI表示的第三类标签、使用EO
表示的第四类标签、使用EQ表示的第五类标签。
[0008]根据可选的实施方式,将所述数据集中需求分析文本,按照特定比例划分成训练集、验证集和测试集;根据第一数据集的数量和第二数据集的数量,确定初步训练轮次和再训练轮次;根据所确定的初步训练轮次,使用所述训练集对自动提取模型进行训练得到初步的自动提取模型;根据所确定的再训练轮次,使用第二数据集对初步的自动提取模型进行追加训练。
[0009]根据可选的实施方式,在多次模型验证过程中优化模型参数,具体包括根据训练过程中准确率和损失值的变化情况更新初步训练轮次和再训练轮次;在模型测试过程中优化模型参数,具体包括根据再训练过程中准确率和损失值的变化情况更新再训练轮次。
[0010]根据可选的实施方式,所述采用KMP算法,将知识库中功能点与待处理文本进行字符串匹配,以提取待处理文本所包含的功能点,包括:确定知识库中功能点、包含功能点的文本语句的字符串长度,使用模式串表示,并构建next数组;确定待处理文本的字符串长度,并使用文本串表示;逐一将所述知识库中的各模式串与待处理文本的文本串进行字符串匹配,确定匹配失败位置以用于确定下一次匹配时的开始位置;在所述知识库中的模式串与待处理文本的文本串匹配成功时,提取所述待处理文本中相对应的功能点。
[0011]根据可选的实施方式,所述对基于知识库提取的功能点、以及使用自动提取模型提取的功能点进行排序评估计算,以筛选功能点,包括:使用功能点的可信度,对基于知识库提取的功能点、以及使用自动提取模型提取的功能点进行向量转换,输入预训练好的机器学习模型,输出可信评估值;根据所输出的可信评估值对各功能点进行排序,以筛选出可信评估值大于指定值的功能点。
[0012]根据可选的实施方式,对基于知识库提取的功能点及类别标签、以及使用自动提取模型提取的功能点及所属类别进行知识提取、知识关系提取,形成功能点三元组以构建功能点知识图谱;其中,根据待处理文本中表示不同种类、不同操作的功能点之间的内在联系进行知识关系提取,得到以下多种关系以用于表示功能点知识图谱中相邻的实体节点之间单向或双向的边:依赖关系、继承关系、聚合关系、作用关系、泛化关系、同义关系、触发关系、并行关系、交互关系、共存关系。
[0013]根据可选的实施方式,根据所构建的功能点知识图谱,进行功能点扩展。
[0014]本专利技术第二方面提出一种功能点提取处理系统,采用本专利技术第一方面所述的功能点提取处理方法,包括:建立模块,采集公共渠道可得到的需求分析文本、软件设计文本和系统设计文本,得到数据集,将所述数据集中的样本数据进行功能点标注,建立知识库;第一提取模块,根据所建立的知识库,采用KMP算法,将知识库中功能点与待处理文本进行字符串匹配,以提取待处理文本所包含的功能点,并确定功能点的类别标签;第二提取模块,使用预构建的自动提取模型,对所述待处理文本进行功能点自动提取,将所述待处理文本输入所述自动提取模型,输出所述待处理文本所包含的功能点、及各功能点所属类别;其中,基于Bert

BiLSTM

CRF算法,构建自动提取模型;在构建所述自动提取模型的过程中,包括多次优化模型参数;筛选模块,用于对基于知识库提取的功能点、以及使用自动提取模型提取的功能点进行排序评估计算,以筛选功能点。
[0015]本专利技术第三方面提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个
或多个处理器实现本专利技术第一方面所述的方法。
[0016]本专利技术第四方面提供一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本专利技术第一方面所述的方法。
[0017]本专利技术实施例包括以下优点:
[0018]与现有技术相比,本专利技术通过自建知识库,基于自建的知识库采用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种功能点提取处理方法,其特征在于,包括:采集公共渠道可得到的需求分析文本、软件设计文本和系统设计文本,得到数据集,将所述数据集中的样本数据进行功能点标注,建立知识库;根据所建立的知识库,采用KMP算法,将知识库中功能点与待处理文本进行字符串匹配,以提取待处理文本所包含的功能点,并确定功能点的类别标签;使用预构建的自动提取模型,对待处理文本进行功能点自动提取,将所述待处理文本输入所述自动提取模型,输出所述待处理文本所包含的功能点、及各功能点所属类别;其中,基于Bert

BiLSTM

CRF算法,构建自动提取模型;在构建所述自动提取模型的过程中,包括多次优化模型参数;对基于知识库提取的功能点、以及使用自动提取模型提取的功能点进行排序评估计算,以筛选功能点。2.根据权利要求1所述的功能点提取处理方法,其特征在于,所述基于Bert

BiLSTM

CRF算法,构建自动提取模型,包括:构建Bert层、BiLSTM层和CRF层,以构建所述自动提取模型;根据训练集中的样本数据的长度n,确定将生成的词向量的维度,具体将长度为n的样本数据输入Bert层,生成n*特定值的维度的第一向量,n的范围大于0并且小于等于512,所述特定值的范围为大于700并且小于等于800;将所述第一向量输入BiLSTM层,进行处理以建立n个向量之间的前后文联系,得到与待处理文本相对应的序列语义信息;将BiLSTM层所得到的序列语义信息输入CRF层,输出样本数据中所包含的功能点以及各功能点所属的功能点类别。3.根据权利要求1所述的功能点提取处理方法,其特征在于,建立功能点标签集合,根据所述功能点标签集合,将所述数据集中指定比例的样本数据进行功能点标注,得到第一数据集,并将所述数据集中剩余的样本数据用于生成伪标签,得到第二数据集,所述功能点标签集合包括以下各功能点标签:使用ILF表示的第一类标签、使用EIF表示的第二类标签、使用EI表示的第三类标签、使用EO表示的第四类标签、使用EQ表示的第五类标签。4.根据权利要求3所述的功能点提取处理方法,其特征在于,将所述数据集中需求分析文本,按照特定比例划分成训练集、验证集和测试集;根据第一数据集的数量和第二数据集的数量,确定初步训练轮次和再训练轮次;根据所确定的初步训练轮次,使用所述训练集对自动提取模型进行训练得到初步的自动提取模型;根据所确定的再训练轮次,使用第二数据集对初步的自动提取模型进行追加训练。5.根据权利要求4所述的功能点提取处理方法,其特征在于,在多次模型验证过程中优化模型参数,具体包括根据训练过程中准确率和损失值的变化情况更新初步训练轮次和再训练轮次;在模型测试过程中优化模型参数,具...

【专利技术属性】
技术研发人员:胡贝贝樊志强夏晓凯刘禹牛婵陈方悦孙悦
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1