【技术实现步骤摘要】
一种基于多级别特征融合的软件缺陷命名实体识别方法
[0001]本专利技术属于自然语言处理
,具体涉及一种软件缺陷命名实体识别方法。
技术介绍
[0002]命名实体识别(Named Entity Recognition,NER)是信息提取、问答系统、句法分析、机器翻译、知识图谱等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。命名实体识别是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。随着各个应用领域数据的爆炸增长与NER技术的成熟,NER的应用已经渗入商业、金融、电子病历、网络安全、生物医学、军事、生态治理、农业等多种垂直领域中。NER在处理非结构化文本的数据时,往往可以解决文本中实体形式多样、语义模糊等问题,从中提取出关键信息。因此,NER得到国内外科研工作者的广泛关注。在软件缺陷领域,缺陷报告作为重要的缺陷描述信息本文,缺陷报告中包含了大量非结构化的数据。一直以来,研究者们致力于抽取缺陷报告中关键的信息,以解决软件缺陷领域中特定任务,如缺陷预测、缺陷定位、缺陷修复 ...
【技术保护点】
【技术特征摘要】
1.一种基于多级别特征融合的软件缺陷命名实体识别方法,其特征在于,包括如下步骤:步骤1:数据源选取:从开源项目中选取缺陷报告,选取的缺陷报告都是已修复的缺陷;步骤2:软件缺陷命名实体类别定义:把软件缺陷命名实体分为7类:程序语言、应用程序接口、环境、用户界面、平台、安全和软件标准;步骤3:数据集处理;将步骤1中获取到的数据源的文本信息进行预处理,包括分词、词性标注、序列标注标签三个部分;对于分词和词性标注,使用python的自然语言工具包NLTK实现;对于序列标注标签,采用人工方式对数据源中的单词进行序列标注标签,找出文本信息中与步骤2中定义的软件缺陷相关的词汇和词组,完成软件缺陷命名实体标注任务;步骤4:基于卡片分类法验证标记准确性;采用卡片分类法进行样本中实体的标记,并通过Fleiss Kappa系数来衡量不同标记人员之间结果的差异;所述卡片分类法是指两名或两名以上的成员对样本进行实体抽取,最后根据各成员样本标记的结果来判断最终的实体类型,如果多个成员标记的结果一致,则该标签即为该样本的最终结果;如果多个成员之间标记的结果不一致,则成员之间相互讨论,得到最终结果;步骤5:输入层;使用不同级别的单词嵌入作为输入:通过Word2Vec获得的单词级词嵌入,由FastText获得的字符n
‑
gram词嵌入,由Morph2Vec获得的形态级词嵌入,字符级词嵌入和正字法字符级词嵌入;使用以上五个词嵌入模型,输入到BiLSTM模型,捕获缺陷报告中单词的字形、形态以及上下文信息;步骤6:特征编码层;基于BiLSTM提取的上下文信息,利用自注意力机制提取单词之间的注意力分布,并利用SOFTMAX函数进行注意力分布归一化;步骤7:标记预测层;使用CRF层来进行顺序标记软件缺陷命名实体。2.根据权利要求1所述的一种基于多级别特征融合的软件缺陷命名实体识别方法,其特征在于,所述缺陷报告来自于Bugzilla和Jira中的4个开源项目,分别是Mozilla、Spark、Eclipse和Hadoop。3.根据权利要求1所述的一种基于多级别特征融合的软件缺陷命名实体识别方法,其特征在于,所述软件缺陷命名实体的7类分别为:程序语言、应用程序接口、环境、用户界面、平台、安全和软件标准;(1)程序语言:指当前缺陷属于哪种开发语言相关的缺陷包括主流的面向对象语言、面向过程语言以及结构化查询语言;(2)应用程序接口:指开发人员用于编程的库和框架的API元素;(3)环境:包含4个子类别:软件工具、软件库、开发框架和通用软件工具;(4)用户界面:指与图形用户界面相关的缺陷;(5)平台:指软件或硬件平台;
(6)安全:指与代码安全或者软件安全相关的缺陷;(7)软件标准:包括软件工程领域的标准规范。4.根据权利要求1所述的一种基于多级别特征融合的软件缺陷命名实体识别方法,其特征在于,所述对于序列标注标签,标注的工作分为3个阶段,第一个阶段维护一个软件缺陷实体词典,该词典是软件缺陷实体与实体类别的一个对应表;第二个阶段通过双重验证进行人工检查,即每个缺陷报告至少由两个参与者独立检查两次,每个参与者对四个不同项目的数据进行标注,利用软件缺陷实体词典,能够快速检查各自的标注结果;如果标注的结果不一致,参与者进行讨论并达成共识,最后统一软件缺陷实体词典;第三阶段为基于卡片分类法验证标记的准确性。5.根据权利要求1所述的一种基于多级别特征融合的软件缺陷命名实体识别方法,其特征在于,所述Fleiss Kappa系数是检验实验标注结果数据一致性的指标,具体如下:设N为被评定对象的总数,n为评定对象的总数,T为评定的等级数,n
ij
为第j个评定对象对第i个被评对象划分的等级数,则Fleiss Kappa系数的计算公式为:Kappa系数的计算公式为:Kappa系数的计算公式为:其中,表示评价者之间的相对观察一致性,表示偶然一致性的假设概率,P
i
表示评价者对第i个任务达成共识的程度;Flei...
【专利技术属性】
技术研发人员:郑炜,廖慧玲,王晓龙,吴潇雪,成婧源,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。