一种自动化数据功能项抽取的方法技术

技术编号：25989985 阅读：25 留言：0更新日期：2020-10-20 18:58

本发明专利技术提出一种自动化数据功能项抽取的方法，将需求文本根据标点符号划分为句子，抽取句子中每个单词的上下文特征；给句子中的每一个单词打上标签，作为标注数据；使用标注数据训练初始的CRF模型，迭代地使用该CRF模型预测未标注的数据，从中选取置信度高于置信度阈值的样本来扩充训练集合；使用扩后后的训练集合重新训练CRF模型，最终得到候选功能项集合；使用历史功能项训练面向功能项的语言模型；使用训练好的面向功能项的语言模型对候选功能项集合进行过滤，抽取符合的功能项。本方法从需求描述中进行数据功能项的自动化抽取，提高抽取的精度，代替人力抽取功能项，并降低抽取的成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种自动化数据功能项抽取的方法
本专利技术属于计算机领域，涉及软件规模度量，尤其是功能点分析技术，用于从需求文本中自动化抽取数据功能项，提高专家进行数据功能项抽取的效率，为一种自动化地数据功能项抽取的方法。
技术介绍
功能点分析方法是一种从用户视角，度量软件规模和复杂度的技术。借助功能点分析方法，项目管理者可以更好地计划和管理软件的开发、维护等过程。“功能点”是功能点分析结果的基本单位。功能点分析后，软件会被度量为一定数量的“功能点”。功能点方法在软件度量中起着十分重要的作用，随着功能点分析技术的广泛引用，从1979年起，诸如IFPUG、COSMIC、NESMA等功能点分析标准接连被提出，来支持功能点方法的应用。在功能点分析方法中，最主要的工作是抽取“功能项”。功能项是需求中的名词或者动词短语，用来描述软件的功能。功能项主要被分为两类：数据功能项和交易类功能项。数据功能项通常为系统中的业务对象、数据块或控制信息，其通常表述为名词短语；交易功能项则为软件在数据功能项上的操作，通常表述为“动词+名词”短语的形式。在实际的应用中，由于自动化方法的缺失，无论是数据功能项还是交易功能项都需要靠专家的手工抽取。随着项目的快速迭代和积累，手工抽取功能项变得越来越消耗人力。并且，由于不同专家对业务逻辑理解的不同，会为功能项抽取产生的结果带来误差。由于需求文本和功能项都是通过自然语言进行描述，自动化信息抽取的方法为功能项的自动化抽取提供提供了一种可能。现在已有的信息抽取方法，主要可以分为两类：基于启发式规则的方

【技术保护点】
1.一种自动化数据功能项抽取的方法，其特征在于，包括以下步骤：/n将需求文本根据标点符号划分为句子，抽取句子中每个单词的上下文特征；/n给句子中的每一个单词打上标签，并作为标注数据；/n使用标注数据训练初始的条件随机场模型CRF，迭代地使用该CRF模型预测未标注的数据，从中选取置信度高于置信度阈值的样本来扩充训练集合，该置信度为CRF模型预测标签序列的概率；/n使用扩后后的训练集合重新训练CRF模型，最终得到候选功能项集合；/n使用历史功能项训练面向功能项的语言模型；/n使用训练好的面向功能项的语言模型对候选功能项集合进行过滤，抽取符合的功能项。/n

【技术特征摘要】
1.一种自动化数据功能项抽取的方法，其特征在于，包括以下步骤：
将需求文本根据标点符号划分为句子，抽取句子中每个单词的上下文特征；
给句子中的每一个单词打上标签，并作为标注数据；
使用标注数据训练初始的条件随机场模型CRF，迭代地使用该CRF模型预测未标注的数据，从中选取置信度高于置信度阈值的样本来扩充训练集合，该置信度为CRF模型预测标签序列的概率；
使用扩后后的训练集合重新训练CRF模型，最终得到候选功能项集合；
使用历史功能项训练面向功能项的语言模型；
使用训练好的面向功能项的语言模型对候选功能项集合进行过滤，抽取符合的功能项。

2.根据权利要求1所述的方法，其特征在于，抽取句子中每个单词的上下文特征的方法为：对句子中的每个单词构造一个特征窗口，该特征窗口包括当前词、当前词的前n个单词以及当前词的后n个单词；对于特征窗口中的每个单词，抽取上下文特征；如果单词出现在句子的末尾，其特征窗口内的单词为空，则为其赋于默认值。

3.根据权利要求1或2所述的方法，其特征在于，上下文特征包括字符串特征、词性特征和tf-idf特征。

4.根据权利要求1所述的方法，其特征在于，标签遵循如下BIOES标准：
B标签：单词为功能项的起始单词；

【专利技术属性】
技术研发人员：李明阳，石琳，王青，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人