一种从软件开发文本类制品中识别假设条件的自动化方法技术

技术编号：26690280 阅读：27 留言：0更新日期：2020-12-12 02:40

本发明专利技术提供了一种从软件开发文本类制品中识别假设条件的自动化方法，包括以下步骤：步骤1：对软件开发文本类制品中的句子进行人工标记，识别出假设条件和非假设条件，构造由于识别假设条件的数据集。步骤2：使用几种对文本数据进行预处理的方法，对数据集中的自然语言语句进行预处理。步骤3：使用词句向量化处理，将预处理后的一维词句转化为多维的特征化向量。步骤4：使用多种分类算法对处理后的自然语言句子进行分类识别。构造不同的分类器。并使用训练好的分类器对预测测试集中每个句子的类别。本发明专利技术能够对软件开发文本类制品中的包含假设条件的语句进行自动分类，为从业人员和开发人员提供便利和指导。

全部详细技术资料下载

【技术实现步骤摘要】
一种从软件开发文本类制品中识别假设条件的自动化方法
本专利技术涉及软件工程
，具体涉及一种从软件开发文本类制品中识别假设条件的自动化方法。
技术介绍
随着时代的发展，软件开发更多地表现出线上开发，异地协作的趋势。开发人员更多的采样邮件列表等方式去沟通开发过程中碰到的相关问题。大量的沟通和知识的传递都是通过自然语言来描述的，然而手动分析数据并从海量的文本类数据中挖掘有效的信息会耗费相当多的人力物力，极大地增加时间成本。随着机器学习技术的迅速发展，各自机器学习相关的技术都已经普遍应用于人们的日常生活之中了，使得借助机器学习方法完成从大量的文本数据中进行自动化的数据挖掘能为开发人员和从业者们节约大量的时间，自动化技术应用于文本信息挖掘也成为软件工程领域的一个重要的研究方向。从软件开发文本类制品中识别假设条件对帮助软件开发者进行知识管理、溯源以及未来的决策等起着重要作用。假设条件存在于软件产品的生命周期的各个阶段，涉及众多的利益相关人，有研究指出，不兼容的假设条件能够导致软件体系结构的不匹配，假设条件(尤其是设计假设)...

【技术保护点】
1.一种从软件开发文本类制品中识别假设条件的自动化方法，其特征在于，包括：/nS1：对软件开发过程中的文本类制品中的自然语言句子进行分析，识别并标记其中的包含假设条件的句子和非假设条件的句子，并基于识别标记出的句子创建数据集；/nS2：对创建的数据集进行预处理；/nS3：对预处理后的数据集进行向量化操作，将向量化操作得到的多维向量作为特征；/nS4：将向量化操作得到的多维向量作为训练集，采用多种分类算法进行训练，得到与分类算法对应的分类器；/nS5：根据对每个分类器的性能评估结果，选择出目标分类器；/nS6：利用目标分类器从识别的软件开发文本类制品中识别出假设条件。/n

【技术特征摘要】
1.一种从软件开发文本类制品中识别假设条件的自动化方法，其特征在于，包括：
S1：对软件开发过程中的文本类制品中的自然语言句子进行分析，识别并标记其中的包含假设条件的句子和非假设条件的句子，并基于识别标记出的句子创建数据集；
S2：对创建的数据集进行预处理；
S3：对预处理后的数据集进行向量化操作，将向量化操作得到的多维向量作为特征；
S4：将向量化操作得到的多维向量作为训练集，采用多种分类算法进行训练，得到与分类算法对应的分类器；
S5：根据对每个分类器的性能评估结果，选择出目标分类器；
S6：利用目标分类器从识别的软件开发文本类制品中识别出假设条件。

2.如权利要求1所述的识别假设条件的自动化方法，其特征在于，S1具体包括：
S1.1：从软件产品开发文本类制品中抽取n条包含假设条件的句子并做标记，从软件产品开发文本类制品中抽取n条非假设条件的句子并做好标记；
S1.2：将得到的n条包含假设条件的句子和n条非假设条件的句子合并构成一个含2n条句子的数据集。

3.如权利要求1所述的识别假设条件的自动化方法，其特征在于，S2的具体包括：
S2.1：对创建的数据集进行数据清洗；
S2.2：对数据清洗后的数据集进行分词处理；
S2.3：对进行分词处理后的数据集进行词干提取；
S2.4：对进行词干处理后的数据集过滤停用词和短句。

4.如权利要求1所述的识别假设条件的自动化方法，其特征在于，S3具体包括：
S3.1：采用word2vec技术对预处理之后的数据集里的句子进行向量化操作，将这些由单词组成的句子通过word2vec转化为多维向量；
S3.2：结合word2vec技术，对向量化的句子训练为word2vec模型，得到每个句子的向量值，即为每个句子的特征。

5.如权利要求1所述的识别假设条件的自动化方法，其特征在于，S4具体包括：
S4.1...

【专利技术属性】
技术研发人员：梁鹏，李瑞引，杨晨，熊壮，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人