深度学习系统开发中假设条件数据集构建的方法和装置制造方法及图纸

技术编号:38370547 阅读:10 留言:0更新日期:2023-08-05 17:34
本发明专利技术公开了一种深度学习系统开发中假设条件数据集构建的方法和装置。该方法包括:数据采集步骤:从GitHub中采集深度学习系统开发中假设条件的原始数据;数据分句步骤:对采集的数据进行分句;数据标注步骤:对完成分句的深度学习系统开发数据中的自声明假设条件和潜在假设条件进行标注,基于所有标注过的数据构建深度学习系统开发假设条件数据集。本发明专利技术通过采用自动化识别的方法,克服现有技术中存在深度学习系统开发中假设条件数据集需要人工干预的技术问题,解决了目前构造规模化、细粒度深度学习系统开发中假设条件数据集的关键问题。关键问题。关键问题。

【技术实现步骤摘要】
深度学习系统开发中假设条件数据集构建的方法和装置


[0001]本专利技术涉及深度学习
,尤其是涉及一种深度学习系统开发中假设条件数据集构建的方法和装置。

技术介绍

[0002]软件系统的开发中不可避免地存在着大量的不确定性(uncertainty),而为了实现项目目标,涉众(stakeholder)需要及时地去应对这些不确定性。涉众在应对系统开发中的不确定性时采用的主要手段是制定假设条件(assumption),从而使系统开发在特定假设条件下能继续推进。不确定性是假设条件存在的源头,也是系统开发中客观存在的基本属性。所有开发过程中无法确定的事物都属于不确定性的范畴,而假设条件是涉众针对不确定的事物所做出的判断和估计。
[0003]假设条件在软件开发中的重要性已经在大量的研究与实践中得到证实,并在工程实践中付出了惨痛的代价,如ARIANE 5号火箭发射失败事故、Therac

25致死事故、波音737MAX坠毁事故中,关键的原因都指向系统开发中未被妥善管理的假设条件。
[0004]对于深度学习系统开发中假设条件的管理存在多种方法,其中一种主流的方法是训练深度学习模型对假设条件进行自动化识别、抽取和推理。基于深度学习模型的方法往往需要标注深度学习系统开发中的假设条件,以构建规模化、细粒度(如句子级别)的数据集,将其用于深度学习模型的训练。然而,深度学习系统开发中假设条件(包括Self

Claimed Assumption,自声明假设条件和Potential Assumption,潜在假设条件)散布于各类制品中(如GitHub的Issues、Pull Requests和Commits),这些制品可能包含一句、多句或多段文字,需要从中抽取出假设条件所在的句子,然后构建假设条件数据集。传统的方法依赖于大量的人工操作,例如从网站上将原始数据逐条复制粘贴,并进行人工数据处理和标注。这种方式无法形成规模化、细粒度的假设条件数据集,如何有效构建深度学习系统开发中的假设条件数据集成为亟需解决的问题。

技术实现思路

[0005]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的是提供一种深度学习系统开发中假设条件数据集构建的方法和装置,能够为后续训练深度学习模型自动化识别、抽取和推理深度学习系统开发中的假设条件提供基础。
[0006]本专利技术所采用的技术方案是:第一方面,本专利技术提供一种深度学习系统开发中假设条件数据集构建的方法,该方法包括:数据采集步骤:从GitHub中采集深度学习系统开发中假设条件的原始数据;数据分句步骤:对采集的数据进行分句;数据标注步骤:对完成分句的深度学习系统开发数据中的自声明假设条件和潜在假设条件进行标注,基于所有标注过的数据构建深度学习系统开发假设条件数据集。
[0007]其中,该数据采集步骤包括:建模子步骤:建立数据仓库模型、数据仓库版本发布
模型、拉取请求模型、提交模型、问题模型;数据源配置子步骤:根据该数据仓库模型和该数据仓库版本发布模型,采集数据源信息并保存;Pull Request数据采集子步骤:根据该拉取请求模型采集并解析数据源的拉取请求数据,计算已采集数据数量,将采集记录及采集的数据保存入数据库;Commit数据采集子步骤:根据该提交模型采集并解析数据源提交相关的数据,计算已采集数据数量,将采集记录及采集的数据保存入数据库;Issue数据采集子步骤:根据该问题模型采集数据源问题相关的数据,计算已采集数据数量,将采集记录及采集的数据保存入数据库。
[0008]其中,该数据分句步骤包括:不分句匹配模式管理子步骤:新建、修改、删除和查询不分句匹配模式;分句匹配模式管理子步骤:新建、修改、删除和查询分句匹配模式;分句子步骤:基于不分句匹配模式和分句匹配模式对Issue数据、Pull Request数据以及Commit数据进行分句;分句质量检测子步骤:对分句后的数据进行随机抽取,对该分句后的数据进行排序、展示。
[0009]其中,该数据标注步骤包括:自声明假设条件模式管理子步骤:新建、修改、删除和查询自声明假设条件模式;潜在假设条件模式管理子步骤:新建、修改、删除和查询潜在假设条件模式;深度学习系统开发假设条件标注子步骤:对完成分句的深度学习系统开发数据中的自声明假设条件和潜在假设条件进行标注。
[0010]其中,还包括:深度学习系统开发假设条件标注质量检测步骤:基于所有标注过的数据构建深度学习系统开发假设条件数据集,在构建的该深度学习系统开发假设条件数据集中进行抽样检验,如果通过检验则结束;否则跳转到该数据标注步骤。
[0011]第二方面,本专利技术提供一种深度学习系统开发中假设条件数据集构建的装置,该装置包括:数据采集模块,用于从GitHub中采集深度学习系统开发中假设条件的原始数据;数据分句模块,用于对采集的数据进行分句;数据标注模块,用于对完成分句的深度学习系统开发数据中的自声明假设条件和潜在假设条件进行标注。
[0012]其中,该数据采集模块包括:建模单元,用于建立数据仓库模型、数据仓库版本发布模型、拉取请求模型、提交模型、问题模型;数据源配置单元,用于根据该数据仓库模型和该数据仓库版本发布模型,采集数据源信息并保存;Pull Request数据采集单元,用于根据该拉取请求模型采集并解析数据源的拉取请求数据,计算已采集数据数量,将采集记录及采集的数据保存入数据库;Commit数据采集单元,用于根据该提交模型采集并解析数据源提交相关的数据,计算已采集数据数量,将采集记录及采集的数据保存入数据库;Issue数据采集单元,用于根据该问题模型采集数据源问题相关的数据,计算已采集数据数量,将采集记录及采集的数据保存入数据库。
[0013]其中,该数据分句模块包括:不分句匹配模式管理单元,用于新建、修改、删除和查询不分句匹配模式;分句匹配模式管理单元,用于新建、修改、删除和查询分句匹配模式;分句单元,用于基于不分句匹配模式和分句匹配模式对Issue数据、Pull Request数据以及Commit数据进行分句;分句质量检测单元,用于对分句后的数据进行随机抽取,对该分句后的数据进行排序、展示。
[0014]其中,该数据标注模块包括:自声明假设条件模式管理单元,用于新建、修改、删除和查询自声明假设条件模式;潜在假设条件模式管理单元,用于新建、修改、删除和查询潜在假设条件模式;深度学习系统开发假设条件标注单元,用于对完成分句的深度学习系统
开发数据中的自声明假设条件和潜在假设条件进行标注。
[0015]其中,该装置还包括:深度学习系统开发假设条件标注质量检测模块,用于基于所有标注过的数据构建深度学习系统开发假设条件数据集,在构建的该深度学习系统开发假设条件数据集中进行抽样检验,如果通过检验则结束;否则跳转到该数据标注模块。
[0016]本专利技术的有益效果是:本专利技术提供了一种用于深度学习系统开发中假设条件数据集构建的方法和装置,降低人工干预,可以解决目前构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度学习系统开发中假设条件数据集构建的方法,其特征在于,包括:数据采集步骤:从GitHub中采集深度学习系统开发中假设条件的原始数据;数据分句步骤:对采集的数据进行分句;数据标注步骤:对完成分句的深度学习系统开发数据中的自声明假设条件和潜在假设条件进行标注,基于所有标注过的数据构建深度学习系统开发假设条件数据集。2.根据权利要求1所述的方法,其特征在于,所述数据采集步骤包括:建模子步骤:建立数据仓库模型、数据仓库版本发布模型、拉取请求模型、提交模型、问题模型;数据源配置子步骤:根据所述数据仓库模型和所述数据仓库版本发布模型,采集数据源信息并保存;Pull Request数据采集子步骤:根据所述拉取请求模型采集并解析数据源的拉取请求数据,计算已采集数据数量,将采集记录及采集的数据保存入数据库;Commit数据采集子步骤:根据所述提交模型采集并解析数据源提交相关的数据,计算已采集数据数量,将采集记录及采集的数据保存入数据库;Issue数据采集子步骤:根据所述问题模型采集数据源问题相关的数据,计算已采集数据数量,将采集记录及采集的数据保存入数据库。3.根据权利要求1所述的方法,其特征在于,所述数据分句步骤包括:不分句匹配模式管理子步骤:新建、修改、删除和查询不分句匹配模式;分句匹配模式管理子步骤:新建、修改、删除和查询分句匹配模式;分句子步骤:基于不分句匹配模式和分句匹配模式对Issue数据、Pull Request数据以及Commit数据进行分句;分句质量检测子步骤:对分句后的数据进行随机抽取,对所述分句后的数据进行排序、展示。4.根据权利要求1所述的方法,其特征在于,所述数据标注步骤包括:自声明假设条件模式管理子步骤:新建、修改、删除和查询自声明假设条件模式;潜在假设条件模式管理子步骤:新建、修改、删除和查询潜在假设条件模式;深度学习系统开发假设条件标注子步骤:对完成分句的深度学习系统开发数据中的自声明假设条件和潜在假设条件进行标注。5.根据权利要求1至4任意一项所述的方法,其特征在于,还包括:深度学习系统开发假设条件标注质量检测步骤:基于所有标注过的数据构建深度学习系统开发假设条件数据集,在构建的所述深度学习系统开发假设条件数据集中进行抽样检验,如果通过检验则结束;否则跳转到所述数据标注步骤。6.一...

【专利技术属性】
技术研发人员:杨晨刘小华张喜生
申请(专利权)人:深圳职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1