特征提交重复数据删除引擎制造技术

技术编号:25990031 阅读:19 留言:0更新日期:2020-10-20 18:58
本公开的实施例涉及特征提交重复数据删除引擎。一种设备可以接收标识针对软件应用的候选特征的特征提交。设备可以对特征提交进行预处理以使与候选特征相关联的数据重新格式化,以与关联于所存储的有关过往特征提交的信息的数据格式相匹配。设备可以对与候选特征相关联的数据执行自然语言处理以确定候选特征的语义含义。设备可以将候选特征的语义含义与过往特征提交的索引进行比较。设备可以提供指示候选特征是否与过往特征提交相匹配的响应,其中响应包括候选特征与任何过往特征提交不相匹配的指示或者标识关联于与候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。

【技术实现步骤摘要】
特征提交重复数据删除引擎
本公开的实施例涉及软件开发领域,更具体地涉及特征提交。
技术介绍
在开发和/或维护复杂系统期间,多个利益相关者可以负责特征构想、特征实现和特征监测。例如,当软件应用被部署以供在组织中使用时,组织的许多成员可以使用软件应用来完成任务。进一步地,组织的许多成员可以向软件开发人员团队提供特征提交以建议针对软件应用的新特征。软件开发人员团队可以选择特征提交的子集,将资源(例如,时间资源、计算资源等)用于该子集以进行开发。
技术实现思路
根据一些实现,一种方法可以包括:从设备接收标识针对软件应用的候选特征的特征提交;由设备对特征提交进行预处理以使与候选特征相关联的数据重新格式化,以与关联于所存储的有关过往特征提交的信息的数据格式相匹配;由设备对与候选特征相关联的数据执行自然语言处理以确定候选特征的语义含义;由设备将候选特征的语义含义与过往特征提交的索引进行比较,以确定候选特征是否与过往特征提交中的任何过往特征提交相匹配;以及由设备提供指示在阈值语义相似性内候选特征是否与过往特征提交中的任何过往特征提交相匹配的响应,其中响应包括候选特征与任何过往特征提交不相匹配的指示或者标识关联于与候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。根据一些实现,一种设备可以包括:一个或者多个存储器;以及一个或者多个处理器,该一个或者多个处理器被通信地耦合至一个或者多个存储器,该一个或者多个处理器被配置为:训练二进制机器学习分类器以基于对过往特征提交的描述的一个或者多个特征来总结该描述;使用二进制机器学习分类器来执行文本总结过程以标识关键短语的集合;接收标识针对应用的候选特征的特征提交;对特征提交进行预处理以使与候选特征相关联的数据重新格式化,以与关联于所存储的有关过往特征提交的信息的数据格式相匹配;对与候选特征相关联的数据执行自然语言处理以确定候选特征的语义含义;将候选特征的语义含义与过往特征提交的索引进行比较并且与该关键短语的集合相关联,以确定候选特征是否与过往特征提交中的任何过往特征提交相匹配;以及提供指示候选特征是否与过往特征提交中的任何过往特征提交相匹配的响应,其中响应包括候选特征与任何过往特征提交不相匹配的指示或者标识关联于与候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。根据一些实现,一种非瞬态计算机可读介质可以存储一个或者多个指令。该一个或者多个指令在由设备的一个或者多个处理器执行时可以使一个或者多个处理器:接收标识针对应用的候选特征的特征提交;对与候选特征相关联的数据执行自然语言处理以确定候选特征的语义含义;将候选特征的语义含义与过往特征提交的索引进行比较,以确定候选特征是否与过往特征提交中的任何过往特征提交相匹配;以及提供指示候选特征是否与过往特征提交相匹配的响应,其中响应包括候选特征与任何过往特征提交不相匹配的指示或者标识关联于与候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。附图说明图1A至图1E是本文所描述的示例实现的示意图。图2是可以实现本文所描述的系统和/或方法的示例环境的示意图。图3是图2中的一个或者多个设备的示例组件的示意图。图4是针对特征提交重复数据删除和基于区块链的特征管理的示例过程的流程图。图5是针对特征提交重复数据删除和基于区块链的特征管理的示例过程的流程图。图6是针对特征提交重复数据删除和基于区块链的特征管理的示例过程的流程图。具体实施方式以下对示例实现的详细描述参考附图。不同附图中的相同附图标号可以标识相同或者相似的元件。在越来越复杂的组织中,构想是分布式过程。例如,组织可能具有数千、数万、数十万或者甚至数百万名员工或者相关联的人员。结果,在使用不同的软件应用、工具等时的专业知识可能分布在全球的许多员工团队。组织可以部署特征提交平台以接收标识用于改进软件应用、工具等的不同想法的特征提交。特征提交平台可以接收特征提交,并且可以自动生成用于创建针对软件应用的新特征的代码,或者可以自动分配软件开发人员以尝试开发针对软件应用、与软件应用相关联的工具、软件应用的新版本等的代码。然而,许多特征提交可能与由其他员工提交的其他特征提交重复。例如,第一名员工可以标识在软件应用中的缺陷,诸如,错误、缺失的特征、低效率等,并且可以提交用于标识针对缺陷的解决方案的第一特征提交。在缺陷被纠正之前,第二名员工可以标识同一软件应用中的相同缺陷,并且提交标识相同或者不同解决方案的第二特征提交。结果,多种不同的工具、多个版本的软件应用等可以被开发。这种开发可能是重复的,可能浪费计算资源,可能导致由于在被分配相同新特征的多个不同软件开发人员团队之间的不协调的工作引起的过量时间等。本文所描述的一些实现提供了特征提交重复数据删除,从而减少了对与开发重复的、并行的和/或冲突的解决方案相关联的计算资源的利用。例如,一些实现可以使用自然语言处理和/或机器学习来检测重复的特征提交,提供有关重复的特征提交的通知,合并重复的特征提交等。此外,本文所描述的一些实现可以提供基于区块链的特征管理,从而实现安全的特征提交赞助和特征开发管理。图1A至图1E是本文所描述的示例实现100的示意图。如在图1A中示出的,示例实现100可以包括特征分析平台102。如在图1A中进一步示出的,特征分析平台102可以包括预处理模块104,特征分析平台102可以使用预处理模块104来预处理特征分析平台102的输入数据。如由附图标号122示出的,特征分析平台102可以接收标识特征提交集合的输入数据以便使用预处理模块104来进行预处理。例如,特征分析平台102可以接收标识已经被提交至特征管理平台的一个或者多个候选特征的信息。在这种情况下,一个或者多个候选特征可以包括一个或者多个软件特征、一个或者多个硬件特征、一个或者多个方法特征等。在一些实现中,特征分析平台102可以建立用于获得输入数据的模型流水线。例如,特征分析平台102可以标识存储有关特征提交集合的信息的目录,并且可以从目录获得数据以便进行预处理。在一些实现中,特征分析平台102可以接收标识特征的特征提交。例如,当生成要进行重复数据删除的特征的特征语料库时,如本文更详细地描述的,特征分析平台102可以接收标识在先前时间被提交至特征管理平台的一个或者多个先前特征提交的信息。在这种情况下,特征分析平台102可以对一个或者多个先前特征提交执行重复数据删除,如本文更详细地描述的,并且可以更改一个或者多个现有的任务分配以合并与重复的先前特征提交相关联的、重复的任务分配。附加地,或者备选地,特征分析平台102可以接收标识问题陈述的特征提交。例如,特征分析平台102可以接收对关于软件应用的问题的自然语言描述。在这种情况下,特征提交可以是故障单、论坛提交、聊天消息、与信息技术(IT)员工的交互记录等。在一些实现中,特征分析平台102可以接收对创新主题的描述。例如,特征分析平台102可以接收标识对与组织相关联的创新竞赛、创新挑战等的描述的信息。在这本文档来自技高网...

【技术保护点】
1.一种方法,包括:/n从设备接收标识针对软件应用的候选特征的特征提交;/n由所述设备对所述特征提交进行预处理以使与所述候选特征相关联的数据重新格式化,以与关联于所存储的有关过往特征提交的信息的数据格式相匹配;/n由所述设备对与所述候选特征相关联的所述数据执行自然语言处理以确定所述候选特征的语义含义;/n由所述设备将所述候选特征的所述语义含义与过往特征提交的索引进行比较,以确定所述候选特征是否与所述过往特征提交中的任何过往特征提交相匹配;以及/n由所述设备提供指示所述候选特征是否与所述过往特征提交相匹配的响应,/n其中所述响应包括所述候选特征与任何过往特征提交不相匹配的指示、或者标识关联于与所述候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。/n

【技术特征摘要】
20190402 US 16/372,8881.一种方法,包括:
从设备接收标识针对软件应用的候选特征的特征提交;
由所述设备对所述特征提交进行预处理以使与所述候选特征相关联的数据重新格式化,以与关联于所存储的有关过往特征提交的信息的数据格式相匹配;
由所述设备对与所述候选特征相关联的所述数据执行自然语言处理以确定所述候选特征的语义含义;
由所述设备将所述候选特征的所述语义含义与过往特征提交的索引进行比较,以确定所述候选特征是否与所述过往特征提交中的任何过往特征提交相匹配;以及
由所述设备提供指示所述候选特征是否与所述过往特征提交相匹配的响应,
其中所述响应包括所述候选特征与任何过往特征提交不相匹配的指示、或者标识关联于与所述候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。


2.根据权利要求1所述的方法,其中执行所述自然语言处理包括:
确定对所述候选特征的描述中的每个在语义上不同的单词的出现次数;
基于所述出现次数来将对所述候选特征的所述描述中的每个在语义上不同的单词转换为对应的整数型单词标识符;
生成所述对应的整数型单词标识符的稀疏向量;并且
其中比较所述语义含义包括:
使用所述稀疏向量来比较所述语义含义。


3.根据权利要求1所述的方法,其中执行所述自然语言处理包括:
对与对所述候选特征的描述相关的信息执行潜在语义索引过程;
执行降维过程以将所述潜在语义索引过程的结果的维度减少到在配置的维度范围内;并且
其中比较所述语义含义包括:
使用所述降维过程的结果来比较所述语义含义。


4.根据权利要求1所述的方法,还包括:
标识与所述软件应用所属的特定行业相关联的数据馈源;
订阅所述数据馈源;
从所述数据馈源向所述过往特征提交添加特征集合;并且
其中比较所述语义含义包括:
在添加所述特征集合之后,比较所述语义含义。


5.根据权利要求1所述的方法,还包括:
生成过往特征提交的所述索引;并且
其中比较所述语义含义包括:
在生成所述索引之后,比较所述语义含义。


6.根据权利要求5所述的方法,其中生成所述索引还包括:
训练二进制机器学习分类器,以基于所述描述的一个或者多个特征来总结对所述过往特征提交的描述;以及
使用所述二进制机器学习分类器来执行文本总结过程以标识关键短语的集合。


7.根据权利要求6所述的方法,其中所述一个或者多个特征包括以下中的至少一项:
关键短语的长度,
关键短语的频率,
关键短语中的重复单词的数量,或者
关键短语中的字符的数量。


8.根据权利要求5所述的方法,其中生成所述索引还包括:
连接对所述过往特征提交的描述以生成语料库;
将所述语料库分成分段集合;
生成所述分段集合的向量表示;
确定所述向量表示之间的相似性;
基于所述相似性来生成相似性矩阵;以及
将所述相似性矩阵转换成图,
其中所述分段集合表示所述图的顶点,并且所述相似性表示所述图的边。


9.一种设备,包括:
一个或者多个存储器;以及
一个或者多个处理器,被通信地耦合至所述一个或者多个存储器,所述一个或者多个处理器被配置为:
训练二进制机器学习分类器以基于对过往特征提交的描述的一个或者多个特性来总结所述描述;
使用所述二进制机器学习分类器来执行文本总结过程以标识关键短语的集合;
接收标识针对应用的候选特征的特征提交;
对所述特征提交进行预处理以使与所述候选特征相关联的数据重新格式化,以与关联于所存储的有关所述过往特征提交的信息的数据格式相匹配;
对与所述候选特征相关联的所述数据执行自然语言处理以确定所述候选特征的语义含义;
将所述候选特征的所述语义含义与过往特征提交的索引进行比较并且与所述关键短语的集合相关联,以确定所述候选特征是否与所述过往特征提交中的任何过往特征提交相匹配;以及
提供指示所述候选特征是否与所述过往特征提交相匹配的响应,
其中所述响应包括所述候选特征与任何过往特征提交不相匹配的指示、或者标识关联于...

【专利技术属性】
技术研发人员:B·梅塔M·塞克哈J·斯瓦米R·伊耶S·贾因J·A·古普塔C·A·德什潘德A·哈特S·拉克什米纳拉西姆翰A·斯里瓦斯塔瓦S·帕德玛瓦
申请(专利权)人:埃森哲环球解决方案有限公司
类型:发明
国别省市:爱尔兰;IE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1