特征提交重复数据删除引擎制造技术

技术编号：25990031 阅读：19 留言：0更新日期：2020-10-20 18:58

本公开的实施例涉及特征提交重复数据删除引擎。一种设备可以接收标识针对软件应用的候选特征的特征提交。设备可以对特征提交进行预处理以使与候选特征相关联的数据重新格式化，以与关联于所存储的有关过往特征提交的信息的数据格式相匹配。设备可以对与候选特征相关联的数据执行自然语言处理以确定候选特征的语义含义。设备可以将候选特征的语义含义与过往特征提交的索引进行比较。设备可以提供指示候选特征是否与过往特征提交相匹配的响应，其中响应包括候选特征与任何过往特征提交不相匹配的指示或者标识关联于与候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。

全部详细技术资料下载

【技术实现步骤摘要】
特征提交重复数据删除引擎
本公开的实施例涉及软件开发领域，更具体地涉及特征提交。
技术介绍
在开发和/或维护复杂系统期间，多个利益相关者可以负责特征构想、特征实现和特征监测。例如，当软件应用被部署以供在组织中使用时，组织的许多成员可以使用软件应用来完成任务。进一步地，组织的许多成员可以向软件开发人员团队提供特征提交以建议针对软件应用的新特征。软件开发人员团队可以选择特征提交的子集，将资源(例如，时间资源、计算资源等)用于该子集以进行开发。
技术实现思路
根据一些实现，一种方法可以包括：从设备接收标识针对软件应用的候选特征的特征提交；由设备对特征提交进行预处理以使与候选特征相关联的数据重新格式化，以与关联于所存储的有关过往特征提交的信息的数据格式相匹配；由设备对与候选特征相关联的数据执行自然语言处理以确定候选特征的语义含义；由设备将候选特征的语义含义与过往特征提交的索引进行比较，以确定候选特征是否与过往特征提交中的任何过往特征提交相匹配；以及由设备提供指示在阈值语义相似性内候选特征是否与过往特征提交中的任何过往特征提交相匹配的响应，其中响应包括候选特征与任何过往特征提交不相匹配的指示或者标识关联于与候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。根据一些实现，一种设备可以包括：一个或者多个存储器；以及一个或者多个处理器，该一个或者多个处理器被通信地耦合至一个或者多个存储器，该一个或者多个处理器被配置为：训练二进制机器学习分类器以基于对过往特征提交的描述的一个或者多个特征来总结该描述...

【技术保护点】
1.一种方法，包括：/n从设备接收标识针对软件应用的候选特征的特征提交；/n由所述设备对所述特征提交进行预处理以使与所述候选特征相关联的数据重新格式化，以与关联于所存储的有关过往特征提交的信息的数据格式相匹配；/n由所述设备对与所述候选特征相关联的所述数据执行自然语言处理以确定所述候选特征的语义含义；/n由所述设备将所述候选特征的所述语义含义与过往特征提交的索引进行比较，以确定所述候选特征是否与所述过往特征提交中的任何过往特征提交相匹配；以及/n由所述设备提供指示所述候选特征是否与所述过往特征提交相匹配的响应，/n其中所述响应包括所述候选特征与任何过往特征提交不相匹配的指示、或者标识关联于与所述候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。/n

【技术特征摘要】
20190402 US 16/372,8881.一种方法，包括：
从设备接收标识针对软件应用的候选特征的特征提交；
由所述设备对所述特征提交进行预处理以使与所述候选特征相关联的数据重新格式化，以与关联于所存储的有关过往特征提交的信息的数据格式相匹配；
由所述设备对与所述候选特征相关联的所述数据执行自然语言处理以确定所述候选特征的语义含义；
由所述设备将所述候选特征的所述语义含义与过往特征提交的索引进行比较，以确定所述候选特征是否与所述过往特征提交中的任何过往特征提交相匹配；以及
由所述设备提供指示所述候选特征是否与所述过往特征提交相匹配的响应，
其中所述响应包括所述候选特征与任何过往特征提交不相匹配的指示、或者标识关联于与所述候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。

2.根据权利要求1所述的方法，其中执行所述自然语言处理包括：
确定对所述候选特征的描述中的每个在语义上不同的单词的出现次数；
基于所述出现次数来将对所述候选特征的所述描述中的每个在语义上不同的单词转换为对应的整数型单词标识符；
生成所述对应的整数型单词标识符的稀疏向量；并且
其中比较所述语义含义包括：
使用所述稀疏向量来比较所述语义含义。

3.根据权利要求1所述的方法，其中执行所述自然语言处理包括：
对与对所述候选特征的描述相关的信息执行潜在语义索引过程；
执行降维过程以将所述潜在语义索引过程的结果的维度减少到在配置的维度范围内；并且
其中比较所述语义含义包括：
使用所述降维过程的结果来比较所述语义含义。

4.根据权利要求1所述的方法，还包括：
标识与所述软件应用所属的特定行业相关联的数据馈源；
订阅所述数据馈源；
从所述数据馈源向所述过往特征提交添加特征集合；并且
其中比较所述语义含义包括：
在添加所述特征集合之后，比较所述语义含义。

5.根据权利要求1所述的方法，还包括：
生成过往特征提交的所述索引；并且
其中比较所述语义含义包括：
在生成所述索引之后，比较所述语义含义。

6.根据权利要求5所述的方法，其中生成所述索引还包括：
训练二进制机器学习分类器，以基于所述描述的一个或者多个特征来总结对所述过往特征提交的描述；以及
使用所述二进制机器学习分类器来执行文本总结过程以标识关键短语的集合。

7.根据权利要求6所述的方法，其中所述一个或者多个特征包括以下中的至少一项：
关键短语的长度，
关键短语的频率，
关键短语中的重复单词的数量，或者
关键短语中的字符的数量。

8.根据权利要求5所述的方法，其中生成所述索引还包括：
连接对所述过往特征提交的描述以生成语料库；
将所述语料库分成分段集合；
生成所述分段集合的向量表示；
确定所述向量表示之间的相似性；
基于所述相似性来生成相似性矩阵；以及
将所述相似性矩阵转换成图，
其中所述分段集合表示所述图的顶点，并且所述相似性表示所述图的边。

9.一种设备，包括：
一个或者多个存储器；以及
一个或者多个处理器，被通信地耦合至所述一个或者多个存储器，所述一个或者多个处理器被配置为：
训练二进制机器学习分类器以基于对过往特征提交的描述的一个或者多个特性来总结所述描述；
使用所述二进制机器学习分类器来执行文本总结过程以标识关键短语的集合；
接收标识针对应用的候选特征的特征提交；
对所述特征提交进行预处理以使与所述候选特征相关联的数据重新格式化，以与关联于所存储的有关所述过往特征提交的信息的数据格式相匹配；
对与所述候选特征相关联的所述数据执行自然语言处理以确定所述候选特征的语义含义；
将所述候选特征的所述语义含义与过往特征提交的索引进行比较并且与所述关键短语的集合相关联，以确定所述候选特征是否与所述过往特征提交中的任何过往特征提交相匹配；以及
提供指示所述候选特征是否与所述过往特征提交相匹配的响应，
其中所述响应包括所述候选特征与任何过往特征提交不相匹配的指示、或者标识关联于...

【专利技术属性】
技术研发人员：B·梅塔，M·塞克哈，J·斯瓦米，R·伊耶，S·贾因，J·A·古普塔，C·A·德什潘德，A·哈特，S·拉克什米纳拉西姆翰，A·斯里瓦斯塔瓦，S·帕德玛瓦，
申请(专利权)人：埃森哲环球解决方案有限公司，
类型：发明
国别省市：爱尔兰;IE

全部详细技术资料下载我是这个专利的主人