用于执行计算机实现的现有技术搜索的系统和方法技术方案

技术编号:29600996 阅读:14 留言:0更新日期:2021-08-06 20:05
在一些实施例中,提供了一种用于从文档语料库检索相似文档的计算机实现的方法。该方法可以包括接收包括单词集合的搜索文档;应用第一编码器来生成第一向量;应用第二编码器来生成第二向量;确定搜索文档的第一向量和文档语料库的每个文档的第一向量之间的第一相似性;确定搜索文档的第二向量和文档语料库的每个文档的第二向量之间的第二相似性;基于第一相似性生成文档的第一排名列表;基于第二相似性生成文档的第二排名列表;应用投票算法来确定与每个文档相关联的评分;以及基于所确定的评分输出文档的第三排名列表。

【技术实现步骤摘要】
【国外来华专利技术】用于执行计算机实现的现有技术搜索的系统和方法相关申请的交叉引用本申请要求来自2018年8月28日提交的美国临时专利申请号62/723,959以及2019年8月27日提交的美国专利申请号16/553,148的优先权,这两个专利特此通过引用以其整体并入。
技术介绍
执行现有技术搜索通常是麻烦和低效的。执行现有技术搜索的方法经受长的处理时间,从而导致专利审查过程中的积压和延迟。此外,当前的计算机化搜索工具需要人类在一个或多个步骤处输入信息。当前搜索方法的低效率也源于量化文本文档的困难,从而产生次优结果。因此,存在对用于高效且准确地标识相似文档的系统和方法的需求。
技术实现思路
对于本专利技术的一些实施例,提供了一种用于生成文档数据库的计算机实现的方法。在一个实施例中,提供了一种用于生成文档数据库的计算机实现的方法。该方法可以包括接收多个文档中的文档,该文档包括单词集合;将第一编码器应用于单词集合以生成第一向量;将第二编码器应用于单词集合以生成第二向量;使用第一向量和第二向量将文档索引成可搜索索引;以及使能使用索引搜索文档。在另一个实施例中,提供了一种用于从文档语料库检索相似文档的方法。该方法可以包括:接收搜索文档,该搜索文档包括单词集合;将第一编码器应用于单词集合以生成第一向量;将第二编码器应用于单词集合以生成第二向量;确定搜索文档的第一向量和文档语料库的每个文档的第一向量之间的第一相似性;确定搜索文档的第二向量和文档语料库的每个文档的第二向量之间的第二相似性;基于第一相似性生成语料库中的文档的第一排名列表;基于第二相似性生成语料库中的文档的第二排名列表;基于每个文档在其相对排名列表中的位置,应用投票算法来确定与每个文档相关联的评分;以及基于所确定的评分输出文档的第三排名列表。在另一个实施例中,一种计算机程序产品可以包括其中体现有计算机可读程序的非暂时性计算机可读介质。当在计算设备上执行时,该计算机可读程序可以使得计算设备:接收搜索文档,该搜索文档包括单词集合;将第一编码器应用于单词集合以生成第一向量;将第二编码器应用于单词集合以生成第二向量;确定搜索文档的第一向量和文档语料库的每个文档的第一向量之间的第一相似性;确定搜索文档的第二向量和文档语料库的每个文档的第二向量之间的第二相似性;基于第一相似性生成语料库中的文档的第一排名列表;基于第二相似性生成语料库中的文档的第二排名列表;基于每个文档在其相对排名列表中的位置,应用投票算法来确定与每个文档相关联的评分;以及基于所确定的评分输出文档的第三排名列表。将理解,前述一般描述和以下详细描述均仅仅是示例性和解释性的,并且不是对如要求保护的公开实施例的限制。附图说明并入本说明书中并构成其一部分的附图图示了公开的实施例,并且与说明书一起用于解释公开的实施例。在附图中:图1是根据公开的实施例的用于维护现有技术数据库的示例性系统的框图。图2A是根据公开的实施例的用于搜索现有技术数据库的示例性系统的过程图解。图2B是根据公开的实施例的示例性语义编码器的过程图解。图3A是根据公开的实施例的示例性节点-边图。图3B是根据公开的实施例的示例性节点-边图。图4A是根据公开的实施例的用于搜索现有技术数据库的示例性图形用户接口。图4B是根据公开的实施例的显示现有技术搜索结果的另一示例性图形用户接口。图5是根据公开的实施例的搜索现有技术数据库的示例的图示。图6是根据公开的实施例的生成现有技术数据库的示例性方法的流程图。图7是根据公开的实施例的搜索现有技术数据库的示例性方法的流程图。具体实施方式在以下详细描述中,阐述了许多具体细节,以便提供对公开的示例实施例的透彻理解。然而,本领域技术人员将理解,示例实施例的原理可以在没有每个具体细节的情况下实践。没有详细描述公知的方法、过程和组件,以免模糊示例实施例的原理。除非明确声明,否则本文描述的示例方法和过程不被约束为特定的次序或顺序,也不被约束为特定的系统配置。另外,一些所描述的实施例或其元素可以同时、在同一时间点或并发地发生或被执行。公开的实施例提供了用于执行计算机实现的现有技术搜索的系统和方法。公开的系统和方法可以用于评估现有技术及其与一个或多个文档(诸如新专利申请)的相似性。公开的系统和方法可以提供在先前系统之上增加的准确度,先前系统低效并且在一个或多个步骤处需要人类干预。在一个实施例中,与本公开一致的系统和方法可以接收专利申请或其他文档作为输入并输出相关的现有技术结果和/或其他相关文档。这样的系统和方法可以用于例如寻找与新提交的专利申请相关的现有技术。在其他实施例中,描述的系统和方法可以用于在提交专利申请之前执行相关技术搜索,或者可以用于帮助自由操作分析。本文描述的系统和方法可以由例如商业、政府或学术实体使用,所述实体包括但不限于科学家、知识产权专业人员、法律专业人员、商业专业人员、专利局审查员、监管机构和学术界。在实施例中,该系统可以使得用户能够在已公布的专利申请(或其他文档)和新的专利申请(或其他文档)之间执行相似性搜索。在一些实施例中,该系统可以输出被确定为与输入文档最相似的文档,或者基于相似文档与输入文档的相似性排名的相似文档列表。图1描绘了与公开的实施例一致的用于维护现有技术数据库的示例性系统100。如所示,系统100可以包括现有技术系统102、现有技术数据库104和客户端设备106。系统100的组件可以经由网络108彼此连接。如本领域技术人员将领会的,系统100的组件可以以各种方式布置,并且在适用的情况下用硬件、固件和/或软件的任何合适的组合来实现。例如,与图1中的描绘相比,系统100可以包括更多或更少数量的现有技术系统、现有技术数据库、客户端设备和/或网络。此外,系统100可以进一步包括与公开的实施例一致的未描绘的执行或帮助执行一个或多个过程的其他组件或设备。图1中所示的示例性组件和布置不意图限制公开的实施例。现有技术系统102可以包括与公开的实施例一致的计算设备、计算机、服务器、服务器集群、多个服务器集群和/或云服务。现有技术系统102可以包括一个或多个存储器单元和一个或多个处理器,其被配置为执行与公开的实施例一致的操作。现有技术系统102可以包括与公开的实施例一致的被配置为生成、接收、检索、存储和/或提供数据模型和/或数据集的计算系统。现有技术系统102可以包括与公开的实施例一致的被配置为生成和训练模型的计算系统。现有技术系统102可以被配置为(例如,经由网络108)从系统100的其他组件和/或系统100之外的计算组件接收数据、从其检索数据和/或将数据传输到其。现有技术系统102在下面更详细地公开(参考图2A)。现有技术系统102可以包括程序(例如,脚本、函数、算法)来训练、实现、存储、接收、检索和/或传输一个或多个机器学习模型。机器学习模型可以包括神经网络模型、注意力网络模型、生成对抗模型(GAN)、递归神经网络(RNN)模型、深度学习模型(例本文档来自技高网...

【技术保护点】
1.一种用于生成文档数据库的计算机实现的方法,所述方法包括:/n接收多个文档中的文档,所述文档包括单词集合;/n将第一编码器应用于单词集合以生成第一向量;/n将第二编码器应用于单词集合以生成第二向量;/n使用第一向量和第二向量将文档索引成可搜索索引;和/n使能使用索引搜索文档。/n

【技术特征摘要】
【国外来华专利技术】20180828 US 62/723959;20190827 US 16/5531481.一种用于生成文档数据库的计算机实现的方法,所述方法包括:
接收多个文档中的文档,所述文档包括单词集合;
将第一编码器应用于单词集合以生成第一向量;
将第二编码器应用于单词集合以生成第二向量;
使用第一向量和第二向量将文档索引成可搜索索引;和
使能使用索引搜索文档。


2.根据权利要求1所述的方法,其中所述索引包括用于第一向量的第一索引和用于第二向量的第二索引。


3.根据权利要求1所述的方法,进一步包括:
将模型应用于单词集合以生成与文档相关联的一个或多个标签;和
基于所述一个或多个标签,用文档更新节点-边图,其中所述节点-边图表示所述多个文档之间的关系。


4.根据权利要求1所述的方法,进一步包括:
解析文档以标识触发单词,所述触发单词指示单词子集;
确定文档不包含触发单词;和
将文档存储在异常数据库中。


5.根据权利要求1所述的方法,其中第一编码器包括神经网络编码器。


6.根据权利要求1所述的方法,其中应用第二编码器包括解析单词集合,并从单词集合移除停止单词的出现,以生成单词子集。


7.根据权利要求6所述的方法,进一步包括:
确定每个单词子集在单词子集中出现的次数;和
确定每个单词子集的稀有度。


8.根据权利要求7所述的方法,其中,所述稀有度包括单词在文档中出现的次数与所述单词在所述多个文档中出现的次数的比较。


9.根据权利要求3所述的方法,其中所述一个或多个标签属于标签集合,所述标签集合由应用于所述多个文档的模型生成。


10.一种用于从文档语料库检索相似文档的计算机实现的方法,所述方法包括:
接收搜索文档,所述搜索文档包括单词集合;
将第一编码器应用于单词集合以生成第一向量;
将第二编码器应用于单词集合以生成第二向量;
确定搜索文档的第一向量和文档语料库的每个文档的第一向量之间的第一相似性;
确定搜索文档的第二向量和文档语料库的每个文档的第二向量之间的第二相似性;
基于第一相似性生成语料库中的文档的第一排名列表;
基于第二相似性生成语料库中的文档的第二排名列表;
基于每个文档在其相对排名列表中的位置,应用投票算法来确定与每个文档相关联的评分;和
基于所确定的评分输出文档的第三排名列表。

【专利技术属性】
技术研发人员:M·R·格拉鲍J·D·弗莱格D·A·波尔沙科夫J·M·威尔逊R·L·富尔福德邓毅P·Y·阿亚拉D·E·斯瓦乌特C·R·格斯纳
申请(专利权)人:美国化学协会
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1