用于执行计算机实现的现有技术搜索的系统和方法技术方案

技术编号：29600996 阅读：14 留言：0更新日期：2021-08-06 20:05

在一些实施例中，提供了一种用于从文档语料库检索相似文档的计算机实现的方法。该方法可以包括接收包括单词集合的搜索文档；应用第一编码器来生成第一向量；应用第二编码器来生成第二向量；确定搜索文档的第一向量和文档语料库的每个文档的第一向量之间的第一相似性；确定搜索文档的第二向量和文档语料库的每个文档的第二向量之间的第二相似性；基于第一相似性生成文档的第一排名列表；基于第二相似性生成文档的第二排名列表；应用投票算法来确定与每个文档相关联的评分；以及基于所确定的评分输出文档的第三排名列表。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于执行计算机实现的现有技术搜索的系统和方法相关申请的交叉引用本申请要求来自2018年8月28日提交的美国临时专利申请号62/723，959以及2019年8月27日提交的美国专利申请号16/553，148的优先权，这两个专利特此通过引用以其整体并入。
技术介绍
执行现有技术搜索通常是麻烦和低效的。执行现有技术搜索的方法经受长的处理时间，从而导致专利审查过程中的积压和延迟。此外，当前的计算机化搜索工具需要人类在一个或多个步骤处输入信息。当前搜索方法的低效率也源于量化文本文档的困难，从而产生次优结果。因此，存在对用于高效且准确地标识相似文档的系统和方法的需求。
技术实现思路
对于本专利技术的一些实施例，提供了一种用于生成文档数据库的计算机实现的方法。在一个实施例中，提供了一种用于生成文档数据库的计算机实现的方法。该方法可以包括接收多个文档中的文档，该文档包括单词集合；将第一编码器应用于单词集合以生成第一向量；将第二编码器应用于单词集合以生成第二向量；使用第一向量和第二向量将文档索引成可搜索索引；以及使能使用索引搜索文档。在另一个实施例中，提供了一种用于从文档语料库检索相似文档的方法。该方法可以包括：接收搜索文档，该搜索文档包括单词集合；将第一编码器应用于单词集合以生成第一向量；将第二编码器应用于单词集合以生成第二向量；确定搜索文档的第一向量和文档语料库的每个文档的第一向量之间的第一相似性；确定搜索文档的第二向量和文档语料库的每个文档的第二向量之间的第二相似性；基于第一相似性生成语料库中的文档...

【技术保护点】
1.一种用于生成文档数据库的计算机实现的方法，所述方法包括：/n接收多个文档中的文档，所述文档包括单词集合；/n将第一编码器应用于单词集合以生成第一向量；/n将第二编码器应用于单词集合以生成第二向量；/n使用第一向量和第二向量将文档索引成可搜索索引；和/n使能使用索引搜索文档。/n

【技术特征摘要】
【国外来华专利技术】20180828 US 62/723959;20190827 US 16/5531481.一种用于生成文档数据库的计算机实现的方法，所述方法包括：
接收多个文档中的文档，所述文档包括单词集合；
将第一编码器应用于单词集合以生成第一向量；
将第二编码器应用于单词集合以生成第二向量；
使用第一向量和第二向量将文档索引成可搜索索引；和
使能使用索引搜索文档。

2.根据权利要求1所述的方法，其中所述索引包括用于第一向量的第一索引和用于第二向量的第二索引。

3.根据权利要求1所述的方法，进一步包括：
将模型应用于单词集合以生成与文档相关联的一个或多个标签；和
基于所述一个或多个标签，用文档更新节点-边图，其中所述节点-边图表示所述多个文档之间的关系。

4.根据权利要求1所述的方法，进一步包括：
解析文档以标识触发单词，所述触发单词指示单词子集；
确定文档不包含触发单词；和
将文档存储在异常数据库中。

5.根据权利要求1所述的方法，其中第一编码器包括神经网络编码器。

6.根据权利要求1所述的方法，其中应用第二编码器包括解析单词集合，并从单词集合移除停止单词的出现，以生成单词子集。

7.根据权利要求6所述的方法，进一步包括：
确定每个单词子集在单词子集中出现的次数；和
确定每个单词子集的稀有度。

8.根据权利要求7所述的方法，其中，所述稀有度包括单词在文档中出现的次数与所述单词在所述多个文档中出现的次数的比较。

9.根据权利要求3所述的方法，其中所述一个或多个标签属于标签集合，所述标签集合由应用于所述多个文档的模型生成。

10.一种用于从文档语料库检索相似文档的计算机实现的方法，所述方法包括：
接收搜索文档，所述搜索文档包括单词集合；
将第一编码器应用于单词集合以生成第一向量；
将第二编码器应用于单词集合以生成第二向量；
确定搜索文档的第一向量和文档语料库的每个文档的第一向量之间的第一相似性；
确定搜索文档的第二向量和文档语料库的每个文档的第二向量之间的第二相似性；
基于第一相似性生成语料库中的文档的第一排名列表；
基于第二相似性生成语料库中的文档的第二排名列表；
基于每个文档在其相对排名列表中的位置，应用投票算法来确定与每个文档相关联的评分；和
基于所确定的评分输出文档的第三排名列表。

【专利技术属性】
技术研发人员：M·R·格拉鲍，J·D·弗莱格，D·A·波尔沙科夫，J·M·威尔逊，R·L·富尔福德，邓毅，P·Y·阿亚拉，D·E·斯瓦乌特，C·R·格斯纳，
申请(专利权)人：美国化学协会，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人