大型数据库中语义搜索的方法和系统技术方案

技术编号：24335035 阅读：94 留言：0更新日期：2020-05-29 21:54

本发明专利技术提供一种在源文档数据库中执行语义搜索的计算机实施的方法，所述源文档数据库包含由唯一的文档标识符标识的文档，所述方法包括：读取包含文本的查询的文本组件；使用预定义的特征提取模型，从查询的文本组件中生成查询特征集合；基于多个查询特征生成训练特征集合；利用训练特征、和使用预定义特征提取模型从源文档的至少一部分中获取的文档特征集合，将可训练的分类器进行训练；根据预定义的选择方案选择用于分类的多个源文档；获取经选择文档的特征；通过使用经选择文档的特征，将经选择源文档分类为不同的相关性类别，其中至少一个相关性值与各经选择文档相关联；基于经分类文档的至少一个相关联的相关性值，将经分类文档排序成有序列表；和将经排序文档的标识符的有序列表存储在计算机可读内存中。

Method and system of semantic search in large database

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】大型数据库中语义搜索的方法和系统
本公开一般地涉及自然语言处理，且更具体地，涉及通过使用语义搜索引擎在大型文档数据库中搜索内容。
技术介绍
对在电子文档或基于纸质的文档中查找特定内容的需求日益增长，并且由于引入了电子文档的生成、存储和分发，或使此类文档可用于有限或无限数量的用户，因此可以在万维网(“网络”或“互联网”)和其他内部网上以电子形式访问数量不断增加的文档。即使使用具有适当搜索工具的计算机，对于具有特定内容的文档，文档检索和搜索也可能是非常耗时的任务。文档US7,249,121公开了用于从搜索查询中标识语义单元的各种方法和系统。用于搜索语料库的搜索引擎通过将搜索查询中的多个术语分类为单个语义单元来改进结果的相关性。搜索引擎的语义单元定位器(locator)基于查询中的各个术语来生成通常与查询相关的文档子集。然后，针对文档子集来评估定义来自查询的潜在语义单元的搜索术语组合，以确定哪些搜索术语组合应该被分类为语义单元。所得的语义单元用于改善搜索结果。尽管此解决方案提供了对与语义上有意义的(semanticallymeaningful)文本单元相对应的复合词(compound)的更准确的标识，但是它仍然具有缺点：相关文档的集合是以直截了当的方式、即基于查询关键词或关键文本的各个子集与语料库的索引的比较来确定的。当前的搜索引擎无法有效地搜索大型文档数据库。在许多情况下，由于需要解析大量文本，因此文档数据库搜索麻烦、费时、且低效利用有限的处理器资源。另外，许多当前的搜索引擎无法以有意义或动态的顺序对结果...

【技术保护点】
1.一种在包含文档的源文档数据库中执行语义搜索的计算机实施的方法，所述文档中的每个由唯一的文档标识符标识，所述方法包括：/n读取包含文本的查询的文本组件；/n使用预定义的特征提取模型，从所述查询的所述文本组件中生成查询特征集合；/n基于多个查询特征生成训练特征集合；/n利用训练特征、和使用预定义的特征提取模型从所述源文档的至少一部分中获取的文档特征集合，将可训练的分类器进行训练；/n根据预定义的选择方案，选择用于分类的多个源文档；/n获取经选择文档的特征；/n通过经训练分类器，通过使用所述经选择文档的特征，将经选择源文档分类为不同的相关性类别，其中至少一个相关性值与各所述经选择文档相关联；/n基于所述至少一个相关性值，将经分类文档排序成有序列表；和/n将经排序文档的标识符的所述有序列表存储在计算机可读内存中。/n

【技术特征摘要】
【国外来华专利技术】20171010 US 15/729,2961.一种在包含文档的源文档数据库中执行语义搜索的计算机实施的方法，所述文档中的每个由唯一的文档标识符标识，所述方法包括：
读取包含文本的查询的文本组件；
使用预定义的特征提取模型，从所述查询的所述文本组件中生成查询特征集合；
基于多个查询特征生成训练特征集合；
利用训练特征、和使用预定义的特征提取模型从所述源文档的至少一部分中获取的文档特征集合，将可训练的分类器进行训练；
根据预定义的选择方案，选择用于分类的多个源文档；
获取经选择文档的特征；
通过经训练分类器，通过使用所述经选择文档的特征，将经选择源文档分类为不同的相关性类别，其中至少一个相关性值与各所述经选择文档相关联；
基于所述至少一个相关性值，将经分类文档排序成有序列表；和
将经排序文档的标识符的所述有序列表存储在计算机可读内存中。

2.根据权利要求1所述的方法，其中，查询实体包括用户接口和应用编程接口中的至少一个。

3.根据权利要求1或2所述的方法，其还包括：
将所述训练特征定义为与所述查询特征一致。

4.根据前述权利要求中任一项所述的方法，其还包括，在所述分类之前：
将存储在所述源文档数据库中的所述文档的至少一部分划分成块，各所述块由块标识符唯一地标识；和
针对各所述块生成多个块特征。

5.根据前述权利要求中任一项所述的方法，其中，选择用于分类的文档包括：
获取与扩展的查询特征集合中的至少一个特征相关联的、所述源文档的所述标识符。

6.根据前述权利要求中任一项所述的方法，其中，生成训练特征集合包括：
获取与所述查询特征中的至少一个相关联的所述块的所述标识符；
获取与各先前选择的所述块相关联的块特征，从而产生扩展的查询特征集合；和
将所述扩展的查询特征集合定义为所述训练特征集合。

7.根据前述权利要求中任一项所述的方法，其中，选择用于分类的文档包括：
选择存储在所述源文档数据库中的所有文档；或者
获取与所述查询特征中的至少一个相关联的所述源文档的所述标识符。

【专利技术属性】
技术研发人员：贝拉·洛兰·科瓦奇斯，阿科斯·贾格，
申请(专利权)人：尼根特罗匹克斯软件有限公司，
类型：发明
国别省市：匈牙利;HU

全部详细技术资料下载我是这个专利的主人