大型数据库中语义搜索的方法和系统技术方案

技术编号:24335035 阅读:80 留言:0更新日期:2020-05-29 21:54
本发明专利技术提供一种在源文档数据库中执行语义搜索的计算机实施的方法,所述源文档数据库包含由唯一的文档标识符标识的文档,所述方法包括:读取包含文本的查询的文本组件;使用预定义的特征提取模型,从查询的文本组件中生成查询特征集合;基于多个查询特征生成训练特征集合;利用训练特征、和使用预定义特征提取模型从源文档的至少一部分中获取的文档特征集合,将可训练的分类器进行训练;根据预定义的选择方案选择用于分类的多个源文档;获取经选择文档的特征;通过使用经选择文档的特征,将经选择源文档分类为不同的相关性类别,其中至少一个相关性值与各经选择文档相关联;基于经分类文档的至少一个相关联的相关性值,将经分类文档排序成有序列表;和将经排序文档的标识符的有序列表存储在计算机可读内存中。

Method and system of semantic search in large database

【技术实现步骤摘要】
【国外来华专利技术】大型数据库中语义搜索的方法和系统
本公开一般地涉及自然语言处理,且更具体地,涉及通过使用语义搜索引擎在大型文档数据库中搜索内容。
技术介绍
对在电子文档或基于纸质的文档中查找特定内容的需求日益增长,并且由于引入了电子文档的生成、存储和分发,或使此类文档可用于有限或无限数量的用户,因此可以在万维网(“网络”或“互联网”)和其他内部网上以电子形式访问数量不断增加的文档。即使使用具有适当搜索工具的计算机,对于具有特定内容的文档,文档检索和搜索也可能是非常耗时的任务。文档US7,249,121公开了用于从搜索查询中标识语义单元的各种方法和系统。用于搜索语料库的搜索引擎通过将搜索查询中的多个术语分类为单个语义单元来改进结果的相关性。搜索引擎的语义单元定位器(locator)基于查询中的各个术语来生成通常与查询相关的文档子集。然后,针对文档子集来评估定义来自查询的潜在语义单元的搜索术语组合,以确定哪些搜索术语组合应该被分类为语义单元。所得的语义单元用于改善搜索结果。尽管此解决方案提供了对与语义上有意义的(semanticallymeaningful)文本单元相对应的复合词(compound)的更准确的标识,但是它仍然具有缺点:相关文档的集合是以直截了当的方式、即基于查询关键词或关键文本的各个子集与语料库的索引的比较来确定的。当前的搜索引擎无法有效地搜索大型文档数据库。在许多情况下,由于需要解析大量文本,因此文档数据库搜索麻烦、费时、且低效利用有限的处理器资源。另外,许多当前的搜索引擎无法以有意义或动态的顺序对结果进行排序。由于跨多个平台和多种数字格式的数字数据的分散性增加,因此本领域需要提供更有效地利用处理器时间和资源的语义搜索技术,并进一步改进结果集合相对于由查询实体(queryingentity)搜索的基于文本的内容的相关性。通过结果的相关性的改进,相对于传统的语义搜索引擎,特定内容搜索需要更少数量的搜索查询,这因此减少了使用如互联网或内部网的服务数据通信网络来执行的搜索的带宽需求。
技术实现思路
公开的实施方案提供了用于使用电子令牌和令牌化设备来管理电子事务(electronictransaction)的系统和方法。本专利技术尤其提供了根据权利要求1的计算机实施的方法、根据权利要求11的处理系统、根据权利要求14的计算机可读介质和根据权利要求15的系统。优选的实施方案在从属权利要求中列出。由于源文档和查询文本的非常紧凑的表示,因此本语义搜索引擎解决方案的内存(memory)和存储(storage)需求明显低于已知语义搜索引擎的内存和存储需求。本公开的一个方面指向一种在包含文档的源文档数据库中执行语义搜索的计算机实施的方法,各文档由唯一的文档标识符来标识,该方法包括由处理系统执行的以下步骤:读取包含文本的查询的文本组件(textcomponent);使用预定义的特征提取模型,从查询的文本组件中生成查询特征集合;基于多个查询特征生成训练特征集合;利用训练特征、和使用预定义特征提取模型从源文档的至少一部分中获取的文档特征集合,将可训练的分类器进行训练;根据预定义的选择方案选择用于分类的多个源文档;获取经选择文档的特征;通过经训练分类器(trainedclassifier),通过使用经选择文档的特征,将经选择源文档分类成不同的相关性类别,其中至少一个相关性值与各经选择文档相关联;基于至少一个相关联的相关性值,将经分类文档排序成有序列表(orderedlist);和将经排序文档的标识符的有序列表存储在计算机可读内存中。本专利技术的另一方面指向一种用于在文档数据库中执行语义搜索的处理系统,该系统包括至少一个处理器设备,该处理器设备包括:查询接口,其配置为接收包含文本的查询,并从包含文本的查询中生成文本组件;令牌器组件(tokenizercomponent),其配置为从查询的文本组件生成查询特征集合;搜索引擎组件,其配置为产生语义相关文档(semanticallyrelevantdocument)的标识符的有序列表,该搜索引擎包括配置为评估经选择文档集合相对于查询的文本组件的相关性的分类器组件,以及配置为基于经分类文档的相关性产生经分类文档的标识符的有序列表;和计算机可读内存,其用于存储相关文档的标识符的有序列表。本公开的又一方面指向一种计算机可读的、特别是非暂时性的介质,其具有与上述两个方面相关的特征。本公开的一方面指向一种系统,其包括一个或多个处理器设备、和存储指令的一个或多个存储设备,当通过一个或多个处理器设备执行时,该指令为可操作的以使一个或多个处理器设备执行根据本公开的第一方面的方法的步骤。与其他公开的实施方案一致,计算机可读存储介质、特别是非暂时性计算机可读存储介质可以存储程序指令,当通过至少一个处理器设备执行时,该程序指令执行本文描述的任何方法。前面的一般描述和下面的详细描述仅仅是示例性和解释性的,而不是对权利要求的限制。附图说明附图示出了几种实施方案,并且与描述一起用于解释所公开的原理。在附图中:图1A是示出预处理系统的组件的示意性框图,该预处理系统配置为构建用于由根据本公开的处理系统待执行的语义搜索的数据库。图1B是示出根据本公开的处理系统的基本组件的示意性框图。图1C是示出根据本公开的处理系统的基本组件和各种可选组件的示意性框图。图2是示出根据本公开的在文本文档的数据库中执行语义搜索的计算机实施的方法的主要步骤的流程图。图3是示出根据本公开的方法的可选步骤的流程图。图4是示出根据本公开的方法的可选步骤的流程图。图5是示出根据本公开的方法的可选步骤的流程图。图6是示出根据本公开的方法的可选步骤的流程图。图7是示出根据本公开的搜索方法的实施方案的步骤的流程图。图8是示出根据本公开的搜索方法的另一实施方案的步骤的流程图。图9是示出根据本公开的搜索方法的又一实施方案的步骤的流程图。具体实施方式本公开的以下详细描述参考附图。详细描述不限制本专利技术。相反,本专利技术的范围由所附权利要求和等同物来限定。如本文所述,令牌器组件在语意上从查询文本中提取特有特征(characteristicfeature),使用查询文本的特有特征来选择相关文档集合,然后使用可训练的分类器组件以相对于其相关性来评估源文档的经选择集合,并且所评估的文档按照它们的相关性在列表中排序。如本文所使用的,术语“特有特征”是指表示文本的语义内容的人工二进制代码集合,所述代码是通过对文本的二进制表示应用适当的变换操作而提供的。如稍后将更详细地描述的,从文本的二进制表示到特有特征的变换可以根据各种建模技术来进行。此外,术语“内容特征”、“查询特征”和“训练特征”用作特定种类的特有特征。具体地,内容特征用于表示源文档的内容,查询特征用于表示查询文本的内容,而训练特征是从查询特征衍生的特有特征,用在根据一些实施方案的方法的分类步骤中。由于上述特有特征的使用本文档来自技高网
...

【技术保护点】
1.一种在包含文档的源文档数据库中执行语义搜索的计算机实施的方法,所述文档中的每个由唯一的文档标识符标识,所述方法包括:/n读取包含文本的查询的文本组件;/n使用预定义的特征提取模型,从所述查询的所述文本组件中生成查询特征集合;/n基于多个查询特征生成训练特征集合;/n利用训练特征、和使用预定义的特征提取模型从所述源文档的至少一部分中获取的文档特征集合,将可训练的分类器进行训练;/n根据预定义的选择方案,选择用于分类的多个源文档;/n获取经选择文档的特征;/n通过经训练分类器,通过使用所述经选择文档的特征,将经选择源文档分类为不同的相关性类别,其中至少一个相关性值与各所述经选择文档相关联;/n基于所述至少一个相关性值,将经分类文档排序成有序列表;和/n将经排序文档的标识符的所述有序列表存储在计算机可读内存中。/n

【技术特征摘要】
【国外来华专利技术】20171010 US 15/729,2961.一种在包含文档的源文档数据库中执行语义搜索的计算机实施的方法,所述文档中的每个由唯一的文档标识符标识,所述方法包括:
读取包含文本的查询的文本组件;
使用预定义的特征提取模型,从所述查询的所述文本组件中生成查询特征集合;
基于多个查询特征生成训练特征集合;
利用训练特征、和使用预定义的特征提取模型从所述源文档的至少一部分中获取的文档特征集合,将可训练的分类器进行训练;
根据预定义的选择方案,选择用于分类的多个源文档;
获取经选择文档的特征;
通过经训练分类器,通过使用所述经选择文档的特征,将经选择源文档分类为不同的相关性类别,其中至少一个相关性值与各所述经选择文档相关联;
基于所述至少一个相关性值,将经分类文档排序成有序列表;和
将经排序文档的标识符的所述有序列表存储在计算机可读内存中。


2.根据权利要求1所述的方法,其中,查询实体包括用户接口和应用编程接口中的至少一个。


3.根据权利要求1或2所述的方法,其还包括:
将所述训练特征定义为与所述查询特征一致。


4.根据前述权利要求中任一项所述的方法,其还包括,在所述分类之前:
将存储在所述源文档数据库中的所述文档的至少一部分划分成块,各所述块由块标识符唯一地标识;和
针对各所述块生成多个块特征。


5.根据前述权利要求中任一项所述的方法,其中,选择用于分类的文档包括:
获取与扩展的查询特征集合中的至少一个特征相关联的、所述源文档的所述标识符。


6.根据前述权利要求中任一项所述的方法,其中,生成训练特征集合包括:
获取与所述查询特征中的至少一个相关联的所述块的所述标识符;
获取与各先前选择的所述块相关联的块特征,从而产生扩展的查询特征集合;和
将所述扩展的查询特征集合定义为所述训练特征集合。


7.根据前述权利要求中任一项所述的方法,其中,选择用于分类的文档包括:
选择存储在所述源文档数据库中的所有文档;或者
获取与所述查询特征中的至少一个相关联的所述源文档的所述标识符。

【专利技术属性】
技术研发人员:贝拉·洛兰·科瓦奇斯阿科斯·贾格
申请(专利权)人:尼根特罗匹克斯软件有限公司
类型:发明
国别省市:匈牙利;HU

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1