透明迭代多概念语义搜索制造技术

技术编号:34596582 阅读:24 留言:0更新日期:2022-08-20 08:57
一种方法包括:接收自然语言搜索查询;识别查询中的语义概念的第一集合;创建语义概念的第一集合的向量表示;识别具有与语义概念的第一集合在预定的相似度阈值内的向量表示的语义概念的第二集合;基于语义概念的第一集合对文档执行搜索;向用户呈现文档的结果集以及语义概念的第一、第二、和第三集合;从用户处接收输入;基于来自用户的输入来对文档执行第二搜索,以获得文档的第二结果集;基于文档的第二结果集识别语义概念的第四集合;以及向用户呈现文档的第二结果集和语义概念的第四集合。呈现文档的第二结果集和语义概念的第四集合。呈现文档的第二结果集和语义概念的第四集合。

【技术实现步骤摘要】
【国外来华专利技术】透明迭代多概念语义搜索
[0001]相关申请的交叉引用
[0002]本公开要求2019年9月24日提交的题为“Transparent Iterative Multi

concept Semantic Search(透明迭代多概念语义搜索)”的美国临时专利申请第62/904,901号的优先权,其全部内容通过引用并入本文。

技术介绍

[0003]可以使用各种不同类型的搜索查询来搜索文档数据库(例如,包含法律文档、专利文档、新闻文章、财务文档等的数据库),以便识别与搜索查询相关的文档。搜索引擎通常要求使用关键字和连接符(例如,布尔连接符)输入搜索查询。虽然这种类型的搜索查询可能允许精确定义的搜索,但输入关键字和连接符的必要性可能对某些用户来说很困难或不被期望。
[0004]替代地,许多搜索引擎现在允许用户输入自然语言搜索查询。由于不需要理解如何使用关键字或布尔连接符,因此这种类型的搜索查询可能更易于用户构建。然而,存在如下风险:用户可能会构造无效的自然语言搜索查询,其产生不令人满意的搜索结果,而这些搜索结果不满足用户的搜索目标。这可本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于对文档语料库执行搜索的方法,所述方法包括:在计算设备处接收自然语言搜索查询;识别所述自然语言搜索查询中的语义概念的第一集合;创建所识别的语义概念的第一集合中的语义概念的向量表示;识别语义概念的第二集合,所述语义概念的第二集合包括具有与所述语义概念的第一集合中的所述语义概念中的一个或多个语义概念的所述向量表示在预定的相似度阈值内的向量表示的语义概念;基于所述语义概念的第一集合和所述语义概念的第二集合来对所述文档语料库执行搜索,以获得文档的结果集;基于所述文档的结果集来识别语义概念的第三集合;向用户呈现所述文档的结果集;以及向所述用户呈现所述语义概念的第一集合、所述语义概念的第二集合、以及所述语义概念的第三集合。2.如权利要求1所述的方法,其特征在于,识别所述自然语言搜索查询中的所述语义概念的第一集合包括使用自然语言处理工具包来识别所述自然语言搜索查询中的关键字术语。3.如权利要求2所述的方法,其特征在于,识别所述自然语言搜索查询中的所述语义概念的第一集合包括:针对所识别的关键字术语中的每一者,确定相关度得分;以及选择相关度得分高于预定阈值的所识别的关键字术语中的每一者作为所述语义概念的第一集合的语义概念。4.如权利要求2所述的方法,其特征在于,识别所述自然语言搜索查询中的所述语义概念的第一集合包括:识别所述自然语言搜索查询的语法结构;以及识别所述自然语言搜索查询中的词性标签或n元语法。5.如权利要求1所述的方法,其特征在于,识别所述自然语言搜索查询中的所述语义概念的第一集合包括基于n元语法生成和语法分块使用词频

逆文档频率来识别所述自然语言搜索查询中的关键字术语。6.如权利要求5所述的方法,其特征在于,识别所述自然语言搜索查询中的所述语义概念的第一集合包括:基于所述文档语料库,针对所述自然语言搜索查询中的每个词确定词频

逆文档频率得分;以及选择词频

逆文档频率得分高于预定阈值的所述自然语言搜索查询中的每个词作为所述语义概念的第一集合的语义概念。7.如权利要求1所述的方法,其特征在于,识别所述自然语言搜索查询中的所述语义概念的第一集合包括:使用自然语言处理工具包来识别所述自然语言搜索查询中的关键字术语的第一集合;使用所述自然语言处理工具包来确定所述关键字术语的第一集合的每个关键字术语的相关度得分;
使用词频

逆文档频率分析来识别所述自然语言搜索查询中的关键字术语的第二集合;基于所述关键字术语的第二集合的每个关键字术语的词频

逆文档频率得分来确定每个关键字术语的相关度得分;向所述关键字术语的第一集合的每个关键字术语的所述相关度得分应用第一权重,以获得所述关键字术语的第一集合的每个关键字术语的加权得分;向所述关键字术语的第二集合的每个关键字术语的所述相关度得分应用第二权重,以获得所述关键字术语的第二集合的每个关键字术语的加权得分;以及选择加权得分高于预定阈值的所述关键字术语的第一集合的每个关键字术语和所述关键字术语的第二集合的每个关键字术语作为所述语义概念的第一集合的语义概念。8.如权利要求1所述的方法,其特征在于,识别所述自然语言搜索查询中的所述语义概念的第一集合包括:使用自然语言处理工具包来识别所述自然语言搜索查询中的关键字术语的集合;针对所述关键字术语的集合的每个关键字术语确定词频

逆文档频率得分;以及选择词频

逆文档频率得分高于预定阈值的所述关键字术语的集合的每个关键字术语作为所述语义概念的第一集合的语义概念。9.如权利要求1所述的方法,进一步包括使用Word2vec嵌入来创建所述语义概念的第一集合中的所述语义概念的所述向量表示。10.如权利要求1所述的方法,其特征在于,所述预定的相似度阈值包括预定的最大余弦相似度。11.如权利要求1所述的方法,进一步包括:在向所述用户呈现所述文档的结果集之后,从所述用户处接...

【专利技术属性】
技术研发人员:K
申请(专利权)人:雷克斯股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1