一种语义检索方法及检索系统技术方案

技术编号:18445171 阅读:29 留言:0更新日期:2018-07-14 10:29
本发明专利技术提供了一种语义检索方法及系统,其中方法包括:将任意多个模块化语义检索流程进行一次组合或多次组合,形成检索条件规则;利用所述形成的检索条件规则进行语义检索;其中,所述模块化语义检索流程包括:客观式概念相似度语义检索流程,客观式概念匹配度语义检索流程,主观式内容关键字语义检索流程和主观式正则表达式语义检索流程。本发明专利技术的方法及系统可以将各种检索方式进行模块化组合,用户可以按照实际需求灵活组合检索方式,满足了用户的个性化需求。

A semantic retrieval method and retrieval system

The present invention provides a semantic retrieval method and system, in which the method includes: a combination or multiple combination of any multiple modular semantic retrieval processes to form a retrieval condition rule and semantic retrieval using the established retrieval condition rules, in which the modular semantic retrieval process includes: Objective Concept similarity semantic retrieval process, objective concept matching semantic retrieval process, subjective content keyword semantic retrieval process and subjective regular expression semantic retrieval process. The method and system of the invention can modularized the various retrieval methods, and the user can combine the retrieval mode flexibly according to the actual needs, and meet the user's personalized needs.

【技术实现步骤摘要】
一种语义检索方法及检索系统
本专利技术涉及信息检索
,特别涉及一种语义检索方法及系统。
技术介绍
随着科学的发展、技术的创新,科技信息、资讯信息等各类信息以指数形式呈现爆发式地增长。而无论是科学技术研究、还是社会管理都离不开文献的检索。如何在海量的信息中精准并全面地获得目标内容,这对搜索技术提出了更好的要求。目前,存在着众多搜索引擎系统,这些搜索引擎一般采用单一的检索方式:通过用户输入的原始关键词进行检索,或者通过语义分析进行检索,或者通过其他的单一方式进行检索。这种检索方式比较单一,在面对当前海量的信息时,搜索比较低效,而且搜索出的结果往往含有大量的非目标内容,极大地影响了用户的使用感受。
技术实现思路
针对现有技术中搜索方式单一的问题,本专利技术提出了一种组合式的语义检索方法及检索系统。一种语义检索方法,所述方法包括:将任意多个模块化语义检索流程进行一次组合或多次组合,形成检索条件规则;利用所述形成的检索条件规则进行语义检索;其中,所述模块化语义检索流程包括:客观式概念相似度语义检索流程,其通过文本内容利用相似度进行语义检索,客观式概念匹配度语义检索流程,其利用训练的检索模型进行筛选,主观式内容关键字语义检索流程,其利用设定的关键字或关键词进行语义检索,主观式正则表达式语义检索流程,其利用正则表达式进行语义检索。进一步地,在所述语义检索流程中构建语义检索条件模型。进一步地,对上述形成的检索条件规则进行存储,和/或,对构建的语义检索条件模型进行存储。进一步地,所述通过文本内容利用相似度进行语义检索具体为,通过对文本内容进行语料分析,确定内容相似度;所述利用设定的关键字或关键词进行语义检索具体为,将所述关键字或关键词组合成逻辑表达式进行检索。所述正则表达式,是表示检索目标特征的表达式。进一步地,在所述客观式概念相似度语义检索流程中,能够利用内容相似度和/或内容相似文本数量对检索结果进行限制。进一步地,在利用所述训练的检索模型进行筛选的过程中,将获得的反例反馈到所述训练的检索模型中,对所述检索模型进行再次训练。一种语义检索系统,所述系统包括:相似度检索模块,用于构建文本语义检索条件模型;匹配度检索模块,用于利用训练的检索模型进行筛选;关键字检索模块,用于构建关键词语义检索条件模型;表达式检索模块,用于构建正则表达式语义检索条件模型;组合检索模块,用于将上述相似度检索模块、匹配度检索模块、关键字检索模块、表达式检索模块中的多个进行一次组合或多次组合,形成检索条件规则,并利用所述形成的检索条件规则进行检索。进一步地,所述系统还包括:存储模块,用于存储上述检索条件规则和/或构建的语义检索条件模型。进一步地,所述系统还包括:输入模块,用于输入检索条件规则和/或语义检索条件模型。进一步地,所述系统还包括:展示模块,用于展示检索结果。本专利技术的语义检索方法及检索系统可以将各种检索方式进行模块化组合,用户可以按照实际需求灵活组合检索方式,满足了用户的个性化需求。同时,能够对检索条件模型和检索条件规则存储,方便用户利用之前的检索思路及习惯进行再次检索。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了根据本专利技术实施例的语义检索系统架构图;图2示出了根据本专利技术实施例的语义检索方法基本流程图;图3示出了根据本专利技术实施例的检索框架图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地说明。显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,根据本专利技术实施例的语义检索系统基本包括:输入模块,用于接收用户输入的检索诉求表达,包括输入检索语义条件模型,输入设置检索条件规则指令等。语义检索模块,包括四个模块化的模块:相似度检索模块、匹配度检索模块、关键字检索模块、表达式检索模块,其中,所述相似度检索模块,用于构建文本语义检索条件模型;所述匹配度检索模块,用于利用训练的检索模型进行筛选;所述关键字检索模块,用于构建关键词语义检索条件模型;所述表达式检索模块,用于构建正则表达式语义检索条件模型。组合检索模块,用于接收检索条件规则,从数据库中进行实际检索,并将检索结果发送给展示模块进行展示。本专利技术实施例以中文为例对本专利技术的语义检索方法和系统进行示例性说明,但并非仅仅限于中文数据检索。如图2所示,根据本专利技术实施例的语义检索方法主要包括:步骤一,编制基础语义检索条件模型;步骤二,形成检索条件规则;步骤三,运用检索规则对目标文本进行检索;步骤四,检索结果展示。步骤一、编制基础语义检索条件模型如图1所示,所述的语义检索系统主要包括输入模块、语义检索模块、组合检索模块和展示模块。用户可以通过所述输入模块输入检索诉求,例如在语义检索模块中的相似度模块、匹配度模块、关键词模块和/或表达式模块中输入对应的语义检索条件模型,即通过输入模块在相似度检索模块、匹配度检索模块、关键词检索模块和表达式检索模块分别构建客观式概念相似度语义条件模型、客观式概念匹配度语义条件模型、主观式内容关键字语义条件模型和主观式正则表达式语义条件模型,具体地:(1)所述相似度检索模块中构建有客观式概念相似度语义条件模型。该客观式概念相似度语义条件模型用于进行客观式概念相似度语义条件检索。用户可以通过输入模块在相似度检索模块中直接输入目标文本内容来表达检索目标,以通过构建的文本语义检索条件模型进行检索。示例性地,用户希望检索所有与《红楼梦》相关的文献,其可以在所述相似度检索模块中输入《红楼梦》全文或一段文本这类文本,以《红楼梦》全文文本作为目标文本。所述相似度检索模块接收到《红楼梦》全文后,对输入的《红楼梦》全文和数据库中的语料进行语料分析,利用内容概念相似度在数据库中进行检索查找。同时,为了增加检索的可读性、提高用户的检索体验,通过内容概念相似程度和/或内容概念最接近文本实体数量为约束条件对检索结果作出进一步限定。通过上述约束条件对检索结果进行了限定这防止出现大量相似度较低的检索结果,造成用户体验较差的问题。不失一般性,例如将上述对《红楼梦》全文检索后,可以设定与《红楼梦》内容相似度超过30%的语料进行展示;同时,可以限定与《红楼梦》内容概念最接近的10篇语料文本进行展示。通过上述限定后,仅仅将与《红楼梦》全文相似度超过30%的文献进行了展示,而将相似度低于30%的文献屏蔽其展示,这防止大量相似度低的文献呈现给用户,造成用户浏览体验差的问题。(2)在所述匹配度检索模块中构建客观式概念匹配度语义条件模型。用户可以通过大量文本对匹配度检索模块中的客观式概念匹本文档来自技高网...

【技术保护点】
1.一种语义检索方法,所述方法包括:将任意多个模块化语义检索流程进行一次组合或多次组合,形成检索条件规则;利用所述形成的检索条件规则进行语义检索;其中,所述模块化语义检索流程包括:客观式概念相似度语义检索流程,其通过文本内容利用相似度进行语义检索,客观式概念匹配度语义检索流程,其利用训练的检索模型进行筛选,主观式内容关键字语义检索流程,其利用设定的关键字或关键词进行语义检索,主观式正则表达式语义检索流程,其利用正则表达式进行语义检索。

【技术特征摘要】
1.一种语义检索方法,所述方法包括:将任意多个模块化语义检索流程进行一次组合或多次组合,形成检索条件规则;利用所述形成的检索条件规则进行语义检索;其中,所述模块化语义检索流程包括:客观式概念相似度语义检索流程,其通过文本内容利用相似度进行语义检索,客观式概念匹配度语义检索流程,其利用训练的检索模型进行筛选,主观式内容关键字语义检索流程,其利用设定的关键字或关键词进行语义检索,主观式正则表达式语义检索流程,其利用正则表达式进行语义检索。2.根据权利要求1所述的语义检索方法,其中,在所述语义检索流程中构建语义检索条件模型。3.根据权利要求2所述的语义检索方法,其中,对上述形成的检索条件规则进行存储,和/或,对构建的语义检索条件模型进行存储。4.根据权利要求1所述的语义检索方法,其中,所述通过文本内容利用相似度进行语义检索具体为,通过对文本内容进行语料分析,确定内容相似度;所述利用设定的关键字或关键词进行语义检索具体为,将所述关键字或关键词组合成逻辑表达式进行检索。所述正则表达式,是表示检索目标特征的表达式。5.根据权利要求1所述的语义检索方法,其中,在...

【专利技术属性】
技术研发人员:柯红伟张诚陈海宁
申请(专利权)人:北京吉高软件有限公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1