面向文本搜索需求的形式化表达方法、装置及存储介质制造方法及图纸

技术编号:28784796 阅读:27 留言:0更新日期:2021-06-09 11:19
本发明专利技术公开了一种面向文本搜索需求的形式化表达方法、装置及存储介质,该方法包括将搜索输入文本按照一定规范转换成词序列;通过统计方法,从所述词序列中提取热词和第一数集,所述热词为最能代表所述输入文本的词语,所述第一数集为表示各个所述词序列重要程度的数值集合;根据所述词序列和所述热词,通过语义映射和特征词匹配的方式查找对应的本体;对所述本体进行分类成上位本体、下位本体和相关本体;根据所述第一数集,计算所述上位本体、下位本体和相关本体的权重;构建搜索需求形式化表达模型的实例。本发明专利技术能够统一搜索类应用的开发、维护、扩展提供极大的便利,降低搜索服务的使用门槛;本发明专利技术可广泛应用于文本搜索技术领域。术领域。术领域。

【技术实现步骤摘要】
面向文本搜索需求的形式化表达方法、装置及存储介质


[0001]本专利技术涉及文本搜索
,尤其是一种面向文本搜索需求的形式化表达方法、装置及存储介质。

技术介绍

[0002]通常,文本搜索输入(称为文本搜索需求)有两种形式:一是将所有搜索输入项列举出来,然后采用表格或树形结构展示,让用户逐个填写,搜索需求的表达形式是逻辑表达式;二是类似百度、搜狗、搜搜等互联网搜索引擎,通过提取用户输入内容中的关键词来进行搜索;其中,第一种形式是针对结构化数据的搜索,其逻辑性较强,通常采用逻辑表达式来表示搜索需求;第二种形式通常是针对非结构化数据,其搜索需求通常用关键词列表来表示。若要对结构化和非结构化数据进行统一搜索,则需要根据搜索方式的不同构建不同形式的搜索需求分别进行搜索,增加统一搜索类应用开发难度和复杂度,造成扩展和维护工作量巨大。对于第一种形式,需要将搜索需求按照搜索项做非常细致的拆分;第二种形式,通常对输入内容长度有限制,需要对搜索需求人工进行重点提取。因此这两类搜索的使用者局限于具备一定搜索技巧的人。

技术实现思路

[0003]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种面向文本搜索需求的形式化表达方法、装置及存储介质。
[0004]本专利技术所采取的技术方案是:
[0005]一方面,本专利技术实施例包括一种面向文本搜索需求的形式化表达方法,包括:
[0006]将搜索输入文本按照一定规范转换成词序列,所述搜索输入文本包括短句、关键词、文书标题、文书目录和文书段落中的至少一种;
[0007]通过统计方法,从所述词序列中提取热词和第一数集,所述热词为最能代表所述输入文本的词语,所述第一数集为表示各个所述词序列重要程度的数值集合;
[0008]根据所述词序列和所述热词,通过语义映射和特征词匹配的方式查找对应的本体;
[0009]对所述本体进行分类成上位本体、下位本体和相关本体;
[0010]根据所述第一数集,计算所述上位本体、下位本体和相关本体的权重;
[0011]构建搜索需求形式化表达模型的实例。
[0012]进一步地,所述方法还包括:
[0013]基于规则匹配和利用机器学习模型识别所述搜索输入文本的体裁。
[0014]进一步地,所述方法还包括:
[0015]当所述搜索输入文本为文书标题和文书目录组合时,将所述文书目录按层级进行分组,分组后的文书目录层级越低,通过语义映射和特征词匹配的方式查找到的对应的本体分配越高的权重。
[0016]进一步地,所述方法还包括:
[0017]对所述搜索输入文本中的短句进行语义分析,提取逻辑关系。
[0018]进一步地,所述根据所述词序列和所述热词,通过语义映射和特征词匹配的方式查找对应的本体之后,所述方法还包括:
[0019]对本体库进行关系遍历,获取相关本体,所述相关本体为与本体相似度达到预设值的本体。
[0020]进一步地,所述根据所述第一数集,计算所述上位本体、下位本体和相关本体的权重这一步骤,具体包括:
[0021]根据所述第一数集,按比例分配各所述上位本体的权重;
[0022]根据所述第一数集,分配各所述下位本体的权重并以0.5为系数缩减;
[0023]所述相关本体的权重平分所述相关本体对应的上位本体的权重。
[0024]进一步地,所述搜索需求形式化表达模型为包含两层的树状结构,其中,第一层包括多个上位本体,第二层包括各个所述上位本体包含的下位本体和相关本体。
[0025]进一步地,所述上位本体、下位本体和相关本体均由属性集合、需求权重、表达式集合构成;
[0026]所述属性集合包括属性名及属性值,所述属性集合用于表示本体自身特有的属性;
[0027]所述需求权重用于表示当前本体在搜索中的重要程度;
[0028]所述表达式集合包含多个逻辑表达式,每个所述逻辑表达式由属性名称、逻辑运算符、和属性值构成。
[0029]另一方面,本专利技术实施例还包括一种面向文本搜索需求的形式化表达装置,包括:
[0030]至少一个处理器;
[0031]至少一个存储器,用于存储至少一个程序;
[0032]当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的面向文本搜索需求的形式化表达方法。
[0033]另一方面,本专利技术实施例还包括计算机可读存储介质,其上存储有处理器可执行的程序,所述处理器可执行的程序在被处理器执行时用于实现所述的面向文本搜索需求的形式化表达方法。
[0034]本专利技术的有益效果是:
[0035]本专利技术搜索输入文本包括短句、关键词、文书标题、文书目录和文书段落中的至少一种,即支持多种形式的输入,针对不同形式输入采用有针对性的处理方法,能更加准确的获取搜索需求;然后从输入内容中提取最具代表性的词汇,并用权重表示其重要程度,能够降低搜索服务使用门槛的同时扩大适用范围;
[0036]此外,本专利技术通过构建的搜索需求形式化表达模型,能够对不同类型的搜索需求进行分类,在关键词匹配的基础上可以为用户提供更精准的搜索结果;同时也简化了搜索需求表达逻辑,使得用户不再需要了解搜素依赖的搜索服务需要何种形式的搜索需求,通过少量的开发和简单配置即可接入任何类型的搜索服务,为统一搜索类应用的开发、维护、扩展提供了极大的便利。
[0037]本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变
得明显,或通过本专利技术的实践了解到。
附图说明
[0038]本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0039]图1为本专利技术实施例所述面向文本搜索需求的形式化表达方法的步骤流程图;
[0040]图2为本专利技术实施例所述构建搜索需求形式化表达模型的实例的流程图;
[0041]图3为本专利技术实施所述搜索需求形式化表达模型的结构示意图;
[0042]图4为本专利技术实施例所述面向文本搜索需求的形式化表达程序的结构示意图;
[0043]图5为本专利技术实施例所述面向文本搜索需求的形式化表达装置的结构示意图。
具体实施方式
[0044]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。
[0045]在本专利技术的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0046]在本专利技术的描述中,若干的含义是一个或者多个,多个的含义是两个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向文本搜索需求的形式化表达方法,其特征在于,包括:将搜索输入文本按照一定规范转换成词序列,所述搜索输入文本包括短句、关键词、文书标题、文书目录和文书段落中的至少一种;通过统计方法,从所述词序列中提取热词和第一数集,所述热词为最能代表所述输入文本的词语,所述第一数集为表示各个所述词序列重要程度的数值集合;根据所述词序列和所述热词,通过语义映射和特征词匹配的方式查找对应的本体;对所述本体进行分类成上位本体、下位本体和相关本体;根据所述第一数集,计算所述上位本体、下位本体和相关本体的权重;构建搜索需求形式化表达模型的实例。2.根据权利要求1所述的一种面向文本搜索需求的形式化表达方法,其特征在于,所述方法还包括:基于规则匹配和利用机器学习模型识别所述搜索输入文本的体裁。3.根据权利要求1所述的一种面向文本搜索需求的形式化表达方法,其特征在于,所述方法还包括:当所述搜索输入文本为文书标题和文书目录组合时,将所述文书目录按层级进行分组,分组后的文书目录层级越低,通过语义映射和特征词匹配的方式查找到的对应的本体分配越高的权重。4.根据权利要求1所述的一种面向文本搜索需求的形式化表达方法,其特征在于,所述方法还包括:对所述搜索输入文本中的短句进行语义分析,提取逻辑关系。5.根据权利要求1所述的一种面向文本搜索需求的形式化表达方法,其特征在于,所述根据所述词序列和所述热词,通过语义映射和特征词匹配的方式查找对应的本体之后,所述方法还包括:对本体库进行关系遍历,获取相关本体,所述相关本体为与本体相似度达到预设值的本体。6....

【专利技术属性】
技术研发人员:蓝建敏申鑫
申请(专利权)人:京华信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1