一种信息处理的方法、装置、设备和介质制造方法及图纸

技术编号:31495673 阅读:47 留言:0更新日期:2021-12-18 12:36
本申请提供了一种信息处理的方法、装置、设备和介质,该方法包括:获取查询终端发送的查询请求;所述查询请求中携带有查询文本;根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序;针对每个文档,根据该文档中每个碎片对应的第二标签,确定与所述查询文本相似度符合预设要求的目标碎片文本;将每个文档的目标碎片文本和所述文档的相似度排序,发送至查询终端,以使所述查询终端按照相似度排序显示每个文档的目标碎片文本。通过采用上述方法,以解决检索结果不够精确的问题。以解决检索结果不够精确的问题。以解决检索结果不够精确的问题。

【技术实现步骤摘要】
一种信息处理的方法、装置、设备和介质


[0001]本申请涉及信息处理领域,具体而言,涉及一种信息处理的方法、装置、设备和介质。

技术介绍

[0002]在技术进步的过程中,会不断的积累科研资料,这些科研资源基本上都是以数值化的形式存储于数据库中,以便在以后的生产过程中用户进行查阅,为了便于查阅数据库中的资料,搜索引擎应运而生,搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上采集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索的相关信息展示给用户的系统。
[0003]但现有的通过搜索引擎查阅资料方式,基本上都是用户输入一个查询文本,检索系统就直接提供与这个查询文本相关文档。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种信息处理的方法、装置、设备和介质,用于解决现有技术中搜索结果不够精确的问题。
[0005]第一方面,本申请实施例提供了一种信息处理的方法,该方法包括:
[0006]获取查询终端发送的查询请求;所述查询请求中携带有查询文本;
[0007]根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序;
[0008]针对每个文档,根据该文档中每个碎片对应的第二标签,确定与所述查询文本相似度符合预设要求的目标碎片文本;
[0009]将每个文档的目标碎片文本和所述文档的相似度排序,发送至查询终端,以使所述查询终端按照相似度排序显示每个文档的目标碎片文本。
[0010]在一个可行的实施方案中,所述文档的第一标签包括所述文档中每个碎片文本对应的第二标签和所述文档的大标题对应的第三标签;
[0011]所述第二标签包括以下词汇中的任意一种或多种:所述碎片文本的小标题关键词和正文关键词、与所述小标题关键词存在相关性的第一关联词、与所述正文关键词存在相关性的第二关联词;
[0012]所述第三标签包括以下词汇:所述文档的大标题关键词和与所述大标题关键词存在相关性的第三关联词。
[0013]在一个可行的实施方案中,检索库中所存储的每个文档的第一标签是通过如下步骤得到的:
[0014]针对所述检索库中每个文档,将所述文档按照预设分割要求进行碎片化处理,得到至少一个碎片文本;
[0015]针对所述检索库中每个文档,将所述文档中的每一个碎片文本的第二标签和所述
文档的大标题对应的第三标签,整合成所述文档的第一标签。
[0016]在一个可行的实施方案中,碎片文本的第二标签是通过如下步骤确定的:
[0017]基于所述碎片文本的内容信息,确定所述碎片文本的至少一个关键词;
[0018]根据所述关键词与关联词库中每个候选词的相似度,确定与所述关键词存在相关性的关联词;
[0019]将所述关键词和与所述关键词存在相关性的关联词,确定为所述碎片文本的第二标签。
[0020]在一个可行的实施方案中,针对所述检索库中每个文档,将所述文档按照预设分割要求进行碎片化处理,得到至少一个碎片文本,包括:
[0021]针对所述检索库中每个文档,若所述文档中包括小标题,则按照所述小标题将所述文档进行碎片化处理,得到至少一个碎片文本;若所述文档中不包括小标题,则按照分段将所述文档进行碎片化处理,得到至少一个碎片文本。
[0022]在一个可行的实时方案中,所述根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序,包括:
[0023]针对所述检索库中所存储的每个文档,计算所述文档的第一标签中的每一个词汇与所述查询文本中的关键词的词汇相似度;
[0024]针对所述检索库中所存储的每个文档,根据计算得到的所述文档的第一标签中的每一个词汇对应的词汇相似度,以及所述文档的第一标签中的每一个词汇的权重,计算所述查询文本中的关键词和检索库中所存储的每个文档的文档相似度;
[0025]根据每个文档的文档相似度,对所述检索库中的文档进行相似度排序。
[0026]在一个可行的实施方案中,所述方法还包括:
[0027]将所述查询文本中的关键词发送至查询终端,以使所述查询终端将每个文档的目标碎片文本中所包含的所述查询文本中的关键词进行突出显示。
[0028]第二方面,本申请实施例提供了一种信息处理的装置,包括:
[0029]获取模块,用于获取查询终端发送的查询请求;所述查询请求中携带有查询文本;
[0030]排序模块,用于根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序;
[0031]确定模块,用于针对每个文档,根据该文档中每个碎片对应的第二标签,确定与所述查询文本相似度符合预设要求的目标碎片文本;
[0032]发送模块,用于将每个文档的目标碎片文本和所述文档的相似度排序,发送至所述查询终端,以使所述查询终端按照相似度排序显示每个文档的目标碎片文本。
[0033]在一个可行的实施方案中,所述文档的第一标签包括所述文档中每个碎片文本对应的第二标签和所述文档的大标题对应的第三标签;
[0034]所述第二标签包括以下词汇中的任意一种或多种:所述碎片文本的小标题关键词和正文关键词、与所述小标题关键词存在相关性的第一关联词、与所述正文关键词存在相关性的第二关联词;
[0035]所述第三标签包括以下词汇:所述文档的大标题关键词和与所述大标题关键词存在相关性的第三关联词。
[0036]在一个可行的实施方案中,所述排序单元中的检索库中所存储的每个文档的第一
标签是通过如下步骤得到的:
[0037]针对所述检索库中每个文档,将所述文档按照预设分割要求进行碎片化处理,得到至少一个碎片文本;
[0038]针对所述检索库中每个文档,将所述文档中的每一个碎片文本的第二标签和所述文档的大标题对应的第三标签,整合成所述文档的第一标签。
[0039]在一个可行的实施方案中,所述确定单元中碎片文本的第二标签是通过如下步骤确定的:
[0040]基于所述碎片文本的内容信息,确定所述碎片文本的至少一个关键词;
[0041]根据所述关键词与关联词库中每个候选词的相似度,确定与所述关键词存在相关性的关联词;
[0042]将所述关键词和与所述关键词存在相关性的关联词,确定为所述碎片文本的第二标签。
[0043]在一个可行的实施方案中,针对所述检索库中每个文档,将所述文档按照预设分割要求进行碎片化处理,得到至少一个碎片文本,包括:
[0044]针对所述检索库中每个文档,若所述文档中包括小标题,则按照所述小标题将所述文档进行碎片化处理,得到至少一个碎片文本;若所述文档中不包括小标题,则按照分段将所述文档进行碎片化处理,得到至少一个碎片文本。
[0045]在一个可行的实施方案中,所述排序模块在用于根据所述查询文本中的关键词和检索库中所存储的每个文档本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息处理的方法,其特征在于,包括:获取查询终端发送的查询请求;所述查询请求中携带有查询文本;根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序;针对每个文档,根据该文档中每个碎片对应的第二标签,确定与所述查询文本相似度符合预设要求的目标碎片文本;将每个文档的目标碎片文本和所述文档的相似度排序,发送至查询终端,以使所述查询终端按照相似度排序显示每个文档的目标碎片文本。2.根据权利要求1所述的方法,其特征在于,所述文档的第一标签包括所述文档中每个碎片文本对应的第二标签和所述文档的大标题对应的第三标签;所述第二标签包括以下词汇中的任意一种或多种:所述碎片文本的小标题关键词和正文关键词、与所述小标题关键词存在相关性的第一关联词、与所述正文关键词存在相关性的第二关联词;所述第三标签包括以下词汇:所述文档的大标题关键词和与所述大标题关键词存在相关性的第三关联词。3.根据权利要求1所述的方法,其特征在于,检索库中所存储的每个文档的第一标签是通过如下步骤得到的:针对所述检索库中每个文档,将所述文档按照预设分割要求进行碎片化处理,得到至少一个碎片文本;针对所述检索库中每个文档,将所述文档中的每一个碎片文本的第二标签和所述文档的大标题对应的第三标签,整合成所述文档的第一标签。4.根据权利要求3所述的方法,其特征在于,碎片文本的第二标签是通过如下步骤确定的:基于所述碎片文本的内容信息,确定所述碎片文本的至少一个关键词;根据所述关键词与关联词库中每个候选词的相似度,确定与所述关键词存在相关性的关联词;将所述关键词和与所述关键词存在相关性的关联词,确定为所述碎片文本的第二标签。5.根据权利要求3所述的方法,其特征在于,针对所述检索库中每个文档,将所述文档按照预设分割要求进行碎片化处理,得到至少一个碎片文本,包括:针对所述检索库中每个文档,若所述文档中包括小标题,则按照所述小标题将所述文档进行碎片化处理,得到至少一个碎片文本;若所述文档中不...

【专利技术属性】
技术研发人员:李舒周永鹏
申请(专利权)人:商飞软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1