信息查找方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34201715 阅读:19 留言:0更新日期:2022-07-20 10:50
本公开提供了一种信息查找方法、装置、电子设备及存储介质,其中方法包括:获得目标行业的目标文本;在目标行业的语料文本库中查找目标文本的关联文本,从关联文本中抽取至少一个语句;在目标行业的知识图谱中查找目标文本的关联节点,确定关联节点对应的行业信息;将行业信息和语句作为查找结果。本公开可以直接根据提纲性文本进行检索,并不局限于检索词,因此用户可以通过提纲性文本进行信息检索,方便快捷。同时,本公开还可以同时检索关联文本中的语句和行业信息,检索结果的内容丰富,有效提高了检索质量。效提高了检索质量。效提高了检索质量。

【技术实现步骤摘要】
信息查找方法、装置、电子设备及存储介质


[0001]本公开涉及数据处理领域,尤其涉及信息查找方法、装置、电子设备及存储介质。

技术介绍

[0002]随着时间的推移,各行各业的资料越来越多。用户常需要查找某个行业的资料,如:该行业的某些文章的相关记载、该行业的基础知识等。
[0003]当前,用户需要通过检索词来对资料进行检索。有时,用户需要撰写一个文案,该文案会涉及到很多内容,有些内容可以概括为检索词,有些内容无法用检索词来概括,这就使得通过检索词无法有效检索到所需要的资料。同时,一个文案涉及的内容较多,通过检索词进行检索也较为繁琐。

技术实现思路

[0004]鉴于上述问题,本公开提供一种克服上述问题或者至少部分地解决上述问题的信息查找方法、装置、电子设备及存储介质,技术方案如下:
[0005]第一方面,提供一种信息查找方法,包括:
[0006]获得目标行业的目标文本,其中,所述目标文本为提纲性文本;
[0007]在所述目标行业的语料文本库中查找所述目标文本的关联文本,从所述关联文本中抽取至少一个语句;
[0008]在所述目标行业的知识图谱中查找所述目标文本的关联节点,确定所述关联节点对应的行业信息;
[0009]将所述行业信息和所述语句作为查找结果。
[0010]在第一方面的一种可能的实现方式中,所述在所述目标行业的语料文本库中查找所述目标文本的关联文本,包括:
[0011]在所述目标行业的语料文本库的文本索引中查询与所述目标文本匹配的至少一个文本;
[0012]通过第一相似度计算方法计算获得所述至少一个文本分别与所述目标文本的相似度,获得所述至少一个文本的词向量,分别根据所述至少一个文本中每一个文本对应的所述第一相似度和所述词向量,确定所述每一个文本分别与所述目标文本的关联度;
[0013]根据所述关联度从所述至少一个文本中确定所述目标文本的关联文本。
[0014]在第一方面的一种可能的实现方式中,所述分别根据所述至少一个文本中每一个文本对应的所述第一相似度和所述词向量,确定所述每一个文本分别与所述目标文本的关联度,包括:
[0015]获得所述至少一个文本的词向量的平均池化得分;
[0016]对所述至少一个文本中每一个文本:确定与该文本的评价池化得分匹配的第一权重,确定与该文本的所述第一相似度匹配的第二权重,通过所述第一权重和所述第二权重,对所述评价池化得分和所述第一相似度进行加权计算,获得该文本与所述目标文本的关联
度。
[0017]在第一方面的一种可能的实现方式中,所述从所述关联文本中抽取至少一个语句,包括:
[0018]确定所述关联文本中多个语句的重要性评分,在所述重要性评分最高的N个语句中随机选取至少一个语句,其中,所述N为自然数且N大于1。
[0019]在第一方面的一种可能的实现方式中,所述在所述目标行业的知识图谱中查找所述目标文本的关联节点,确定所述关联节点对应的行业信息,包括:
[0020]获得所述目标行业的目标信息类型,在所述目标行业的知识图谱中查找所述目标文本匹配的目标节点,将查找到的所述目标节点确定为关联节点,所述目标节点对应的信息的类型为所述目标信息类型;
[0021]对每一个所述目标节点:在该目标节点对应的信息的类型为预设类型时,将与该目标节点具有第一连接关系的其他节点也确定为所述目标文本的关联节点;
[0022]确定各所述关联节点对应的行业信息。
[0023]在第一方面的一种可能的实现方式中,所述方法还包括:
[0024]通过预先训练的语言模型对所述目标文本进行续写,将所述语言模型续写的内容确定为推荐的开始部分。
[0025]在第一方面的一种可能的实现方式中,还包括:
[0026]将所述查找结果作为根据所述目标文本生成的所述目标行业的文案;
[0027]和/或,根据所述查找结果和所述目标行业的预设文案模板,生成所述目标行业的文案。
[0028]第二方面,提供一种信息查找装置,包括:文本获得单元、语句抽取单元、信息确定单元和结果获得单元,
[0029]所述文本获得单元,被配置为执行获得目标行业的目标文本,其中,所述目标文本为提纲性文本;
[0030]所述语句抽取单元,被配置为执行在所述目标行业的语料文本库中查找所述目标文本的关联文本,从所述关联文本中抽取至少一个语句;
[0031]所述信息确定单元,被配置为执行在所述目标行业的知识图谱中查找所述目标文本的关联节点,确定所述关联节点对应的行业信息;
[0032]所述结果获得单元,被配置为执行将所述行业信息和所述语句作为查找结果。
[0033]在第二方面的一种可能的实现方式中,所述语句抽取单元,包括:文本查询子单元、关联度确定子单元、关联文本确定子单元和语句抽取子单元,
[0034]所述文本查询子单元,被配置为执行在所述目标行业的语料文本库的文本索引中查询与所述目标文本匹配的至少一个文本;
[0035]所述关联度确定子单元,被配置为执行通过第一相似度计算方法计算获得所述至少一个文本分别与所述目标文本的相似度,获得所述至少一个文本的词向量,分别根据所述至少一个文本中每一个文本对应的所述第一相似度和所述词向量,确定所述每一个文本分别与所述目标文本的关联度;
[0036]所述关联文本确定子单元,被配置为执行根据所述关联度从所述至少一个文本中确定所述目标文本的关联文本;
[0037]所述语句抽取子单元,被配置为执行从所述关联文本中抽取至少一个语句。
[0038]在第二方面的一种可能的实现方式中,所述关联度确定子单元分别根据所述至少一个文本中每一个文本对应的所述第一相似度和所述词向量,确定所述每一个文本分别与所述目标文本的关联度,被具体配置为执行:
[0039]获得所述至少一个文本的词向量的平均池化得分;
[0040]对所述至少一个文本中每一个文本:确定与该文本的评价池化得分匹配的第一权重,确定与该文本的所述第一相似度匹配的第二权重,通过所述第一权重和所述第二权重,对所述评价池化得分和所述第一相似度进行加权计算,获得该文本与所述目标文本的关联度。
[0041]在第二方面的一种可能的实现方式中,所述语句抽取单元从所述关联文本中抽取至少一个语句,被具体配置为执行:
[0042]确定所述关联文本中多个语句的重要性评分,在所述重要性评分最高的N个语句中随机选取至少一个语句,其中,所述N为自然数且N大于1。
[0043]在第二方面的一种可能的实现方式中,所述信息确定单元包括:节点查找子单元、节点确定子单元和信息确定子单元,
[0044]所述节点查找子单元,被配置为执行获得所述目标行业的目标信息类型,在所述目标行业的知识图谱中查找所述目标文本匹配的目标节点,将查找到的所述目标节点确定为关联节点,所述目标节点对应的信息的类型为所述目标信息类型;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息查找方法,其特征在于,包括:获得目标行业的目标文本,其中,所述目标文本为提纲性文本;在所述目标行业的语料文本库中查找所述目标文本的关联文本,从所述关联文本中抽取至少一个语句;在所述目标行业的知识图谱中查找所述目标文本的关联节点,确定所述关联节点对应的行业信息;将所述行业信息和所述语句作为查找结果。2.根据权利要求1所述的方法,其特征在于,所述在所述目标行业的语料文本库中查找所述目标文本的关联文本,包括:在所述目标行业的语料文本库的文本索引中查询与所述目标文本匹配的至少一个文本;通过第一相似度计算方法计算获得所述至少一个文本分别与所述目标文本的相似度,获得所述至少一个文本的词向量,分别根据所述至少一个文本中每一个文本对应的所述第一相似度和所述词向量,确定所述每一个文本分别与所述目标文本的关联度;根据所述关联度从所述至少一个文本中确定所述目标文本的关联文本。3.根据权利要求2所述的方法,其特征在于,所述分别根据所述至少一个文本中每一个文本对应的所述第一相似度和所述词向量,确定所述每一个文本分别与所述目标文本的关联度,包括:获得所述至少一个文本的词向量的平均池化得分;对所述至少一个文本中每一个文本:确定与该文本的评价池化得分匹配的第一权重,确定与该文本的所述第一相似度匹配的第二权重,通过所述第一权重和所述第二权重,对所述评价池化得分和所述第一相似度进行加权计算,获得该文本与所述目标文本的关联度。4.根据权利要求1所述的方法,其特征在于,所述从所述关联文本中抽取至少一个语句,包括:确定所述关联文本中多个语句的重要性评分,在所述重要性评分最高的N个语句中随机选取至少一个语句,其中,所述N为自然数且N大于1。5.根据权利要求1所述的方法,其特征在于,所述在所述目标行业的知识图谱中查找所述目标文本的关联节点,确定所述关联节点对应的行业信息,...

【专利技术属性】
技术研发人员:孙明明
申请(专利权)人:北京千里日成科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1