信息推送方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24251597 阅读:36 留言:0更新日期:2020-05-22 23:36
本申请实施例提供了一种信息推送方法、装置、计算机设备和存储介质,该方法包括:获取结构化数据中的多个字段;针对所述多个字段中的每个字段,基于该字段,以及预设的实体和对应的多条实体属性信息,确定该字段分别与每个实体对应的每条实体属性信息之间的数据类型相似度、词义相似度和类型相似度,以及该字段与每个实体对应的全部实体属性信息之间的上下文相似度;基于所述上下文相似度,以及在每个实体下的各数据类型相似度、各词义相似度、各类型相似度,从每个实体对应的多条实体属性信息中,确定该字段在每个实体下的目标属性信息,推送确定的目标属性信息。本申请实施例能够提高推送信息的准确率。

Information push method, device, computer equipment and storage medium

【技术实现步骤摘要】
信息推送方法、装置、计算机设备和存储介质
本申请涉及信息
,具体而言,涉及一种信息推送方法、装置、计算机设备和存储介质。
技术介绍
目前,在构建知识图谱时,需要建立实体与实体之间的连接关系,实体与实体之间的连接关系可以为两个实体之间共同的属性信息,例如,实体为姚明和叶莉,实体的属性信息可以为篮球,那么,实体的属性信息成为建立知识图谱的关键。为了获取实体的属性信息,一般可以通过数据爬取工具从各大平台获取大量的数据信息,通过人工方式从爬去的数据信息中提取多个实体,并为提取的每个实体确定属性信息,在实际应用中,爬取的数据信息一般是海量的信息,通过人工方式为实体确定属性信息的效率比较低,而且人工方式确定属性信息时可能会出现遗漏,导致确定的属性信息的准确度比较低。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种信息推送方法、装置、计算机设备和存储介质,以提高推送的信息的准确度。第一方面,本申请实施例提供了一种信息推送装置,该装置包括:获取模块,用于获取结构化数据中的多个字段;确定模块,用于针对所述多个字段中的每个字段,基于该字段,以及预设的实体和对应的多条实体属性信息,确定该字段分别与每个实体下的每条实体属性信息之间的数据类型相似度、词义相似度和类型相似度,以及该字段与每个实体对应的全部实体属性信息之间的上下文相似度;处理模块,用于基于所述上下文相似度,以及在每个实体下的各数据类型相似度、各词义相似度、各类型相似度,从每个实体对应的多条实体属性信息中,确定该字段在每个实体下的目标属性信息,推送确定的目标属性信息。在一种实施方式中,所述确定模块用于根据以下步骤确定该字段分别与每个实体下的每条实体属性信息之间的数据类型相似度:基于所述结构化数据中该字段对应的各条数据,确定该字段的数据类型信息;基于该字段的数据类型和每个实体下的各条实体属性信息的数据类型,确定该字段分别与每个实体下的每条实体属性信息之间的数据类型相似度。在一种实施方式中,所述确定模块用于根据以下步骤确定该字段分别与每个实体下的每条实体属性信息之间的词义相似度:针对每个实体下的每条实体属性信息,基于该字段包括的实体词汇序列中各个实体词汇的词向量,以及该实体下的该实体属性信息中包括的实体词汇序列中各个实体词汇的词向量,确定该字段与该实体下的该条实体属性信息之间的距离;所述实体词汇表征的词汇含义与实体的含义相同;基于所述距离,以及所述字段包括的实体词汇序列和该条信息包括的实体词汇序列中的最长序列的长度,确定该字段与该实体下的该条实体属性信息之间的语义相似度。在一种实施方式中,所述确定模块用于根据以下步骤确定该字段分别与每个实体下的每条实体属性信息之间的类型相似度:针对每个实体下的每条实体属性信息,基于该字段包括的类型词汇对应的词向量,以及该实体下的该条实体属性信息包括的类型词汇对应的词向量,确定该字段与该实体下的该条实体属性信息之间的第一相似度;所述类型词汇表征的含义与所述实体的类型的含义相同;若第一相似度大于第一预设值,则基于该第一相似度以及预设的调整系数确定,该字段与该实体下的该条实体属性信息之间的类型相似度;若第一相似度小于或者等于所述第一预设值,则将所述第一相似度作为所述类型相似度。在一种实施方式中,所述确定模块用于根据以下步骤确定该字段与每个实体下的全部实体属性信息之间的上下文相似度:针对每个实体下的每条实体属性信息,基于该字段和该字段的相邻字段,以及该实体下的该条实体属性信息和该条实体属性信息的相邻实体属性信息,确定该字段与该实体下的该条实体属性信息之间包含的共同词汇的词汇集;基于所述词汇集中每个词汇的词频,以及对应词汇在该字段包括的词汇序列中和该条实体属性信息包括的词汇序列中的出现次数的最小值,确定所述上下文相似度。在一种实施方式中,所述处理模块用于根据以下步骤确定该字段在每个实体下的目标属性信息:针对每个实体下的每条实体属性信息,计算所述上下文相似度、以及该实体下的该条实体属性信息对应的类型相似度、词义相似度和数据类型相似度之间的加权值;将最大加权值对应的实体属性信息确定为该字段在该实体下的目标属性信息。第二方面,本申请实施例提供了一种信息推送方法,该方法包括:获取结构化数据中的多个字段;针对所述多个字段中的每个字段,基于该字段,以及预设的实体和对应的多条实体属性信息,确定该字段分别与每个实体下的每条实体属性信息之间的数据类型相似度、词义相似度和类型相似度,以及该字段与每个实体对应的全部实体属性信息之间的上下文相似度;基于所述上下文相似度,以及在每个实体下的各数据类型相似度、各词义相似度、各类型相似度,从每个实体对应的多条实体属性信息中,确定该字段在每个实体下的目标属性信息,推送确定的目标属性信息。在一种实施方式中,确定该字段分别与每个实体对应的每条实体属性信息之间的数据类型相似度,包括:基于所述结构化数据中该字段对应的各条数据,确定该字段的数据类型信息;基于该字段的数据类型和每个实体下的各条实体属性信息的数据类型,确定该字段分别与每个实体下的每条实体属性信息之间的数据类型相似度。第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行上述信息推送方法的步骤。第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述信息推送方法的步骤。本申请实施例提供的信息推送方法,在获取结构化数据中的多个字段,针对多个字段中的每个字段,基于该字段,以及预设的实体和对应的多条实体属性信息,确定该字段分别与每个实体对应的每条实体属性信息之间的数据类型相似度、词义相似度和类型相似度,以及该字段与每个实体对应的全部实体属性信息之间的上下文相似度,基于上下文相似度,以及在每个实体下的各数据类型相似度、各词义相似度、各类型相似度,从每个实体对应的多条实体属性信息中,确定该字段在每个实体下的目标属性信息,这样,提高了为字段确定的目标属性信息的准确度,从而提高了推送的信息的准确度。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本申请实施例提供的一种信息推送方法的第一种流程示意图;图2示出了本申请实施例提供的一种信息推送方法的第二种流程示意图;图3示出了本申请实施例提供的一种信息推送装置的结构示意图;图4示出了本申请实施例提供的一种本文档来自技高网...

【技术保护点】
1.一种信息推送装置,其特征在于,该装置包括:/n获取模块,用于获取结构化数据中的多个字段;/n确定模块,用于针对所述多个字段中的每个字段,基于该字段,以及预设的实体和对应的多条实体属性信息,确定该字段分别与每个实体下的每条实体属性信息之间的数据类型相似度、词义相似度和类型相似度,以及该字段与每个实体对应的全部实体属性信息之间的上下文相似度;/n处理模块,用于基于所述上下文相似度,以及在每个实体下的各数据类型相似度、各词义相似度、各类型相似度,从每个实体对应的多条实体属性信息中,确定该字段在每个实体下的目标属性信息,推送确定的目标属性信息。/n

【技术特征摘要】
1.一种信息推送装置,其特征在于,该装置包括:
获取模块,用于获取结构化数据中的多个字段;
确定模块,用于针对所述多个字段中的每个字段,基于该字段,以及预设的实体和对应的多条实体属性信息,确定该字段分别与每个实体下的每条实体属性信息之间的数据类型相似度、词义相似度和类型相似度,以及该字段与每个实体对应的全部实体属性信息之间的上下文相似度;
处理模块,用于基于所述上下文相似度,以及在每个实体下的各数据类型相似度、各词义相似度、各类型相似度,从每个实体对应的多条实体属性信息中,确定该字段在每个实体下的目标属性信息,推送确定的目标属性信息。


2.如权利要求1所述的装置,其特征在于,所述确定模块用于根据以下步骤确定该字段分别与每个实体下的每条实体属性信息之间的数据类型相似度:
基于所述结构化数据中该字段对应的各条数据,确定该字段的数据类型信息;
基于该字段的数据类型和每个实体下的各条实体属性信息的数据类型,确定该字段分别与每个实体下的每条实体属性信息之间的数据类型相似度。


3.如权利要求1所述的装置,其特征在于,所述确定模块用于根据以下步骤确定该字段分别与每个实体下的每条实体属性信息之间的词义相似度:
针对每个实体下的每条实体属性信息,基于该字段包括的实体词汇序列中各个实体词汇的词向量,以及该实体下的该实体属性信息中包括的实体词汇序列中各个实体词汇的词向量,确定该字段与该实体下的该条实体属性信息之间的距离;所述实体词汇表征的词汇含义与实体的含义相同;
基于所述距离,以及所述字段包括的实体词汇序列和该条信息包括的实体词汇序列中的最长序列的长度,确定该字段与该实体下的该条实体属性信息之间的语义相似度。


4.如权利要求1所述的装置,其特征在于,所述确定模块用于根据以下步骤确定该字段分别与每个实体下的每条实体属性信息之间的类型相似度:
针对每个实体下的每条实体属性信息,基于该字段包括的类型词汇对应的词向量,以及该实体下的该条实体属性信息包括的类型词汇对应的词向量,确定该字段与该实体下的该条实体属性信息之间的第一相似度;所述类型词汇表征的含义与所述实体的类型的含义相同;
若第一相似度大于第一预设值,则基于该第一相似度以及预设的调整系数确定,该字段与该实体下的该条实体属性信息之间的类型相似度;
若第一相似度小于或者等于所述第一预设值,则将所述第一相似度作为所述类型相似度。
<...

【专利技术属性】
技术研发人员:喻守益蔡文滨崔峭李函擎孟嘉
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1