信息处理方法和装置制造方法及图纸

技术编号:24457821 阅读:26 留言:0更新日期:2020-06-10 16:04
本申请实施例公开了信息处理方法和装置。该方法的一具体实施方式包括:获取待处理的词组合,其中,该待处理的词组合包括实体,以及该实体的属性;在预设结构化数据集合中,确定出与该待处理的词组合对应的知识类型,并确定属于该知识类型的属性作为候选属性,其中,该候选属性包括至少两个;基于至少两个该候选属性与该待处理的词组合的相似度,确定出该待处理的词组合中的属性所对应的候选属性。本申请实施例能够在预设结构化数据集合中,快速而准确地确定出与词组合中的属性对应的候选属性,从而有助于实现将陌生的词组合自动关联到结构化的数据中,避免了人力的消耗,并提高了关联的效率和准确度。

Information processing methods and devices

The embodiment of the application discloses an information processing method and apparatus. A specific embodiment of the method includes: acquiring the word combination to be processed, wherein the word combination to be processed includes the entity and the attributes of the entity; in the preset structured data set, determining the knowledge type corresponding to the word combination to be processed, and determining the attribute belonging to the knowledge type as the candidate attribute, wherein the candidate attribute includes at least two; Based on the similarity between at least two candidate attributes and the word combination to be processed, the candidate attributes corresponding to the attributes in the word combination to be processed are determined. The embodiment of the application can quickly and accurately determine the candidate attributes corresponding to the attributes in the word combination in the preset structured data set, thus helping to automatically associate the unfamiliar word combination with the structured data, avoiding the consumption of manpower, and improving the efficiency and accuracy of the association.

【技术实现步骤摘要】
信息处理方法和装置
本申请实施例涉及计算机
,具体涉及互联网
,尤其涉及信息处理方法和装置。
技术介绍
随着互联网技术的发展,在互联网上每天都会产生海量的信息。这些信息的来源多样、内容多样,如何对这些信息进行收集并整理,是需要解决的问题。因为词汇的使用非常灵活,在不同的场景下,同一个词汇可能有多种用法,因此,通常需要对收集到的词汇进行人工整理。
技术实现思路
本申请实施例提出了信息处理方法和装置。第一方面,本申请实施例提供了一种信息处理方法,包括:获取待处理的词组合,其中,待处理的词组合包括实体,以及该实体的属性;在预设结构化数据集合中,确定出与待处理的词组合对应的知识类型,并确定属于知识类型的属性作为候选属性,其中,候选属性包括至少两个;基于至少两个候选属性与待处理的词组合的相似度,确定出待处理的词组合中的属性所对应的候选属性。在一些实施例中,待处理的词组合还包括与属性的属性值;在预设结构化数据集合中,确定出与待处理的词组合对应的知识类型,包括:在预设结构化数据集合中,确定实体的概念的知识类型和属性值的概念的知识类型,其中,实体的知识类型和属性值的知识类型均为至少一个。在一些实施例中,在预设结构化数据集合中,确定出与待处理的词组合对应的知识类型,包括:对实体进行上位处理,得到实体的上位词;在预设结构化数据集合中,确定实体的上位词所对应的知识类型,并将该知识类型作为与待处理的词组合对应的知识类型。在一些实施例中,待处理的词组合还包括与属性的属性值;方法还包括:对属性值进行上位处理,得到属性值的上位词;以及确定实体的上位词所对应的知识类型,并将该知识类型作为与待处理的词组合对应的知识类型,包括:确定实体的上位词所对应的知识类型,并确定属性值的上位词所对应的知识类型;将实体的上位词所对应的知识类型,和属性值的上位词所对应的知识类型,作为与待处理的词组合对应的知识类型。在一些实施例中,在基于至少两个候选属性与待处理的词组合的相似度,确定出待处理的词组合中的属性所对应的候选属性之前,方法还包括:对于待处理的词组合中的实体、属性和属性值中的至少两者中的每一者,确定该者的特征,其中,至少两者中的每一者的特征包括至少两种;对于至少两者中各者的特征进行融合,将融合结果作为待处理的词组合的特征;以及基于至少两个候选属性与待处理的词组合的相似度,确定出待处理的词组合中的属性所对应的候选属性,包括:对待处理的词组合的特征与至少两个候选属性的特征之间的相似度进行排序;将得到的相似度序列中,最高的相似度所对应的候选属性作为待处理的词组合中的属性所对应的候选属性。在一些实施例中,对待处理的词组合的特征与至少两个候选属性的特征之间的相似度进行排序,包括:将待处理的词组合的特征与至少两个候选属性的特征,输入预先训练的排序模型,以通过预先训练的排序模型,对待处理的词组合的特征与至少两个候选属性的特征之间的相似度进行排序。在一些实施例中,方法还包括:对于待处理的词组合中的实体、属性和属性值中的至少一者中的每一者,确定该者的特征,其中,至少一者中的每一者的特征包括杰卡德特征和词袋特征的融合特征;对于至少两者中各者的特征进行融合,得到目标融合特征;确定目标融合特征与各个所确定的候选属性的特征之间的相似度;按照相似度由大到小的顺序,从各个所确定的候选属性中,选取预设数量或者预设比例的候选属性作为至少两个候选属性。在一些实施例中,预先训练的排序模型可以通过如下步骤训练得到:获取样本集,其中,样本集包括正样本和负样本,正样本包括正样本词组合和属性样本,负样本包括负样本词组合和属性样本,正样本词组合的特征与属性样本的特征的相似度,大于负样本词组合的特征与属性样本的特征的相似度;将样本集中的多个样本组成的样本序列输入待训练的排序模型,预测出样本序列的样本中的特征之间的相似度的排序结果;基于预测出的排序结果训练待训练的排序模型,得到预先训练的排序模型。在一些实施例中,获取样本集,包括:将与预设结构化数据集合中,属于知识类型且与目标属性对应的词组合,作为正样本词组合,其中,目标属性为待处理的词组合中的属性所对应的候选属性;将与预设结构化数据集合中,属于知识类型且不与目标属性对应的词组合,作为负样本词组合。第二方面,本申请实施例提供了一种信息处理装置,包括:获取单元,被配置成获取待处理的词组合,其中,待处理的词组合包括实体,以及该实体的属性;候选确定单元,被配置成在预设结构化数据集合中,确定出与待处理的词组合对应的知识类型,并确定属于知识类型的属性作为候选属性,其中,候选属性包括至少两个;属性确定单元,被配置成基于至少两个候选属性与待处理的词组合的相似度,确定出待处理的词组合中的属性所对应的候选属性。在一些实施例中,待处理的词组合还包括与属性的属性值;候选确定单元,被配置成按照如下方式执行在预设结构化数据集合中,确定出与待处理的词组合对应的知识类型:在预设结构化数据集合中,确定实体的概念的知识类型和属性值的概念的知识类型,其中,实体的知识类型和属性值的知识类型均为至少一个。在一些实施例中,候选确定单元,被配置成按照如下方式执行在预设结构化数据集合中,确定出与待处理的词组合对应的知识类型:对实体进行上位处理,得到实体的上位词;在预设结构化数据集合中,确定实体的上位词所对应的知识类型,并将该知识类型作为与待处理的词组合对应的知识类型。在一些实施例中,待处理的词组合还包括与属性的属性值;装置还包括:上位单元,被配置成对属性值进行上位处理,得到属性值的上位词;以及候选确定单元,被配置成按照如下方式执行确定实体的上位词所对应的知识类型,并将该知识类型作为与待处理的词组合对应的知识类型:确定实体的上位词所对应的知识类型,并确定属性值的上位词所对应的知识类型;将实体的上位词所对应的知识类型,和属性值的上位词所对应的知识类型,作为与待处理的词组合对应的知识类型。在一些实施例中,所述装置还包括:特征确定单元,被配置成在所述基于至少两个所述候选属性与所述待处理的词组合的相似度,确定出所述待处理的词组合中的属性所对应的候选属性之前,对于所述待处理的词组合中的实体、属性和属性值中的至少两者中的每一者,确定该者的特征,其中,所述至少两者中的每一者的特征包括至少两种;融合单元,被配置成对于所述至少两者中各者的特征进行融合,将融合结果作为所述待处理的词组合的特征;以及所述属性确定单元,进一步被配置成按照如下方式执行所述基于至少两个所述候选属性与所述待处理的词组合的相似度,确定出所述待处理的词组合中的属性所对应的候选属性:对所述待处理的词组合的特征与至少两个所述候选属性的特征之间的相似度进行排序;将得到的相似度序列中,最高的相似度所对应的候选属性作为待处理的词组合中的属性所对应的候选属性。在一些实施例中,所述属性确定单元,进一步被配置成按照如下方式执行所述对所述待处理的词组合的特征与至少两个所述候选属性的特征之间的相似度进行排序:将所述待处理的词组合的特征与至少两个所述候选属性本文档来自技高网...

【技术保护点】
1.一种信息处理方法,所述方法包括:/n获取待处理的词组合,其中,所述待处理的词组合包括实体,以及该实体的属性;/n在预设结构化数据集合中,确定出与所述待处理的词组合对应的知识类型,并确定属于所述知识类型的属性作为候选属性,其中,所述候选属性包括至少两个;/n基于至少两个所述候选属性与所述待处理的词组合的相似度,确定出所述待处理的词组合中的属性所对应的候选属性。/n

【技术特征摘要】
1.一种信息处理方法,所述方法包括:
获取待处理的词组合,其中,所述待处理的词组合包括实体,以及该实体的属性;
在预设结构化数据集合中,确定出与所述待处理的词组合对应的知识类型,并确定属于所述知识类型的属性作为候选属性,其中,所述候选属性包括至少两个;
基于至少两个所述候选属性与所述待处理的词组合的相似度,确定出所述待处理的词组合中的属性所对应的候选属性。


2.根据权利要求1所述的方法,其中,所述待处理的词组合还包括与所述属性的属性值;
所述在预设结构化数据集合中,确定出与所述待处理的词组合对应的知识类型,包括:
在预设结构化数据集合中,确定所述实体的概念的知识类型和所述属性值的概念的知识类型,其中,所述实体的知识类型和所述属性值的知识类型均为至少一个。


3.根据权利要求1所述的方法,其中,所述在预设结构化数据集合中,确定出与所述待处理的词组合对应的知识类型,包括:
对所述实体进行上位处理,得到所述实体的上位词;
在预设结构化数据集合中,确定所述实体的上位词所对应的知识类型,并将该知识类型作为与所述待处理的词组合对应的知识类型。


4.根据权利要求3所述的方法,其中,所述待处理的词组合还包括与所述属性的属性值;
所述方法还包括:
对所述属性值进行上位处理,得到所述属性值的上位词;以及
所述确定所述实体的上位词所对应的知识类型,并将该知识类型作为与所述待处理的词组合对应的知识类型,包括:
确定所述实体的上位词所对应的知识类型,并确定所述属性值的上位词所对应的知识类型;
将所述实体的上位词所对应的知识类型,和所述属性值的上位词所对应的知识类型,作为与所述待处理的词组合对应的知识类型。


5.根据权利要求2或4所述的方法,其中,在所述基于至少两个所述候选属性与所述待处理的词组合的相似度,确定出所述待处理的词组合中的属性所对应的候选属性之前,所述方法还包括:
对于所述待处理的词组合中的实体、属性和属性值中的至少两者中的每一者,确定该者的特征,其中,所述至少两者中的每一者的特征包括至少两种;
对于所述至少两者中各者的特征进行融合,将融合结果作为所述待处理的词组合的特征;以及
所述基于至少两个所述候选属性与所述待处理的词组合的相似度,确定出所述待处理的词组合中的属性所对应的候选属性,包括:
对所述待处理的词组合的特征与至少两个所述候选属性的特征之间的相似度进行排序;
将得到的相似度序列中,最高的相似度所对应的候选属性作为待处理的词组合中的属性所对应的候选属性。


6.根据权利要求5所述的方法,其中,所述对所述待处理的词组合的特征与至少两个所述候选属性的特征之间的相似度进行排序,包括:
将所述待处理的词组合的特征与至少两个所述候选属性的特征,输入预先训练的排序模型,以通过所述预先训练的排序模型,对所述待处理的词组合的特征与所述至少两个所述候选属性的特征之间的相似度进行排序。


7.根据权利要求5或6所述的方法,其中,所述方法还包括:
对于所述待处理的词组合中的实体、属性和属性值中的至少一者中的每一者,确定该者的特征,其中,至少一者中的每一者的特征包括杰卡德特征和词袋特征的融合特征;
对于所述至少两者中各者的特征进行融合,得到目标融合特征;
确定所述目标融合特征与各个所确定的候选属性的特征之间的相似度;
按照相似度由大到小的顺序,从各个所确定的候选属性中,选取预设数量或者预设比例的...

【专利技术属性】
技术研发人员:李千王赵煜史亚冰梁海金蒋烨张扬朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1