The embodiment of the application discloses an information processing method and apparatus. A specific embodiment of the method includes: acquiring the word combination to be processed, wherein the word combination to be processed includes the entity and the attributes of the entity; in the preset structured data set, determining the knowledge type corresponding to the word combination to be processed, and determining the attribute belonging to the knowledge type as the candidate attribute, wherein the candidate attribute includes at least two; Based on the similarity between at least two candidate attributes and the word combination to be processed, the candidate attributes corresponding to the attributes in the word combination to be processed are determined. The embodiment of the application can quickly and accurately determine the candidate attributes corresponding to the attributes in the word combination in the preset structured data set, thus helping to automatically associate the unfamiliar word combination with the structured data, avoiding the consumption of manpower, and improving the efficiency and accuracy of the association.
【技术实现步骤摘要】
信息处理方法和装置
本申请实施例涉及计算机
,具体涉及互联网
,尤其涉及信息处理方法和装置。
技术介绍
随着互联网技术的发展,在互联网上每天都会产生海量的信息。这些信息的来源多样、内容多样,如何对这些信息进行收集并整理,是需要解决的问题。因为词汇的使用非常灵活,在不同的场景下,同一个词汇可能有多种用法,因此,通常需要对收集到的词汇进行人工整理。
技术实现思路
本申请实施例提出了信息处理方法和装置。第一方面,本申请实施例提供了一种信息处理方法,包括:获取待处理的词组合,其中,待处理的词组合包括实体,以及该实体的属性;在预设结构化数据集合中,确定出与待处理的词组合对应的知识类型,并确定属于知识类型的属性作为候选属性,其中,候选属性包括至少两个;基于至少两个候选属性与待处理的词组合的相似度,确定出待处理的词组合中的属性所对应的候选属性。在一些实施例中,待处理的词组合还包括与属性的属性值;在预设结构化数据集合中,确定出与待处理的词组合对应的知识类型,包括:在预设结构化数据集合中,确定实体的概念的知识类型和属性值的概念的知识类型,其中,实体的知识类型和属性值的知识类型均为至少一个。在一些实施例中,在预设结构化数据集合中,确定出与待处理的词组合对应的知识类型,包括:对实体进行上位处理,得到实体的上位词;在预设结构化数据集合中,确定实体的上位词所对应的知识类型,并将该知识类型作为与待处理的词组合对应的知识类型。在一些实施例中,待处理的词组合还包括与属性的属性值 ...
【技术保护点】
1.一种信息处理方法,所述方法包括:/n获取待处理的词组合,其中,所述待处理的词组合包括实体,以及该实体的属性;/n在预设结构化数据集合中,确定出与所述待处理的词组合对应的知识类型,并确定属于所述知识类型的属性作为候选属性,其中,所述候选属性包括至少两个;/n基于至少两个所述候选属性与所述待处理的词组合的相似度,确定出所述待处理的词组合中的属性所对应的候选属性。/n
【技术特征摘要】
1.一种信息处理方法,所述方法包括:
获取待处理的词组合,其中,所述待处理的词组合包括实体,以及该实体的属性;
在预设结构化数据集合中,确定出与所述待处理的词组合对应的知识类型,并确定属于所述知识类型的属性作为候选属性,其中,所述候选属性包括至少两个;
基于至少两个所述候选属性与所述待处理的词组合的相似度,确定出所述待处理的词组合中的属性所对应的候选属性。
2.根据权利要求1所述的方法,其中,所述待处理的词组合还包括与所述属性的属性值;
所述在预设结构化数据集合中,确定出与所述待处理的词组合对应的知识类型,包括:
在预设结构化数据集合中,确定所述实体的概念的知识类型和所述属性值的概念的知识类型,其中,所述实体的知识类型和所述属性值的知识类型均为至少一个。
3.根据权利要求1所述的方法,其中,所述在预设结构化数据集合中,确定出与所述待处理的词组合对应的知识类型,包括:
对所述实体进行上位处理,得到所述实体的上位词;
在预设结构化数据集合中,确定所述实体的上位词所对应的知识类型,并将该知识类型作为与所述待处理的词组合对应的知识类型。
4.根据权利要求3所述的方法,其中,所述待处理的词组合还包括与所述属性的属性值;
所述方法还包括:
对所述属性值进行上位处理,得到所述属性值的上位词;以及
所述确定所述实体的上位词所对应的知识类型,并将该知识类型作为与所述待处理的词组合对应的知识类型,包括:
确定所述实体的上位词所对应的知识类型,并确定所述属性值的上位词所对应的知识类型;
将所述实体的上位词所对应的知识类型,和所述属性值的上位词所对应的知识类型,作为与所述待处理的词组合对应的知识类型。
5.根据权利要求2或4所述的方法,其中,在所述基于至少两个所述候选属性与所述待处理的词组合的相似度,确定出所述待处理的词组合中的属性所对应的候选属性之前,所述方法还包括:
对于所述待处理的词组合中的实体、属性和属性值中的至少两者中的每一者,确定该者的特征,其中,所述至少两者中的每一者的特征包括至少两种;
对于所述至少两者中各者的特征进行融合,将融合结果作为所述待处理的词组合的特征;以及
所述基于至少两个所述候选属性与所述待处理的词组合的相似度,确定出所述待处理的词组合中的属性所对应的候选属性,包括:
对所述待处理的词组合的特征与至少两个所述候选属性的特征之间的相似度进行排序;
将得到的相似度序列中,最高的相似度所对应的候选属性作为待处理的词组合中的属性所对应的候选属性。
6.根据权利要求5所述的方法,其中,所述对所述待处理的词组合的特征与至少两个所述候选属性的特征之间的相似度进行排序,包括:
将所述待处理的词组合的特征与至少两个所述候选属性的特征,输入预先训练的排序模型,以通过所述预先训练的排序模型,对所述待处理的词组合的特征与所述至少两个所述候选属性的特征之间的相似度进行排序。
7.根据权利要求5或6所述的方法,其中,所述方法还包括:
对于所述待处理的词组合中的实体、属性和属性值中的至少一者中的每一者,确定该者的特征,其中,至少一者中的每一者的特征包括杰卡德特征和词袋特征的融合特征;
对于所述至少两者中各者的特征进行融合,得到目标融合特征;
确定所述目标融合特征与各个所确定的候选属性的特征之间的相似度;
按照相似度由大到小的顺序,从各个所确定的候选属性中,选取预设数量或者预设比例的...
【专利技术属性】
技术研发人员:李千,王赵煜,史亚冰,梁海金,蒋烨,张扬,朱勇,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。