【技术实现步骤摘要】
一种基于海量知识图谱及图嵌入的实体分类方法与系统
[0001]本专利技术涉及自然语言处理的
,更具体地,涉及一种基于海量知识图谱及图嵌入的实体分类方法与系统。
技术介绍
[0002]在如今信息爆炸的时代,每天都会有海量新的数据信息产生,深度挖掘数据的内在模式,对有效信息进行筛选与归纳,实现对数据的分门别类将能产生巨大的经济效能。
[0003]然而,实现数据的利用存在以下两个问题:一、收集的信息如何系统地、有组织地利用?二、如何挖掘数据的内在模式,实现不同场景下的分类任务应用?目前,针对问题一,可以采取构建针对垂直领域的数据库模式,然而,这样的模式忽略了有价值的跨领域数据,降低了数据的多样性,进而影响数据内在模式的挖掘及下游任务(如数据分类)的准确率和覆盖率。此时,知识图谱应运而生。
[0004]知识图谱将人物、地名、书名等专有名词表示为实体,将实体之间的内在联系表示为关系,实体之间结合关系,构成知识三元组。在知识图谱的应用领域,实体分类是指在自由文本中提取特征并用来分析,从而得出一个给定实体的具体类型, ...
【技术保护点】
【技术特征摘要】
1.一种基于海量知识图谱及图嵌入的实体分类方法,其特征在于,包括:S1.获取N份语料文本,并对语料文本中的实体及实体关系进行标注,得到标注数据集;S2.引入命名实体识别模型和关系抽取模型,并利用标注数据集训练测试命名实体识别模型和关系抽取模型,以进行对海量语料文本中的实体识别和关系抽取;然后以实体和关系为基础,形成知识图谱;S3.引入图嵌入模型,利用图嵌入模型进行知识图谱中关联实体节点预测训练任务,得到各实体节点的图嵌入信息;S4.确定待分类的实体,计算实体的实体置信度;S5.基于各实体节点的图嵌入信息及实体的实体置信度,利用分类器执行待分类实体的分类任务,并利用知识图谱进行再处理,得到最终实体分类结果。2.根据权利要求1所述的基于海量知识图谱及图嵌入的实体分类方法,其特征在于,在步骤S2中,以Bert中文预训练模型为基础,在Bert中文预训练模型的下游添加语料文本的命名实体识别和关系抽取任务,得到分别用于语料文本中实体识别和关系抽取的命名实体识别模型和关系抽取模型;命名实体识别模型和关系抽取模型用于对海量语料文本进行实体识别和关系抽取时,面对的海量语料文本是不断更新的,以实体和关系为基础形成的知识图谱也是不断更新的。3.根据权利要求1所述的基于海量知识图谱及图嵌入的实体分类方法,其特征在于,在步骤S2中,还能采用实体关系联合抽取模型进行联合抽取的方式,将语料文本中的实体识别和关系同时提取。4.根据权利要求2所述的基于海量知识图谱及图嵌入的实体分类方法,其特征在于,所述的图嵌入模型为DeepWalk、RandomWalk或LINE。5.根据权利要求4所述的基于海量知识图谱及图嵌入的实体分类方法,其特征在于,步骤S3所述的利用图嵌入模型进行知识图谱中关联实体节点预测训练任务的过程为:S31.在知识图谱中选定初始实体节点,结合初始实体节点在知识图谱中的关系类型,利用图嵌入模型以初始实体节点预测终止尾节点;S32.将预测终止尾节点的节点类型、节点名称和节点间关系分别与真实终止节点的节点类型、节点名称和节点间关系对比,判断是否正确,若正确,保留图嵌入模型当前的参数权重,执行步骤S33;否则,调整图嵌入模型的参数权重,返回步骤S31;S33.基于图嵌入模型,由各个实体节点随机游走至知识图谱中的相邻实体节点,获取各个实体节点在知识图谱中的局部结构,从而得到每一个实体节点的图嵌入信息。6.根据权利要求5所述的基于海量知识图谱及图嵌入的实体分类方法,其特征在于,在步骤S4中,确定待分类的实体后,计算以该实体为初始实体节点的实体置信度,计算过程包括:首先计算实体的关系置信度,表达式为:关系置信度=min(100,声量贡献+知识置信度贡献),其中,声量贡献=声量权重*(ln(vol)*10),声量权重表示预设值,ln表示自然对数,vol表示实体在知识图谱数据中的声量;知识置信度贡献=知识置信度权重*声量系数*知识置信度;
其中,知识置信度权重取0.7,为预设值;知识索引...
【专利技术属性】
技术研发人员:袁浩斌,何宇轩,牟昊,李旭日,徐亚波,
申请(专利权)人:广东横琴数说故事信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。