一种企业知识图谱实体链接模型的构建方法及装置制造方法及图纸

技术编号:30523199 阅读:20 留言:0更新日期:2021-10-27 23:07
本发明专利技术涉及一种企业知识图谱实体链接模型的构建方法及装置,包括对待链接企业实体进行企业名称实体识别标注;进行行业门类分类和模糊匹配,得到精准行业类别,对完成实体识别的企业拆分,将拆分出的企业在知识图谱中构建关联关系并作为待链接企业实体;待链接企业实体与知识图谱中的企业进行相似度评分,按照评分进行实体链接或知识图谱关系链接,完成实体链接和知识图谱数据补充。本发明专利技术根据企业名称构造的特性,对序列标注得到的行业信息、地点信息以及企业专有名词信息分别进行相似度计算,并予以不同的权重,从而得到更为合理的企业名称之间的相似度值,根据相似度值大小完成实体链接的工作。实体链接的工作。实体链接的工作。

【技术实现步骤摘要】
一种企业知识图谱实体链接模型的构建方法及装置


[0001]本专利技术涉及信息处理
,具体为一种企业知识图谱实体链接模型的构建方法及装置。

技术介绍

[0002]随着信息技术的发展,网络上充斥着越来越多元化的文本数据信息,基于行业知识图谱的语义搜索、智能推理等应用越来越广泛。而在构建知识图谱的过程中,对于一个实体,往往有着不同的命名或描述方式。特别是在企业知识图谱中,一个企业实体可能拥有着多种别称、简称或不规范描述的情况,这对知识图谱构建的准确性造成了一定的影响。也为企业知识图谱数据扩充与实体链接的工作带来了不小的挑战。
[0003]目前的企业知识图谱构建中,针对企业实体链接往往采用两种方式:第一种是根据企业的如法人、组织关系等相关关联信息构建特征工程进行实体链接;另一种是通过企业名称硬匹配或模糊匹配的方式完成实体链接。第一种方法准确性较高,但往往需要较多的企业关联信息,若仅仅在文本中获取了企业的名称而无其他额外信息则难以完成准确的实体链接。对于第二种方法,由于企业名称为短文本数据,且对于除描述地点、行业外的信息一字之差往往就代表着不同的企业,因此,采用模糊匹配或硬匹配的实体链接模型准确率较低。鉴于此,需要一种针对企业知识图谱的实体链接模型来进行企业名称的实体链接。

技术实现思路

[0004]本专利技术要解决的问题是针对企业名称实体的特殊情况,构建一种企业实体链接模型,对于文本中抽取到的采用简称、别称等的企业名称链接至企业知识图谱中。并同时在企业名称中抽取出行业、地点及关联公司等相关信息,用这些信息对企业知识图谱进行补充。
[0005]本专利技术技术方法是:
[0006]一种企业知识图谱实体链接模型的构建方法,其包括以下步骤:
[0007]s1:对待链接企业实体进行企业名称实体识别,并进行序列标注;
[0008]s2:对标注为行业实体的文本进行行业门类分类,在分入的行业门类下进行行业子类目的模糊匹配,得到精准行业类别;
[0009]s3:按照企业名称结尾标记对完成实体识别的企业拆分,将拆分出的企业在知识图谱中构建关联关系并作为待链接企业实体;
[0010]s4:待链接企业实体与知识图谱中的企业进行相似度评分,按照评分进行实体链接或知识图谱关系链接,完成实体链接和知识图谱数据补充。
[0011]优选地,s1中采用Bi

LSTM

CRF进行实体识别。
[0012]优选地,s1中企业名称实体识别具体包括以下步骤:
[0013]s11文本数据处理:在训练阶段,对每个企业名称进行实体识别,进行识别的实体包括地点、企业专有名词、行业、企业类型和名称结尾;
[0014]s12数据标注:对文本按字进行拆分,按照BMESO的策略给予每个字一个标签,非实
体则全部标注为“O”,实体长度为一个字符,则该实体直接标注为“S_实体名称”,否则将该实体的开头字符标注为“B_实体名称”,中间字标注为“M_实体名称”,最后一个字标注为“E_实体名称”[0015]s13实体识别模型建立:采用one

hot对输入文本按字进行编码,编码后向量即为模型的输入向量;将向量输入Bi

LSTM模型中,经过Bi

LSTM模型编码得到输入的每个字的最终状态向量,保存最终状态向量,将最终状态向量输出CRF模型进行解码,得到最终的序列标注结果;
[0016]s14在预测阶段,对于获取到的待链接企业实体,将其输入训练好的序列标注模型,输出该企业的序列标注结果。
[0017]优选地,s2中采用贝叶斯分类算法进行行业文本分类,具体包括以下步骤:
[0018]s21根据国民经济行业划分,构建每个行业的类别训练数据:根据行业分类结果首先确定企业所属的国民经济行业门类,在该门类下依次与其中的大类、中类和小类的行业名称进行模糊匹配,选择行业实体与国民经济分类名称中相似度最高的类别进行链接,作为该企业的行业类别信息;
[0019]s22采用贝叶斯模型对标注的数据集进行训练:将行业文本采用LAC进行分词,然后将分词后的词语通过计算词频,将文本进行向量化处理,最后对向量化后的文本采用贝叶斯分类器进行分类。
[0020]优选地,s4中根据s1的实体识别结果和s2的行业分类结果,对待链接企业实体与知识图谱中存储的企业实体依次进行相似度计算,具体步骤包括:
[0021]s41对待链接企业名称A与知识图谱中的一个企业名称B进行实体识别;
[0022]s42对待链接企业名称A和知识图谱中的一个企业名称B中抽取出的实体进行编码转换;
[0023]s43待链接企业名称A和知识图谱中的一个企业名称B进行实体相似度计算,不同类型的实体给予不同的权重,综合计算最终两企业名称的相似度。
[0024]一种企业知识图谱实体链接模型的构建装置,包括:
[0025]名称序列标注模块,用于企业名称实体识别和序列标注;
[0026]行业实体分类与匹配模块,用于行业实体的门类分类和个门类下小类目的模糊匹配;
[0027]行业名称拆解模块,用于对企业名称中包含母公司的企业进行拆分,并将拆分结果作为企业之间的关系存储至企业知识图谱中,完成企业知识图谱企业间关系的补充;
[0028]行业相似度打分模块,用于待链接企业实体与知识图谱中存储的企业实体依次进行相似度计算,进行实体链接。
[0029]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述企业知识图谱实体链接模型的构建方法。
[0030]一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述企业知识图谱实体链接模型的构建方法的计算机程序。
[0031]本专利技术的有益效果是:
[0032]针对企业名称相似度较高,文本长度较短,以往的实体链接模型准确率较差的问
题。本专利技术提出了一种对企业名称进行特定实体类型序列标注,根据企业名称构造的特性,对序列标注得到的行业信息、地点信息以及企业专有名词信息分别进行相似度计算,并予以不同的权重,从而得到更为合理的企业名称之间的相似度值,根据相似度值大小完成实体链接的工作。并在实体链接的同时根据序列标注结果对企业进行行业分类,完成企业与行业关联关系的补充;另外,还对企业名称进行拆分,找出企业主体,进行子公司之间的关系连接,从而对企业知识图谱进行补充。在提高了实体链接准确率的同时还完成了知识图谱知识的补充工作。
附图说明
[0033]图1为专利技术专利技术方法流程图;
[0034]图2为本专利技术系统结构框图;
具体实施方式
[0035]为进一步了解本专利技术的内容,结合实施例对本专利技术作详细描述,以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。
[0036]实施例1
[0037]如图1所示,本身实施例涉及一种企业知识图谱实体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业知识图谱实体链接模型的构建方法,其特征在于,其包括以下步骤: s1:对待链接企业实体进行企业名称实体识别,并进行序列标注; s2:对标注为行业实体的文本进行行业门类分类,在分入的行业门类下进行行业子类目的模糊匹配,得到精准行业类别; s3:按照企业名称结尾标记对完成实体识别的企业拆分,将拆分出的企业在知识图谱中构建关联关系并作为待链接企业实体; s4:待链接企业实体与知识图谱中的企业进行相似度评分,按照评分进行实体链接或知识图谱关系链接,完成实体链接和知识图谱数据补充。2.根据权利要求1所述的企业知识图谱实体链接模型的构建方法,其特征在于,s1中采用Bi

LSTM

CRF进行实体识别。3.根据权利要求2所述的企业知识图谱实体链接模型的构建方法,其特征在于,s1中企业名称实体识别具体包括以下步骤: s11文本数据处理:在训练阶段,对每个企业名称进行实体识别,进行识别的实体包括地点、企业专有名词、行业、企业类型和名称结尾; s12数据标注:对文本按字进行拆分,按照BMESO的策略给予每个字一个标签,非实体则全部标注为“O”,实体长度为一个字符,则该实体直接标注为“S_实体名称”,否则将该实体的开头字符标注为“B_实体名称”,中间字标注为“M_实体名称”,最后一个字标注为“E_实体名称”; s13实体识别模型建立:采用one

hot对输入文本按字进行编码,编码后向量即为模型的输入向量;将向量输入Bi

LSTM模型中,经过Bi

LSTM模型编码得到输入的每个字的最终状态向量,保存最终状态向量,将最终状态向量输出CRF模型进行解码,得到最终的序列标注结果; s14在预测阶段,对于获取到的待链接企业实体,将其输入训练好的序列标注模型,输出该企业的序列标注结果。4.根据权利要求1所述的企业知识图谱实体链接模型的构建方法,其特征在于,s2...

【专利技术属性】
技术研发人员:朱安安邱彦林赵粉玉俞一奇
申请(专利权)人:杭州叙简科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1