基于互信息熵的跨语言实体自动对齐方法及系统技术方案

技术编号:27591528 阅读:18 留言:0更新日期:2021-03-10 10:09
本发明专利技术公开了一种基于互信息熵的跨语言实体自动对齐方法及系统,首先计算出基于对齐语料的库的单语言词向量,然后计算跨语言实体对齐的概率分布,并且计算跨语言的实体互信息熵作为跨语言实体对齐的量度,可以对大规模跨语言实体对齐语料进行实体提取和对齐,构建跨语言实体对齐库,对齐效率和准确率都比较高。对齐效率和准确率都比较高。对齐效率和准确率都比较高。

【技术实现步骤摘要】
基于互信息熵的跨语言实体自动对齐方法及系统


[0001]本专利技术是关于自然语言处理
,特别是关于一种基于互信息熵的跨语言实体自动对齐方法及系统。

技术介绍

[0002]实体链接(Entity linking),或者实体对齐,就是将文本段落中的命名实体字符串映射到知识库中对应的实体上,是将字符串(String)映射到实体(Entity)的一种方法,广泛应用于知识图谱构建过程中。实体链接的难点在于两个方面,即多词一义和一词多义,多词一义是指实体可能有多个指标,实体的标准名、别名、名称缩写等都可以用来指代该实体;一词多义是指一个指标可以指代多个实体;解决一词多义问题要利用知识库中实体信息进行实体消歧,单一知识库中的实体信息相对较少,如果能利用多个知识库中的实体信息进行实体消歧,一词多义的问题将会得到更好的解决。单语言的实体对齐,主要是通过比较字符串的相似度,并结合文本上下文实现实体提取,而跨语言实体大部分是不相似的,需要将不同语种的字符串映射到实体的过程,对跨语言知识图谱构建是一个必须要解决的重点问题。
[0003]公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

技术实现思路

[0004]本专利技术的目的在于提供一种基于互信息熵的跨语言实体自动对齐方法及系统,其构建了跨语言对齐知识库,从大规模的非结构化对齐语料中提取双语实体,依据互信息熵信息,建立双语实体的对齐关系,对齐效率和准确率都比较高。
[0005]为实现上述目的,本专利技术提供了一种基于互信息熵的跨语言实体自动对齐方法,其包括:计算出输入的平行语料库中的第一语言文本的字符级别的词向量,并且计算出所述平行语料库中的第二语言文本的字符级别的词向量;对所述第一语言文本进行命名实体识别,得到第一命名实体集合,并且对所述第二语言文本进行命名实体识别,得到第二命名实体集合;对所述第一语言文本的字符级别的词向量采用加权平均算法得到所述第一命名实体集合中的各个实体向量,并且对所述第二语言文本的字符级别的词向量采用加权平均算法得到所述第二命名实体集合中的各个实体向量;计算出所述第一命名实体集合中各个实体的概率分布,并且计算出所述第二命名实体集合中各个实体的概率分布;根据所述第一命名实体集合中各个实体的概率分布以及所述第二命名实体集合中各个实体的概率分布来求取所述第一命名实体集合中的各个实体相对于所述第二命名实体集合中的各个实体的互信息熵;并且求取所述第二命名实体集合中的各个实体相对于所述第一命名实体集合中的各个实体的互信息熵;若所述第一命名实体集合中的某一实体相对于所述第二命名实体集合中的另一实体的互信息熵大于所述第一命名实体集合中的某一实体相对于所述第二命名实体集合中的除了该另一实体之外的各个实体的互信息熵,并且所述第二命名实
体集合中的另一实体相对于所述第一命名实体集合中的某一实体的互信息熵大于所述第二命名实体集合中的另一实体相对于所述第一命名实体集合中的除了该某一实体之外的各个实体的互信息熵,则将所述第一命名实体集合中的某一实体与所述第二命名实体集合中的另一实体对齐。
[0006]在本专利技术的一实施方式中,所述第一命名实体集合为:E1={K1,K2,

,K
r
},其中,K1,K2,

,K
r
表示所述第一命名实体集合中的各个实体;所述第二命名实体集合为:E2={L1,L2,

,L
w
},其中,L1,L2,

,L
w
表示所述第二命名实体集合中的各个实体;第一命名实体集合的第m个实体向量为:VE1
m
=[a1
m
,a2
m
,a3
m


,aN
m
],其中,a1
m
,a2
m
,a3
m


,aN
m
分别表示所述第一命名实体集合的第m个实体向量在所述第一语言文本不同位置的词向量的数值;所述第二命名实体集合的第n个实体向量为:VE2
n
=[b1
n
,b2
n
,b3
n


,bN
n
],其中,b1
n
,b2
n
,b3
n


,bN
n
分别表示所述第二命名实体集合的第n个实体向量在所述第二语言文本不同位置的词向量的数值。
[0007]在本专利技术的一实施方式中,所述概率分布的计算式为:P1
m
=K
m
/(a1
m
+a2
m
+a3
m
+

+aN
m
),其中,P1
m
表示所述第一命名实体集合中的第m个实体K
m
的概率分布;以及P2
n
=L
n
/(b1
n
+b2
n
+b3
n
+

+bN
n
),其中,P2
n
表示所述第二命名实体集合中的第n个实体L
n
的概率分布。
[0008]在本专利技术的一实施方式中,所述互信息熵的计算式如下:D(E1
m
|E2
n
)=Σ(P1
m
*log(P1
m
/P2
n
)),其中,D(E1
m
|E2
n
)表示所述第一命名实体集合中的第m个实体相对于所述第二命名实体集合中的第n个实体的互信息熵D(E2
n
|E1
m
)=Σ(P2
n
*log(P2
n
/P1
m
)),其中,D(E2
n
|E1
m
)表示所述第二命名实体集合中的第n个实体相对于所述第一命名实体集合中的第m个实体的互信息熵。
[0009]基于同样的专利技术构思,本专利技术还提供了一种基于互信息熵的跨语言实体自动对齐系统,其包括:词向量计算模块、实体识别模块、实体向量计算模块、概率分布计算模块、互信息熵计算模块、实体对齐模块。词向量计算模块用于计算出输入的平行语料库中的第一语言文本的字符级别的词向量,还用于计算出所述平行语料库中的第二语言文本的字符级别的词向量。实体识别模块用于对所述第一语言文本进行命名实体识别,得到第一命名实体集合,并且对所述第二语言文本进行命名实体识别,得到第二命名实体集合。实体向量计算模块与所述词向量计算模块以及所述实体识别模块均相耦合,用于对所述第一语言文本的字符级本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于互信息熵的跨语言实体自动对齐方法,其特征在于,包括:计算出输入的平行语料库中的第一语言文本的字符级别的词向量,并且计算出所述平行语料库中的第二语言文本的字符级别的词向量;对所述第一语言文本进行命名实体识别,得到第一命名实体集合,并且对所述第二语言文本进行命名实体识别,得到第二命名实体集合;对所述第一语言文本的字符级别的词向量采用加权平均算法得到所述第一命名实体集合中的各个实体向量,并且对所述第二语言文本的字符级别的词向量采用加权平均算法得到所述第二命名实体集合中的各个实体向量;计算出所述第一命名实体集合中各个实体的概率分布,并且计算出所述第二命名实体集合中各个实体的概率分布;根据所述第一命名实体集合中各个实体的概率分布以及所述第二命名实体集合中各个实体的概率分布来求取所述第一命名实体集合中的各个实体相对于所述第二命名实体集合中的各个实体的互信息熵;并且求取所述第二命名实体集合中的各个实体相对于所述第一命名实体集合中的各个实体的互信息熵;若所述第一命名实体集合中的某一实体相对于所述第二命名实体集合中的另一实体的互信息熵大于所述第一命名实体集合中的某一实体相对于所述第二命名实体集合中的除了该另一实体之外的各个实体的互信息熵,并且所述第二命名实体集合中的另一实体相对于所述第一命名实体集合中的某一实体的互信息熵大于所述第二命名实体集合中的另一实体相对于所述第一命名实体集合中的除了该某一实体之外的各个实体的互信息熵,则将所述第一命名实体集合中的某一实体与所述第二命名实体集合中的另一实体对齐。2.如权利要求1所述的基于互信息熵的跨语言实体自动对齐方法,其特征在于,所述第一命名实体集合为:E1={K1,K2,

,K
r
},其中,K1,K2,

,K
r
表示所述第一命名实体集合中的各个实体;所述第二命名实体集合为:E2={L1,L2,

,L
w
},其中,L1,L2,

,L
w
表示所述第二命名实体集合中的各个实体;第一命名实体集合的第m个实体向量为:VE1
m
=[a1
m
,a2
m
,a3
m


,aN
m
],其中,a1
m
,a2
m
,a3
m


,aN
m
分别表示所述第一命名实体集合的第m个实体向量在所述第一语言文本不同位置的词向量的数值;所述第二命名实体集合的第n个实体向量为:VE2
n
=[b1
n
,b2
n
,b3
n


,bN
n
],其中,b1
n
,b2
n
,b3
n


,bN
n
分别表示所述第二命名实体集合的第n个实体向量在所述第二语言文本不同位置的词向量的数值。3.如权利要求2所述的基于互信息熵的跨语言实体自动对齐方法,其特征在于,所述概率分布的计算式为:P1
m
=K
m
/(a1
m
+a2
m
+a3
m
+

+aN
m
),其中,P1
m
表示所述第一命名实体集合中的第m个实体K
m
的概率分布;以及P2
n
=L
n
/(b1
n
+b2
n
+b3
n
+

+bN
n
),其中,P2
n
表示所述第二命名实体集合中的第n个实体L
n
的概率分布。4.如权利要求3所述的基于互信息熵的跨语言实体自动对齐方法,其特征在于,所述互信息熵的计算式如下:
D(E1
m
|E2
n
)=Σ(P1
m
*log(P1
m
/P2
n
)),其中,D(E1
m
|E2
n
)表示所述第一命名实体集合中的第m个实体相对于所述第二命名实体集合中的第n个实体的互信息熵;以及D(E2
n
|E1
m
)=Σ(P2
n
*log(P2
n
/P1
m
)),其中,D(E2
n
|E1
m
)表示所述第二命名实体集合中的第n个实体相对于所述第一命名实体集合中的第m个实体的互信息熵。5.一种基于互信息熵的跨语言实体自动对齐系统,其特征在于,包括:词向量计算模块,用于计算出输入的平行语料库中的第一语言文本的字符级别的词向量,还用于计算出所述平行语料库中的第二语言文本的字符级别的词向量;实体识别模块,用于对所述第一语言文本进行命名实体识别,得到第一命名实体集合,并且对所述第二语言文本...

【专利技术属性】
技术研发人员:傅兴玉程国艮
申请(专利权)人:中译语通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1