一种预训练模型知识图谱实体关系抽取方法及装置制造方法及图纸

技术编号:23400076 阅读:25 留言:0更新日期:2020-02-22 12:20
本发明专利技术公开了一种预训练模型知识图谱实体关系抽取方法及装置,基于蚁群算法,蚁群算法的基本原理可以概括为以下步骤:1、蚂蚁在觅食的路径上会分泌一种信息素,能被后面的蚂蚁识别;2、在碰到还未走过的路时会随机选择路走,同时在新的路径也释放信息素;3、路径越长信息素的浓度就会越低,后面的蚂蚁在分叉路口时会选择信息素浓度最高的一条路;4、因此如此循环下去,最优路径上的信息素浓度会越来越高;5、最终蚁群找到最优的觅食途径。本方案基于上述思路通过建立指针路径模型来进行实体关系抽取。解决了现有的实体关系抽取算法采用的机制较为复杂,在进行训练时,计算量较大,计算周期较长,且无法进行并行训练的问题。

A method and device of entity relation extraction from knowledge map of pre training model

【技术实现步骤摘要】
一种预训练模型知识图谱实体关系抽取方法及装置
本专利技术涉及机器学习领域,特别涉及一种预训练模型知识图谱实体关系抽取方法及装置。
技术介绍
预训练可以较好的解决深度学习的一些缺点,例如深度学习的网络越深,需要学习的参数因此也越多,也因此需要更多的训练样本,不然小规模的样本容易造成网络的过拟合。同时深层神经网络有梯度扩散的问题,这会导致前面网络参数贡献将会很小,导致更新速度很慢。常用的预训练方法有逐层贪婪训练和无监督预训练(unsupervisedpre-training)即训练网络的第一个隐藏层,再训练第二个…最后用这些训练好的网络参数值作为整体网络参数的初始值。经过预训练最终能得到比较好的局部最优解。知识图谱主要目标是用来描述真实世界中存在的各种实体和概念,以及他们之间的强关系,我们用关系去描述两个实体之间的关联,例如姚明和火箭队之间的关系,他们的属性,我们就用“属性--值对”来刻画它的内在特性,比如说我们的人物,他有年龄、身高、体重属性。同时知识图谱可以通过人为构建与定义,去描述各种概念之间的弱关系,例如:“忘了订单号”和“找回订单号”之间的关系实体是指具有可描述意义的单词或短语,通常可以是人名、地名、组织机构名、产品名称,或者在某个领域内具有一定含义的内容。实体是构建知识图谱的主要成员。关系是指不同实体之间的相互的联系。实体与实体之间并不是相互独立的,往往存在一定的关联。例如“乔布斯”和“苹果”分别属于实体中的人名和产品名称,而它们是具有一定关系的。在命名实体识别和关系抽取之后,需要对所产生的数据进行整合,三元组是能够描述整合后的最好方式。三元组是指(实体1,关系,实体2)组成的元组,在关系抽取任务中,对任意两个实体1和实体2进行关系抽取时,若两者具有关系,则它们可以构建成三元组。例如一句话“爱迪生专利技术了电灯泡”,可以构建的三元组为“爱迪生”,“专利技术”,“电灯泡”。现有的实体关系抽取算法采用的机制较为复杂,在进行训练时,计算量较大,计算周期较长,且无法进行并行训练。
技术实现思路
本专利技术的目的在于:提供了一种预训练模型知识图谱实体关系抽取方法及装置,解决了现有的实体关系抽取算法采用的机制较为复杂,在进行训练时,计算量较大,计算周期较长,且无法进行并行训练的问题。本专利技术采用的技术方案如下:一种预训练模型知识图谱实体关系抽取方法,包括以下步骤:S2、对语料数据进行实体识别;S3、建立指针路径模型,表示t时刻指针k从实体i移动到实体j的概率;;S4、建立指针信息素释放模型,初始化指针参数后构建解空间;S5、对语料数据进行迭代训练输出最优解。蚁群算法的基本原理可以概括为以下步骤:1、蚂蚁在觅食的路径上会分泌一种信息素,能被后面的蚂蚁识别;2、在碰到还未走过的路时会随机选择路走,同时在新的路径也释放信息素;3、路径越长信息素的浓度就会越低,后面的蚂蚁在分叉路口时会选择信息素浓度最高的一条路;4、因此如此循环下去,最优路径上的信息素浓度会越来越高;5、最终蚁群找到最优的觅食途径。综上所述,我们需要找到一种方法来发现实体间应该存在的最合适的关系,因此我们借鉴蚁群算法来实现这种关系的发现。本方案基于上述思路通过建立指针路径模型来进行实体关系抽取,我们假设指针个数,即蚂蚁群体中的蚂蚁数量,为m个,样本中有n个实体,不同的实体i和实体j之间的距离dij=(i,j=1,2,...n),t时刻实体i与实体j之间的信息浓度为。初始时刻,各个实体之间路径上的信息浓度为=。指针k(k=1,2...m)根据各个实体间连接路径上的信息浓度决定其下一个访问的实体,设表示t时刻指针k从实体i移动到实体j的概率,其计算公式如下:;其中,为启发函数,,表示指针从实体i转移到实体j的期望程度。allow为指针待访问实体的集合。开始时allow中有(n-1)个元素,即包括了除指针k出发实体的其他所有实体。随着时间的推移,allow中的实体数量不断减少,直到为空,即表示所有的实体都已访问完毕。其中为信息启发式因子,值越大,指针选择之前走过的路线可能性就越大,搜索路径的随机性会减弱,值越小,指针搜索的范围就会减少,容易陷入局部最优解。为期望启发式因子,值越大,指针就越容易选择局部较短路径,这时算法的收敛速度虽然会加快,但是随机性不高,容易得到局部相对最优。进一步的,步骤S3中指针信息素释放模型为:;。进一步的,所述采用以下三种模型中的一种:蚁周模型:;蚁量模型:;蚁密模型:。为了避免残留信息过多而淹没启发信息,在每个指针走完一步或者完成对所有n个实体的遍历,即一个循环结束后,要对残留信息进行更新处理。由此,t+1时刻在路径(i,j)上的信息量可按如下规则进行调整:;。其中参数,表示信息的衰减程度,表示第k个指针在实体i与实体j连接路径上释放的信息浓度,表示所有的蚂蚁在实体i与实体j连接路径上释放的信息浓度之和。进一步的,为释放信息素的特点定义三种模型:蚁周模型:;其中Q为常数,表示指针循环一次所释放的信息总量,Lk为第k个指针经过的路径长度,该模型假设信息素总量一定,信息素浓度和经过路径的长度成反比。蚁量模型:;该模型中不使用经过的总路径,而仅仅使用相邻实体的路径长度,为实体i和实体j之间的距离,该模型假设信息素总量一定,信息素浓度和实体间的距离成反比。。蚁密模型:。进一步的,还包括步骤:S1、对语料数据进行预处理。进一步的,所述语料数据预处理的方法包括以下步骤:S101、对输入语料数据进行分词处理;S102、对输入语料数据进行去停用词处理;S103、将输入的语料数据转化为向量化的形式。进一步的,步骤S2对语料数据进行实体识别的识别方法包括以下方法中的至少一种:S204、基于规则对语料数据进行实体识别;S205、基于统计对语料数据进行实体识别;S206、基于XLNet训练方法对语料数据进行实体识别。进行实体识别,根据不同的场景可以进行不同的实体抽取,主要的实体抽取方法主要包括:基于规则,使用已定义的规则,抽取出文本中的人名、地名、组织机构名、特定时间等实体。然而,基于规则模板的方法不仅需要依靠大量的专家来编写规则或模板,覆盖的领域范围有限,而且很难适应数据变化的新需求,如NTU系统、FACILE系统、OKI系统;基于统计,将机器学习中的监督学习算法用于命名实体的抽取问题上,单纯的监督学习算法在性能上不仅受到训练集合的限制,并且算法的准确率与召回率都不够理想,如n元模型、隐马尔科夫模型(HMM)、最大熵模型(ME)、决策树等;混合方法,如借助规则知识及早剪枝,再用统计模型;预训练XLNet网络,XLNet是本文档来自技高网
...

【技术保护点】
1.一种预训练模型知识图谱实体关系抽取方法,其特征在于:包括以下步骤:/nS2、对语料数据进行实体识别;/nS3、建立指针路径模型,

【技术特征摘要】
1.一种预训练模型知识图谱实体关系抽取方法,其特征在于:包括以下步骤:
S2、对语料数据进行实体识别;
S3、建立指针路径模型,表示t时刻指针k从实体i移动到实体j的概率;


S4、建立指针信息素释放模型,初始化指针参数后构建解空间;
S5、对语料数据进行迭代训练输出最优解;
其中:为t时刻实体i与实体j之间的信息浓度;为t时刻实体i与实体s之间的信息浓度;

为t时刻指针从实体i转移到实体j的期望程度;为t时刻指针从实体i转移到实体j的期望程度
allow为指针待访问实体的集合;s为allow中的实体;

为信息启发式因子;

为期望启发式因子。


2.根据权利要求1所述的一种预训练模型知识图谱实体关系抽取方法,其特征在于:步骤S3中指针信息素释放模型为:




其中:为t+1时刻实体i与实体j之间的信息浓度,表示信息的衰减程度,表示第k个指针在实体i与实体j连接路径上释放的信息浓度,表示所有的指针在实体i与实体j连接路径上释放的信息浓度之和,m为指针的个数。


3.根据权利要求2所述的一种预训练模型知识图谱实体关系抽取方法,其特征在于:所述采用以下三种模型中的一种:
蚁周模型:


蚁量模型:


蚁密模型:


其中:Q为常数,表示指针循环一次所释放的信息总量,Lk为第k个指针经过的路径长度,为实体i和实体j之间的距离。


4.根据权利要求1所述的一种预训练模型知识图谱实体关系抽取方法,其特征在于:还包括步骤:
S1、对语料数据进行预处理。


5.根据权利...

【专利技术属性】
技术研发人员:查文宇张艳清蓝科王竞奇王琳殷腾蛟
申请(专利权)人:成都四方伟业软件股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1