【技术实现步骤摘要】
一种面向中文人物关系网络的实体关系联合抽取方法
[0001]本专利技术涉及涉及自然语言信息抽取领域,更具体地说,涉及一种面向中文人物关系网络的实体关系联合抽取方法。
技术介绍
[0002]随着互联网技术的高速发展,互联网中的数据量也在飞速增长,面对海量数据,人们要求获取到的信息更加简洁准确,而互联网中存在的大量人物关系数据是由非结构化的语料来表达的,知识抽取难度较大,针对海量非结构化文本数据,高效而又简洁的知识抽取方法显得尤为重要。
[0003]现有技术中存在一些实体关系抽取方法:
[0004]1.基于管道模型(Pipeline)的知识抽取方法:管道模型把实体关系抽取分成两个子任务,实体识别和关系分类,两个子任务按照顺序依次执行,之间没有交互。两个模型灵活性高,实体与关系模型可以使用独立的数据集,并不需要同时标注实体和关系的数据集。
[0005]2.基于联合模型(Joint)的知识抽取方法:上述方式会降低实体与关系之间的关联性且存在误差累积问题,而以TPLinker模型为代表的联合抽取方式直接抽取实体 ...
【技术保护点】
【技术特征摘要】
1.一种面向中文人物关系网络的实体关系联合抽取方法,其特征在于:包含人物关系文本预处理、预定义知识库SCHEMA、基于轻量级的词嵌入模型ALBERT的TPLinker模型训练、人物关系三元组抽取四部分;其中,基于ALBERT的TPLinker模型训练,具体包含如下步骤:步骤C1,设置隐含层数hidden_size,向量维度embedding_dim,跨层共享参数标识reuse;ALBERT将使用以下步骤对词嵌入模型参数进行优化:步骤C11,对词嵌入参数进行因式分解,ALBERT采用因式分解的方法来降低BERT算法的参数量,针对大小为V的词汇表,它认为embedding_dim<<hiddern_size,故ALBERT算法首先把one
‑
hot向量映射到一个大小为E的低尺寸的向量空间,然后再将其投影到H大小的隐藏空间中,即O(V
×
H)转换成O(V
×
E+E
×
H),其中,E就是embedding_dim的大小,H为hidden_size的大小,V是词表的大小,是词嵌入模型所有词汇的个数;一般设置embedding_dim=128,hidden_size=768;步骤C12,跨层的参数共享Cross
‑
layerparameter sharing,对BERT算法的全连接层与注意力层都进行参数共享,即共享编码器内的所有参数,通过设置reuse=True开启跨层参数共享,以此减少模型参数;其中,reuse为跨层共享参数标识;步骤C2,初始化嵌入层模型参数:当前数据批次大小batch_size,最大序列长度max_seq_len,向量维度embedding_dim,根据ALBERT算法输出当前批次的词嵌入向量,步骤如下;步骤C21,将输入序列转换成向量作为嵌入层模型输入,向量表达式为:X
embedding
=Token
embedding
+Segment
embedding
+Position
embedding
其中,Token
embedding
是当前token的词向量,Segment
embedding
表明当前词属于哪个句子,Position
embedding
为学习到的位置编码;步骤C22,注意力机制进行特征提取,表达式为:其中,Q、K、V是词向量矩阵,d
K
为向量维度;步骤C23,特征输出,得到输入序列的词嵌入表示,表达式为:X
attention
=LayerNorm(X+X
attention
)X
hidden
=Activate(Linear(Linear(X
attention
)))其中,LayerNorm为归一化函数,Linear为全连接层,Activate为RELU激活函数;步骤C3,设置TPLinker算法的模型参数,学习因子lr,训练迭代次数epoch和向量维度embedding_dim,数据批次大小batch_size,滑动块大小sliding_len,TPlinker对词嵌入向量进行编码操作。2.根据权利要求1所述的一种面向中文人物关系网络的实体关系联合抽取方法,其特征在于:所述步骤C3具体如下:步骤C31,token词对的表示法:给定一个长度为n的句子[w1,
···
,wn],通过一个基本编码器将每个w
i
映射成一个低维的上下文向量h
i
...
【专利技术属性】
技术研发人员:汪洋,陈洲,朱丹,王栋平,于立佳,
申请(专利权)人:南京烽火天地通信科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。