【技术实现步骤摘要】
基于BERT模型融合多元实体信息的关系分类方法及系统
[0001]本专利技术属于信息抽取
,特别涉及一种基于BERT模型融合多元实体信息的关系分类方法及系统。
技术介绍
[0002]信息抽取技术,旨在从非结构化的自由文本中自动抽取出以结构化形式描述的信息,是自然语言处理各类应用的基础,如知识图谱、自动问答、智能搜索等。信息抽取包括属性、关系、事件等信息的抽取,其中关系抽取是指识别文本中的实体,并判断实体之间的语义关系。在已识别实体的情况下,关系抽取就等同于关系分类,即判断一句话中已标记实体对之间的语义关系类型。举个例子来说,对于句子“[James]e1 married[Margaret of Denmark]e2 in July 1469.”,“James”和“Margaret of Denmark”是已识别的两个实体,通过对它们的关系进行分类,可以得到它们的关系是“per:spouse”,最终,得到结构化的实体关系三元组(James,spouse,Margaret of Denmark)。
[0003]传统的 ...
【技术保护点】
【技术特征摘要】
1.一种基于BERT模型融合多元实体信息的关系分类方法,其特征在于,包含如下内容:对目标文本句子进行预处理,获取模型输入句子,其中,所述预处理包含:对文本句子中实体类型进行标注获取第一子句,通过依存分析来提取实体最短依存路径来获取第二子句,及将第一子句和第二子句进行拼接;利用BERT模型对获取的模型输入句子进行编码,得到编码后的句子向量、实体向量和依存关系向量;并将三者进行拼接形成用于关系分类的特征表示向量;针对特征表示向量,利用全连接softmax分类器获取最终关系分类结果。2.根据权利要求1所述的基于BERT模型融合多元实体信息的关系分类方法,其特征在于,实体类型标注中,利用NLP工具获取句子中实体类型,通过对每种实体类型定义不同标记,在每个实体类型前后两端插入相应实体标注,获取第一子句。3.根据权利要求1所述的基于BERT模型融合多元实体信息的关系分类方法,其特征在于,利用NLP工具对句子进行依存分析,获取实体最短依存路径,并在最短依存关系词前后两端添加相应标记,获取第二子句。4.根据权利要求1所述的基于BERT模型融合多元实体信息的关系分类方法,其特征在于,通过BERT模型获取编码后每个单词向量表示;针对单词向量表示,依据标注信息获取句子向量及句子中的实体向量和依存关系向量。5.根据权利要求4所述的基于BERT模型融合多元实体信息的关系分类方法,其特征在于,针对两个实体及实体间的依存关系,通过计算其所包含的单词向量平均值来获取相应实体向量及依存关系向量。6....
【专利技术属性】
技术研发人员:尹美娟,胡红卫,刘晓楠,谭文治,童毅见,罗向阳,赖国清,高川松,
申请(专利权)人:中国人民解放军战略支援部队信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。