【技术实现步骤摘要】
实体关系抽取方法、装置、电子设备及可读存储介质
[0001]本申请涉及文本处理领域,尤其涉及一种实体关系抽取方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]目前为了提取语料中的有效信息,很多情况下,都需要对语料中的实体关系进行抽取,关系抽取是实体识别基础上的一个任务,其核心是抽取一个句子中包含的实体对之间的关系。
[0003]现有的实体关系抽取方法是通过无监督为主的自动抽取(Auto Extraction),通常在没有确定关系标签的条件下,根据句法或语义结构自动地从文本中提取可以描述对应关系的词汇或短语,而这种抽取方式仍然依赖于初始种子和语料库的质量,而且需要人工筛选低频的实体对,非常麻烦,且实体关系抽取的效率较低。
技术实现思路
[0004]本申请提供了一种实体关系抽取方法、装置、电子设备及存储介质,以解决实体关系抽取的效率不高的问题。
[0005]第一方面,本申请提供了一种实体关系抽取方法,所述方法包括:
[0006]获取句子实例和所述句子实例中的实体,对所述句子 ...
【技术保护点】
【技术特征摘要】
1.一种实体关系抽取方法,其特征在于,所述方法包括:获取句子实例和所述句子实例中的实体,对所述句子实例进行文本语义特征抽取,得到句子语义向量;将所述句子实例中的实体输入至标准实体嵌入模型中进行实体嵌入,得到实体嵌入信息;从所述实体嵌入信息中筛选标准嵌入信息,将所述标准嵌入信息与所述句子语义向量进行拼接并输入至预设的关系抽取模块中,得到实体关系。2.根据权利要求1所述的实体关系抽取方法,其特征在于,所述对所述句子实例进行文本语义特征抽取,得到句子语义向量,包括:根据预获取的第一标识、第二标识、所述句子实例和所述句子实例中的实体构建输入序列;对所述输入序列中的多个实体进行掩码替换,得到掩码序列;将所述掩码序列输入至预设的BERT模型中,得到序列向量;基于预设的双向长短期记忆网络对所述序列向量进行状态转换,得到最终语义向量;识别所述最终语义向量中第一个所述第二标识所在的位置,保留所述最终语义向量中第一个所述第二标识之前的序列,得到句子语义向量。3.根据权利要求2所述的实体关系抽取方法,其特征在于,所述根据预获取的第一标识、第二标识、所述句子实例和所述句子实例中的实体构建输入序列,包括:将所述第一标识添加至所述句子实例的前面,并将所述第二标识添加至所述句子实例的后面,得到前置序列;将所述第二标识插入至所述句子实例包含的实体中,得到后置序列,将所述前置序列和所述后置序列进行拼接处理,得到输入序列。4.根据权利要求1所述的实体关系抽取方法,其特征在于,所述将所述句子实例中的实体输入至标准实体嵌入模型中进行实体嵌入之前,所述方法还包括:识别预获取的训练数据中的多个实体及多个所述实体之间的关系,得到多个实体关系;根据预设的三元组生成方式对多个所述实体和所述实体关系进行三元组生成处理,得到多个训练三元组;将多个所述训练三元组中实体相同的三元组进行拼接处理,得到训练知识图谱;利用所述训练知识图谱对预设的实体嵌入模型进行训练,得到训练好的标准实体嵌入模型。5.根据权利要求4所述的实体关系抽取方法,其特征在于,所述利用所述训练知识图谱对预设的实体嵌入模型进行训练,得到训练好的标准实体嵌入模型,包括:提取所述训练知识图谱中任意一个训练三元组中的头实体和尾实体,并利用所述实体嵌入模型将所述头实体和所述尾实体投影至预设的欧几里得空间,得到头实体向量和尾实体向量;计算所...
【专利技术属性】
技术研发人员:杜娟,刘轶,
申请(专利权)人:深港产学研基地北京大学香港科技大学深圳研修院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。