【技术实现步骤摘要】
基于语义相似度的实体关系抽取方法、装置、设备及介质
本专利技术涉及人工智能领域,尤其涉及一种基于语义相似度的实体关系抽取方法、装置、设备及介质。
技术介绍
在自然语言处理领域,涉及到语义网络标注、篇章理解、机器翻译方面时,经常需要对语料中的内容,进行实体关系抽取,实体关系抽取作为信息抽取领域的重要研究课题,其主要目的是抽取句子中已标记实体对之间的语义关系,即在实体识别的基础上确定无结构文本中实体对间的关系类别,并形成结构化的数据以便存储和取用。在理论研究和额实际运用中,实体关系抽取技术能为其它自然语言处理技术提供理论支持。现有的方式,主要是通过对语句进行分词,进而计算相似度,来确定新语句与原有语料之间的相似性,这种基于文本字符相似程度的相似性,其计算的准确性较多依赖于词向量的表征能力,在多次循环之后,会使后续加入的语料产生语义漂移问题,导致整个语料的实体关系抽取准确度越来越低。
技术实现思路
本专利技术实施例提供一种基于语义相似度的实体关系抽取方法、装置、计算机设备和存储介质,以提高命名实体的关系
【技术保护点】
1.一种基于语义相似度的实体关系抽取方法,其特征在于,包括:/n获取标注语料和未标注语料,将每个所述标注语料存入到种子集合中;/n针对所述种子集合中的每个所述标注语料,根据预设特征构造的方式,对所述标注语料构建特征,得到所述标注语料的关系特征;/n将所述未标注语料、所述标注语料和所述标注语料的关系特征输入到预设的相似度评估模型中;/n基于所述预设的相似度评估模型和所述关系特征,对所述未标注语料进行评估,得到评估结果,并根据所述评估结果,确定所述未标注语料的实体关系。/n
【技术特征摘要】
1.一种基于语义相似度的实体关系抽取方法,其特征在于,包括:
获取标注语料和未标注语料,将每个所述标注语料存入到种子集合中;
针对所述种子集合中的每个所述标注语料,根据预设特征构造的方式,对所述标注语料构建特征,得到所述标注语料的关系特征;
将所述未标注语料、所述标注语料和所述标注语料的关系特征输入到预设的相似度评估模型中;
基于所述预设的相似度评估模型和所述关系特征,对所述未标注语料进行评估,得到评估结果,并根据所述评估结果,确定所述未标注语料的实体关系。
2.如权利要求1所述的基于语义相似度的实体关系抽取方法,其特征在于,在所述基于所述预设的相似度评估模型和所述关系特征,对所述未标注语料进行评估,得到评估结果之后,所述基于语义相似度的实体关系抽取方法还包括:
将评估结果与预设条件进行比较,确定符合所述预设条件的未标注语料,作为候选语料;
将所述候选语料加入到所述种子集合中,得到更新后的种子集合。
3.如权利要求1所述的基于语义相似度的实体关系抽取方法,其特征在于,所述针对所述种子集合中的每个所述标注语料,根据预设特征构造的方式,对所述标注语料构建特征,得到所述标注语料的关系特征包括:
获取所述标注语料的命名实体;
针对所述命名实体,获取所述命名实体之前N个分词,构成知识元组,作为第一关系特征,获取两个连续的命名实体之间的分词,构成知识元组,作为第二关系特征,获取所述命名实体之后N个分词,构成知识元组,作为第三关系特征,其中,N为正整数;
将所述第一关系特征、第二关系特征和所述第三关系特征,作为所述标注语料的关系特征。
4.如权利要求1所述的基于语义相似度的实体关系抽取方法,其特征在于,所述预设的相似度评估模型为BERT模型。
5.如权利要求4所述的基于语义相似度的实体关系抽取方法,其特征在于,所述BERT模型包括编码层、Concat层和全连接层,所述基于所述预设的相似度评估模型和所述关系特征,对所述未标注语料进行评估,得到评估结果包括:
采用所述BERT模型的编码层,对每个所述未标注语料进行编码,得到第一编码特征,对每个所述标注语料进行编码,得到第二编码特征;
通过BERT模型的Concat层分别对所述第一编码特征和第二编码特征进行特征提取融合,得到第一融合特征和第二融合特征;
针对任意一个所述第一融合特...
【专利技术属性】
技术研发人员:陈振东,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。