一种实体识别方法、识别模型的训练方法和相关装置制造方法及图纸

技术编号:35879200 阅读:36 留言:0更新日期:2022-12-07 11:18
本申请公开了一种实体识别方法、识别模型的训练方法和相关装置,该方法包括:从目标文本确定若干组目标片段组;分别对每目标片段组进行关系分类,得到每目标片段组的关系分类结果,关系分类结果用于表示目标片段组包含的两个文本片段之间是否存在关联关系;基于关系分类结果和目标片段组中各文本片段的实体分类结果,确定目标文本中的非连续实体;通过上述方式,本申请将非连续实体识别任务转变为文本片段的实体分类任务和关系分类任务,简化了非连续实体识别的过程,能够准确对目标文本中的非连续实体进行识别,提高了对目标文本实体识别的准确性。别的准确性。别的准确性。

【技术实现步骤摘要】
一种实体识别方法、识别模型的训练方法和相关装置


[0001]本申请涉及数据分析
,特别是涉及一种实体识别方法、识别模型的训练方法和相关装置。

技术介绍

[0002]在进行数据分析的过程中,首先需要从非结构化文本中抽取出结构化信息,而后对抽取出的结构化信息进行数据分析。由于数据分析过程中需要使用抽取出的实体信息,故在抽取结构化信息的过程中实体的识别占据了重要地位。
[0003]非结构化文本中可能同时存在连续实体和非连续实体,非连续实体指的是一个实体分为若干片段,并且片段之间相互隔离。在进行实体识别时,非连续实体的识别也是十分关键的,本申请的申请人在长期的研发过程中,现有技术中在识别知识实体的过程中,对于非连续实体的识别效果差,不能够准确识别非连续实体。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种实体识别方法、识别模型的训练方法和相关装置,能够提高实体识别的准确性。
[0005]为解决上述技术问题,本申请采用的一个技术方案是:提供一种实体识别方法,该方法包括:从目标文本确定若干组目标片段组,每本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体识别方法,其特征在于,所述方法包括:从目标文本确定若干组目标片段组,每所述目标片段组包括所述目标文本中的两个文本片段;分别对每所述目标片段组进行关系分类,得到每所述目标片段组的关系分类结果,所述关系分类结果用于表示所述目标片段组包含的两个文本片段之间是否存在关联关系;基于所述关系分类结果和所述目标片段组中各文本片段的实体分类结果,确定所述目标文本中的非连续实体,其中,所述非连续实体由至少一组所述目标片段组包含的文本片段组成。2.根据权利要求1所述的方法,其特征在于,所述从目标文本确定若干组目标片段组,包括:从所述目标文本中选出至少一组满足预设要求的文本片段对,作为所述目标片段组,所述预设要求包括所述文本片段对的实体分类结果表示所述文本片段对均属于实体类型、和/或所述文本片段对不存在重叠。3.根据权利要求1所述的方法,其特征在于,在所述基于所述关系分类结果和所述目标片段组中各文本片段的实体分类结果,确定所述目标文本中的非连续实体之前,所述方法还包括:获取目标文本包含的各文本片段的片段表示;基于各所述文本片段的片段表示进行实体分类,得到所述文本片段的实体分类结果;所述分别对每所述目标片段组进行关系分类,得到每所述目标片段组的关系分类结果,包括:对于每所述目标片段组,利用所述目标片段组包含的文本片段的片段表示对所述目标片段组进行关系分类,得到所述目标片段组的关系分类结果。4.根据权利要求3所述的方法,其特征在于,所述利用所述目标片段组包含的文本片段的片段表示对所述目标片段组进行关系分类,得到所述目标片段组的关系分类结果,包括:将所述目标片段组包含的文本片段的片段表示进行拼接,得到所述目标片段组的拼接表示;基于所述目标片段组的拼接表示进行关系分类,得到所述目标片段组的关系分类结果;和/或,所述获取目标文本包含的各文本片段的片段表示包括:获取所述目标文本中各字符的字符表示;利用所述目标文本中包含的字符对所述目标文本中包含的所述文本片段进行枚举,得到多个所述文本片段,其中,所述文本片段的字符长度小于预设阈值;基于所述文本片段中各字符的所述字符表示得到所述文本片段的片段表示。5.根据权利要求4所述的方法,其特征在于,所述基于所述文本片段中各字符的所述字符表示得到所述文本片段的片段表示,包括:将所述文本片段的首字符的所述字符表示、尾字符的所述字符表示和所述文本片段的字符长度表示进行拼接,得到所述文本片段的片段表示,其中,所述字符长度表示与所述文本片段的字符长度相关。6.根据权利要求1所述的方法,其特征在于,所述文本片段的实体分类结果表示所述文
本片段所属的类型,所述文本片段所属的类型包括实体类型和非实体类型;所述基于所述关系分类结果和所述目标片段组中各文本片段的实体分类结果,确定所述目标文本中的非连续实体包括:基于所述关系分类结果和所述实体分类结果,从若干目标片段组中查找出存在所述关联关系且所属类型满足实体类型要求的至少两个所述文本片段,组成所述非连续实体。7.根据权利要求6所述的方法,其特征在于,所述实体类型要求为属于同一所述实体类型;和/或,所述基于所述关系分类结果和所述实体分类结果,从所述若干目标片段组中查找出存在所述关联关系且所属类型满足实体类型要求的至少两个所述文本片段,组成所述非...

【专利技术属性】
技术研发人员:毛廷运刘伟棠陈立力周明伟
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1