一种实体关系提取的方法和装置制造方法及图纸

技术编号:40628532 阅读:16 留言:0更新日期:2024-03-13 21:15
本发明专利技术公开了一种实体关系提取的方法和装置,涉及自然语言处理技术领域。该方法的一具体实施方式包括:根据原始数据集的文本表述方式生成语句模板,并根据预设的实体集和语句模板生成扩充数据集;将原始数据集和扩充数据集进行合并生成合并数据集,进行实体关系标注,并提取每条数据对应的子句、实体和非实体词语;将数据对应的子句、实体和非实体词语分别进行数据增强处理,以得到数据对应的增强数据,并生成实体关系标注结果;基于汇总数据集中每条数据对应的增强数据和对应的实体关系标注结果进行实体关系提取模型训练,并使用实体关系提取模型进行实体关系提取。该实施方式提高了模型的泛化能力和鲁棒性,提高实体关系提取效率和准确性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种实体关系提取的方法和装置


技术介绍

1、自然语言处理是指用计算机处理自然语言。它是研究人与计算机进行通信的各种方法。在信息时代,从文本中提取关键信息,将会有利于文本的整理、分类和利用。自然语言处理又分为命名实体识别、关系识别等基础任务。

2、随着深度学习的发展,基于深度学习的自然语言处理在充分的数据训练下,可以达到很高的精度。但是,数据集内容的充分性和域内知识的相关性对模型的效果有很大影响。提高数据质量、数据数量可以提升模型的性能、泛化能力和鲁棒性。

3、然而,现实中用于自然语言处理的数据集往往存在数据量不足,数据类别分布不均匀的现象。例如,在实体关系提取任务中,只有少部分的关系拥有足够的三元组,针对这样的少样本情况,会导致学习模型的效果较差。


技术实现思路

1、有鉴于此,本专利技术实施例提供一种实体关系提取的方法和装置,能够批量生成数据较少的关系类别对应的扩充数据集,从而实现对各种数据类型的扩充,平衡了数据类别;同时,通过对合并数据集进行数据本文档来自技高网...

【技术保护点】

1.一种实体关系提取的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,根据预设的实体集和所述语句模板生成扩充数据集,包括:

3.根据权利要求1所述的方法,其特征在于,对所述合并数据集中的每条数据进行实体关系标注,包括:

4.根据权利要求3所述的方法,其特征在于,结合实体在数据中的位置对所述合并数据集中的每条数据的实体关系进行标注,包括:

5.根据权利要求4所述的方法,其特征在于,结合所述数据的实体关系标注结果生成所述增强数据的实体关系标注结果,包括:

6.根据权利要求1所述的方法,其特征在于,提取每条数据对应...

【技术特征摘要】

1.一种实体关系提取的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,根据预设的实体集和所述语句模板生成扩充数据集,包括:

3.根据权利要求1所述的方法,其特征在于,对所述合并数据集中的每条数据进行实体关系标注,包括:

4.根据权利要求3所述的方法,其特征在于,结合实体在数据中的位置对所述合并数据集中的每条数据的实体关系进行标注,包括:

5.根据权利要求4所述的方法,其特征在于,结合所述数据的实体关系标注结果生成所述增强数据的实体关系标注结果,包括:

6.根据权利要求1所述的方法,其特征在于,提取每条数据对应的子句、实体和非实体词语,包括...

【专利技术属性】
技术研发人员:张雷邱小霞赵新宇卢腾
申请(专利权)人:中国人民银行数字货币研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1