【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其涉及一种实体关系提取的方法和装置。
技术介绍
1、自然语言处理是指用计算机处理自然语言。它是研究人与计算机进行通信的各种方法。在信息时代,从文本中提取关键信息,将会有利于文本的整理、分类和利用。自然语言处理又分为命名实体识别、关系识别等基础任务。
2、随着深度学习的发展,基于深度学习的自然语言处理在充分的数据训练下,可以达到很高的精度。但是,数据集内容的充分性和域内知识的相关性对模型的效果有很大影响。提高数据质量、数据数量可以提升模型的性能、泛化能力和鲁棒性。
3、然而,现实中用于自然语言处理的数据集往往存在数据量不足,数据类别分布不均匀的现象。例如,在实体关系提取任务中,只有少部分的关系拥有足够的三元组,针对这样的少样本情况,会导致学习模型的效果较差。
技术实现思路
1、有鉴于此,本专利技术实施例提供一种实体关系提取的方法和装置,能够批量生成数据较少的关系类别对应的扩充数据集,从而实现对各种数据类型的扩充,平衡了数据类别;同时,通过
...【技术保护点】
1.一种实体关系提取的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,根据预设的实体集和所述语句模板生成扩充数据集,包括:
3.根据权利要求1所述的方法,其特征在于,对所述合并数据集中的每条数据进行实体关系标注,包括:
4.根据权利要求3所述的方法,其特征在于,结合实体在数据中的位置对所述合并数据集中的每条数据的实体关系进行标注,包括:
5.根据权利要求4所述的方法,其特征在于,结合所述数据的实体关系标注结果生成所述增强数据的实体关系标注结果,包括:
6.根据权利要求1所述的方法,其特征在
...【技术特征摘要】
1.一种实体关系提取的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,根据预设的实体集和所述语句模板生成扩充数据集,包括:
3.根据权利要求1所述的方法,其特征在于,对所述合并数据集中的每条数据进行实体关系标注,包括:
4.根据权利要求3所述的方法,其特征在于,结合实体在数据中的位置对所述合并数据集中的每条数据的实体关系进行标注,包括:
5.根据权利要求4所述的方法,其特征在于,结合所述数据的实体关系标注结果生成所述增强数据的实体关系标注结果,包括:
6.根据权利要求1所述的方法,其特征在于,提取每条数据对应的子句、实体和非实体词语,包括...
【专利技术属性】
技术研发人员:张雷,邱小霞,赵新宇,卢腾,
申请(专利权)人:中国人民银行数字货币研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。