当前位置: 首页 > 专利查询>之江实验室专利>正文

基于实体词属性特征和回译的中文金融文本数据增强方法技术

技术编号:34926110 阅读:53 留言:0更新日期:2022-09-15 07:19
本发明专利技术公开了一种基于实体词属性特征和回译的中文金融文本数据增强方法。该方法包括:首先对输入的金融文本进行文本预处理工作;紧接着,通过命名实体识别和词汇匹配的方法对金融文本中翻译难度较大的实体词使用指代字符进行实体词指代替换以生成金融文本的中间文本和指代字符

【技术实现步骤摘要】
基于实体词属性特征和回译的中文金融文本数据增强方法


[0001]本专利技术涉及自然语言处理、金融两个交叉领域,具体是一种基于实体词属性特征和回译的中文金融文本数据增强方法。

技术介绍

[0002]文本数据增强是自然语言处理(Natural Language Processing,NLP)中一项基础且重要的技术,是应用NLP技术处理下游任务过程中重要的一环。然而,由于文本离散化,字与字、字与词、词与词之间存在较强前后关系的特点,通常更改其中的某个字或某个词,尤其是核心词时,会导致句子的语义与原意产生巨大差异,使得文本数据增强存在一定的难度。因此,当前中文文本增强技术、尤其是金融领域的文本增强技术生成的文本质量尚存在巨大的提升空间。现阶段中文文本增强方法及其优缺点主要存在以下几点:
[0003](1)token的增删查改:常见的有同义词替换,同音词替换,字符的随机插入、删除、替换等。这类方法的优势是方法简单、直观,缺点是生成的文本与原文本之间的语法结构极为相似,多样性不足,生成的新文本在语义上较为依赖中文分词模型的性能及加载的近义词等相关词本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于实体词属性特征和回译的中文金融文本数据增强方法,其特征在于,包括以下步骤:(1)将金融文本依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作;(2)识别并抽取步骤(1)处理好的金融文本中的实体词,将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典;其中实体词的属性特征包括:公司名实体词、金融名词实体词、货币描述实体词、人名实体词及时间实体词,公司名包含股票名、公司名全称、公司名简称、公司名别称以及公司曾用名;指代字符

实体词映射关系形式如下::{c1:com1,c2:com2,c3:com3...},{f1:fin1,f2:fin2,f3:fin3...},{m1:mon1,m2:mon2,m3:mon3...},{p1:per1,p2:per2,p3:per3...},{t1:time1,t2:time2,t3:time3...},其中,c代表公司名实体词、f代表金融名词实体词、m代表货币描述实体词、p代表人名实体词、t代表时间描述实体词;(3)使用通用的机器学习翻译算法将金融文本的中间结果翻译成其他语种的文本;然后,通过机器学习翻译算法将其他语种的文本结果再次翻译为中文文本,完成回译;(4)使用步骤(2)生成的映射关系字典复原步骤(3)回译后金融文本中的指代字符。2.根据权利要求1所述的基于实体词属性特征和回译的中文金融文本数据增强方法,其特征在于,所述步骤(2)中,金融文本中的实体词为公司名实体词,所述将抽取的实体词使用指代字符进行指代替换以生成金融文本的中间结果和指代字符和实体词之间的映射关系字典包括以下子步骤:(2.1)收集带有公司名实体识别的有标签数据集,并将文本中公司名实体词的位置标志为1,其他位置标志为0;以BERT和MLP模型为基础构建命名实体识别模型;将经过步骤(1)处理的有标签数据输入命名实体识别模型进行训练;然后,将需要增强的金融文本输入训练后的命名实体识别模型,得到实体命名识别模型识别出的公司名实体词列表练后的命名实体识别模型,得到实体命名识别模型识别出的公司名实体词列表(2.2)引入公司名实体词词库,建立公司名实体词字典树,根据该公司名实体词字典树使用前向最大匹配算法抽取待增强的金融文本中包含的公司名实体词使用前向最大匹配算法抽取待增强的金融文本中包含的公司名实体词将公司名实体词词库中的所有公司名实体词以空格为隔断拼接生成公司名长字符串Com
str
;所述公司名实体词词库包含股票名、公司名全称、公司名简称、公司名别称以及公司曾用名;(2.3)建立公司名实体词黑名单Com
black
和歧义公司名实体词列表Com
diff
;公司名实体词黑名单Com
black
包括指代性公司名实体词;歧义公司名实体词列表Com
diff
包括既是公司名简称实体词、又可以表示人名实体词或其他实体词的实体词;(2.4)将命名实体识别模型得到的每个公司名实体词与公司名实体词黑名单Com
black
和公司名实体词长字符串Com
str
进...

【专利技术属性】
技术研发人员:李栓刘智胡汉一卢冰洁胡明睿
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1