针对富文本文档解析的多语言对齐方法和系统技术方案

技术编号:45348537 阅读:7 留言:0更新日期:2025-05-27 19:04
本发明专利技术提供了一种针对富文本文档解析的多语言对齐方法和系统,包括:数据增强步骤:在不改变目标文档语义内容的前提下,生成不同语言的文档数据,首先是根据目标单据语料库构建多语言词典,再基于多语言词典利用词表替换的方式进行数据增强,生成对齐语义的多语言文档数据;多语言对齐训练步骤:基于已有的文档编码器,在编码空间中将相同语义不同语言的文档的表征对齐,从而实现文档的多语言语义对齐。本发明专利技术提出的数据增强支持多种语言,且是无监督方案,不依赖标签,根据无标注文档数据即可进行生成对齐语义的多语言文档数据;训练过程中不依赖标注数据,可以方便地扩大训练规模,节约数据标注成本。

【技术实现步骤摘要】

本专利技术涉及数据增强和多语言对齐,具体地,涉及一种针对富文本文档解析的多语言对齐方法和系统。


技术介绍

1、本专利技术涉及多语言富文本文档理解任务以及跨语言的文本对齐。富文本文档理解(vrdu)是一种针对富文本文档进行理解并抽取其中结构化信息的技术。富文本文档包含大量的文本、布局、格式信息,是人们日常生活中十分常用且重要的文件形式,例如贸易单据、小票、物流单、证照等。然而处理这类文档需要耗费大量的人力与时间成本,比如提取信息、数据比对等等任务。因此引发了众多利用神经网络进行自动化富文本文档解析的探索。本专利技术针对富文本文档理解中的命名实体识别任务(ner)提出,即解析文档并识别其中的标题、问题及相应的回答,例如小票中的“订单号”、“交易日期”等等字段。

2、富文本文档常以图片或者pdf等类似的格式存储,且与常规自然语言处理不同,富文本文档中往往没有大段的自然文本,文本之间的位置信息对解析任务也是十分重要的信息。因此仅仅使用文本作为输入效果较差,目前业界效果比较好的方案是layoutlm及其变种,这类方案联合建模了文档图像的文本和布局信息之间本文档来自技高网...

【技术保护点】

1.一种针对富文本文档解析的多语言对齐方法,其特征在于,包括:

2.根据权利要求1所述的针对富文本文档解析的多语言对齐方法,其特征在于,多语言词典构建过程为:

3.根据权利要求1所述的针对富文本文档解析的多语言对齐方法,其特征在于,数据增强以边界框为单位进行增强,对于文档数据的文本模态,先进行提取并清洗,后经过多语言分词器,保持相同的分词策略和粒度,此时边界框中的文本为词汇列表的形式,按照预设比例阈值在列表中随机选取词汇,在多语词典查询待替换词,查询过程中优先域内词典,若在域内词典中查询失败,再去通用词典中查询,若通用词典中查询仍失败,则继续去词汇列表中随机选取,...

【技术特征摘要】

1.一种针对富文本文档解析的多语言对齐方法,其特征在于,包括:

2.根据权利要求1所述的针对富文本文档解析的多语言对齐方法,其特征在于,多语言词典构建过程为:

3.根据权利要求1所述的针对富文本文档解析的多语言对齐方法,其特征在于,数据增强以边界框为单位进行增强,对于文档数据的文本模态,先进行提取并清洗,后经过多语言分词器,保持相同的分词策略和粒度,此时边界框中的文本为词汇列表的形式,按照预设比例阈值在列表中随机选取词汇,在多语词典查询待替换词,查询过程中优先域内词典,若在域内词典中查询失败,再去通用词典中查询,若通用词典中查询仍失败,则继续去词汇列表中随机选取,直至满足比例阈值要求或者词汇列表中所有查询成功的词汇全部取出;在词表查询之后,针对待替换词将得到多个多语言同义词,在这些同义词中进行随机选取并替换原词;

4.根据权利要求1所述的针对富文本文档解析的多语言对齐方法,其特征在于,对数据增强后的文档数据,利用通用的文档编码器针对边界框进行编码,针对每一个边界框,编码的结果是一个1×768维的向量表征,记为hi,表达式为:

5.根据权利要求4所述的针对富文本文档解析的多语言对齐方法,其特征在于,通过对比学习构建正负例,设计对比学习损失函数,将正例对的表征拉近,将负例对的表征拉远,以此实现跨语言的表征对齐,表达式为:

...

【专利技术属性】
技术研发人员:郭建铭刘功申李小勇
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1