【技术实现步骤摘要】
一种面向文档图像翻译的有噪文本语句切分方法
[0001]本专利技术涉及自然语言处理
,特别是涉及一种面向文档图像翻译的有噪文本语句切分方法
。
技术介绍
[0002]文档图像翻译是指利用计算机系统自动地将文档图像中包含的源语言翻译成目标语言
。
目前常见的文档图像翻译方法首先对文档图像进行文本检测和识别,得到纯文本段落,再对纯文本段落进行语句切分,将切分好的自然句输入到机器翻译系统中进行翻译,语句切分的连贯性和准确性直接影响了后续机器翻译的性能,文本检测识别阶段,会出现文本漏识
、
错识的问题,尤其是标点符号的漏识和错识,相比于在干净文本段落上进行语句切分,这些噪声让切分问题变得更加困难
。
[0003]目前常用的语句切分方法是利用标点,借助正则表达式进行切分,然而对于有噪文本,仅仅使用规则方法进行切分并不能得到理想的自然句
。
因此,现有的基于规则的面向文档图像翻译的有噪文本语句切分方法,无法满足实际使用中的需求,所以市面上迫切需要能改进的技术,
【技术保护点】
【技术特征摘要】
1.
一种面向文档图像翻译的有噪文本语句切分方法,其特征在于:包括如下步骤;步骤一:在干净纯文本数据集的基础上模拟构建包含多种识别噪声的有噪文本数据集,获得输入数据,对所述输入数据进行预处理;步骤二:对所述输入数据进行编码,使用
BERT
预训练语言模型对待处理文本进行编码完成词嵌入,获取动态词向量,再通过
Bi
‑
LSTM
模型进一步对所述动态词向量提取特征,获得文本向量;步骤三:对比学习,所述对比学习包括将所述干净纯文本与多种有噪文本分别计算对比损失;步骤四:计算分类模型损失,所述分类模型损失包括将文本向量输入到
CRF
模型,得到每个字的预测类别,计算分类结果和标准答案之间的损失;步骤五:损失融合,所述损失融合包括将对比学习损失
、
分类模型损失加权求和得到最终的训练损失;步骤六:将所述最终的训练损失进行梯度回传,更新模型参数
。2.
根据权利要求1所述的一种面向文档图像翻译的有噪文本语句切分方法,其特征在于,对所述输入数据进行处理,具体包括:取所述干净纯文本段落数据集,设定每一条输入模型的样本长度为
N
个字符,采用滑动窗口的处理方法,对整个所述纯文本数据集进行窗口滑动,每次窗口滑动的字数为
M
,获得多个干净纯文本原始训练样本
。3.
根据权利要求2所述的一种面向文档图像翻译的有噪文本语句切分方法,其特征在于,对所述干净纯文本原始训练样本进行处理,具体包括:对每条所述干净纯文本原始训练样本模拟添加多种噪声,通过以一定比例删除
、
替换标点和其他文本,模拟构造多组的漏识噪声样本
、
错识噪声样本与干净纯文本样本,以及进行删除操作又进行替换操作,模拟构造多组既含有漏识噪声又含有错识噪声的混合噪声样本
。4.
根据权利要求3所述的一种面向文档图像翻译的...
【专利技术属性】
技术研发人员:邓彪,翟飞飞,白书航,
申请(专利权)人:北京中科凡语科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。