System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本纠错方法、装置、相关设备及计算机程序产品制造方法及图纸_技高网

文本纠错方法、装置、相关设备及计算机程序产品制造方法及图纸

技术编号:41251849 阅读:2 留言:0更新日期:2024-05-10 00:00
本申请公开了一种文本纠错方法、装置、相关设备及计算机程序产品,本申请分别采用通用词典和目标领域的专业词典对待纠错文本进行分词,得到第一分词结果和第二分词结果,由第一分词结果确定通用词典向量,由第二分词结果确定专业词典向量,对两种词典向量进行融合,基于融合向量确定待纠错文本对应的纠错后文本。通用词典向量涵盖了待纠错文本中可能存在的一般性错误信息,专业词典向量涵盖了待纠错文本中可能存在的目标领域下专业词汇的拼写错误信息,基于融合向量确定待纠错文本的纠错后文本,保证了本申请方案对常见的一般性错误的纠错能力,以及对特定垂类领域的专业词汇的拼写错误的纠错能力,大大提升了文本纠错效果。

【技术实现步骤摘要】

本申请涉及自然语言处理,更具体的说,是涉及一种文本纠错方法、装置、相关设备及计算机程序产品


技术介绍

1、在自然语言处理领域,文本纠错任务属于一种比较常见的任务,其任务目标是对于用户提供的带有缺失、冗余、语序不当等错误的文本信息,帮助用户对错误语句进行修改,得到最终的正确语句,省去用户校对文本的时间,避免因人工疏忽等导致的文本信息错误,在教育、医疗、新闻、政法等多个领域都有重要的实用价值。

2、当前的语法纠错方法主要采用基于神经机器翻译(neural machine tranlation,nmt)的纠错模型,其直接学习源文本(即可能包含错误的文本)到目标文本(纠错后的正确文本)的映射,不需要复杂的特征工程,且对训练集中未出现过的句子也能较好地纠错,泛化能力好。基于nmt的纠错模型主要包括基于序列到序列(seq2seq)的模型,以及基于序列到编辑(seq2edit)的模型。以基于序列到编辑的模型为例,其典型的模型结构如gector模型。gector模型本质上是一个序列标注模型,它的解码空间是插入、删除、替换等编辑操作,将四大基本操作(保持(tag$keep)、删除(tag$del)、增加(tag$append)、替换(tag$replace))和自定义操作(g-transformations),映射到5000维的edit空间中(4971基本操作,29g-transformations)。gector模型结构可以参照图1所示,其由bert编码器、双层线性层linear和softmax层组成。图1示例了采用gector模型对输入的源文本进行纠错的过程。

3、在通用领域文本纠错任务上,gector模型的纠错效果不错,其在国际标准测试集conll-2014和bea-2019上都达到了sota(state-of-the-art,即当前最高水平),其f0.5值(衡量纠错精确率的一个指标)分别为0.653和0.724。但是,在一些特定的垂类领域,如英文科技文献领域等,由于文本中专有词较多,采用gector模型纠错效果不佳。经实验证明,在人工标注的英文科技文献纠错测试集上,gector模型的f0.5值仅为0.3034,较通用领域下的标准测试集的纠错效果下降较多。因此,如何提升对特定垂类领域下文本的纠错效果,成为本领域技术人员亟待解决的问题。


技术实现思路

1、鉴于上述问题,提出了本申请以便提供一种文本纠错方法、装置、相关设备及计算机程序产品,以提升对特定垂类领域文本的纠错效果。具体方案如下:

2、第一方面,提供了一种文本纠错方法,包括:

3、对于目标领域下的待纠错文本,采用通用词典对所述待纠错文本进行分词得到第一分词结果,采用所述目标领域相关的专业词典对所述待纠错文本进行分词得到第二分词结果;

4、确定并组合所述第一分词结果中各分词的词向量,得到所述待纠错文本的通用词典向量,确定并组合所述第二分词结果中各分词的词向量,得到所述待纠错文本的专业词典向量;

5、对所述通用词典向量和所述专业词典向量进行融合,基于融合向量确定所述待纠错文本对应的纠错后文本。

6、在一种可能的设计中,在本申请实施例的第一方面的另一种实现方式中,还包括:

7、对所述待纠错文本进行句法依存分析,得到由所述待纠错文本中各分词间的依存关系组成的依存关系列表;

8、确定并组合所述依存关系列表中各依存关系的词向量,得到所述待纠错文本的句法依存向量,并将所述句法依存向量与所述通用词典向量和所述专业词典向量进行融合,得到所述融合向量。

9、在一种可能的设计中,在本申请实施例的第一方面的另一种实现方式中,所述目标领域相关的专业词典包括所述目标领域专业词的词根及表示非专业词词根的第一标识;则采用所述目标领域相关的专业词典对所述待纠错文本进行分词得到第二分词结果的过程,包括:

10、基于所述专业词典中的词根及所述第一标识,对所述待纠错文本中每个分词进行分词操作,得到第二分词结果。

11、在一种可能的设计中,在本申请实施例的第一方面的另一种实现方式中,确定并组合所述第二分词结果中各分词的词向量,得到所述待纠错文本的专业词典向量的过程,包括:

12、根据所述第二分词结果中每一分词在所述专业词典中的索引位置,确定每一分词的词向量,组合所述第二分词结果中各分词的词向量,得到所述待纠错文本的专业词典向量。

13、在一种可能的设计中,在本申请实施例的第一方面的另一种实现方式中,所述专业词典的构建过程,包括:

14、获取所述目标领域下与所述待纠错文本相同语种的语料数据;

15、采用预训练的专业词汇分类模型,对所述语料数据进行专业词汇分类,得到所述语料数据中包含的专业词汇,其中,所述专业词汇分类模型采用标注有专业词汇标签的训练语料训练得到;

16、对所述语料数据中包含的专业词汇进行分词操作,得到各所述专业词汇的词根,由各所述专业词汇的词根及表示非专业词词根的第一标识组成所述专业词典。

17、在一种可能的设计中,在本申请实施例的第一方面的另一种实现方式中,确定并组合所述依存关系列表中各依存关系的词向量,得到所述待纠错文本的句法依存向量的过程,包括:

18、根据所述依存关系列表中每一依存关系在依存关系词典中的索引位置,确定每一依存关系的词向量,组合所述依存关系列表中各依存关系的词向量,得到所述待纠错文本的句法依存向量。

19、在一种可能的设计中,在本申请实施例的第一方面的另一种实现方式中,对所述通用词典向量和所述专业词典向量进行融合,基于融合向量确定所述待纠错文本对应的纠错后文本的过程,包括:

20、利用预配置的第一纠错模型对所述通用词典向量和所述专业词典向量进行融合,并基于融合向量确定所述待纠错文本对应的纠错后文本;

21、所述第一纠错模型采用源文本的通用词典向量及专业词典向量作为训练样本,采用所述源文本对应的纠错后文本作为样本标签训练得到。

22、在一种可能的设计中,在本申请实施例的第一方面的另一种实现方式中,所述第一纠错模型包括:

23、第一编码层、第一权重归一化层及第一解码层;

24、则利用预配置的第一纠错模型对所述通用词典向量和所述专业词典向量进行融合,并基于融合向量确定所述待纠错文本对应的纠错后文本的过程,包括:

25、利用所述第一编码层分别对所述通用词典向量和所述专业词典向量进行编码,得到通用词典编码向量和专业词典编码向量;

26、利用所述第一权重归一化层将所述通用词典编码向量、所述专业词典编码向量分别与各自的权重矩阵相乘后进行向量拼接融合,并将融合后向量的维度转换至原维度;

27、利用所述第一解码层对最后一个所述第一权重归一化层输出的融合向量进行解码,得到与所述待纠错文本中各分词对应的编辑操作,并按照所述编辑操作对对应分词进行编辑,得到纠正后文本本文档来自技高网...

【技术保护点】

1.一种文本纠错方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,还包括:

3.根据权利要求1所述的方法,其特征在于,所述目标领域相关的专业词典包括所述目标领域专业词的词根及表示非专业词词根的第一标识;则采用所述目标领域相关的专业词典对所述待纠错文本进行分词得到第二分词结果的过程,包括:

4.根据权利要求1所述的方法,其特征在于,确定并组合所述第二分词结果中各分词的词向量,得到所述待纠错文本的专业词典向量的过程,包括:

5.根据权利要求1所述的方法,其特征在于,所述专业词典的构建过程,包括:

6.根据权利要求2所述的方法,其特征在于,确定并组合所述依存关系列表中各依存关系的词向量,得到所述待纠错文本的句法依存向量的过程,包括:

7.根据权利要求1所述的方法,其特征在于,对所述通用词典向量和所述专业词典向量进行融合,基于融合向量确定所述待纠错文本对应的纠错后文本的过程,包括:

8.根据权利要求7所述的方法,其特征在于,所述第一纠错模型包括:

9.根据权利要求2所述的方法,其特征在于,将所述句法依存向量与所述通用词典向量和所述专业词典向量进行融合,基于融合向量确定所述待纠错文本对应的纠错后文本的过程,包括:

10.根据权利要求9所述的方法,其特征在于,所述第二纠错模型包括:

11.根据权利要求7所述的方法,其特征在于,所述第一纠错模型训练过程包括三个阶段,第一阶段采用人工合成的全错误训练集训练模型,第二阶段采用真实的通用领域的纠错训练集训练模型,第三阶段采用真实的所述目标领域的纠错训练集训练模型。

12.根据权利要求9所述的方法,其特征在于,所述第二纠错模型训练过程包括三个阶段,第一阶段采用人工合成的全错误训练集训练模型,第二阶段采用真实的通用领域的纠错训练集训练模型,第三阶段采用真实的所述目标领域的纠错训练集训练模型。

13.一种文本纠错装置,其特征在于,包括:

14.一种文本纠错设备,其特征在于,包括:存储器和处理器;

15.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~12中任一项所述的文本纠错方法的各个步骤。

16.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1~12中任一项所述的文本纠错方法的各个步骤。

...

【技术特征摘要】

1.一种文本纠错方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,还包括:

3.根据权利要求1所述的方法,其特征在于,所述目标领域相关的专业词典包括所述目标领域专业词的词根及表示非专业词词根的第一标识;则采用所述目标领域相关的专业词典对所述待纠错文本进行分词得到第二分词结果的过程,包括:

4.根据权利要求1所述的方法,其特征在于,确定并组合所述第二分词结果中各分词的词向量,得到所述待纠错文本的专业词典向量的过程,包括:

5.根据权利要求1所述的方法,其特征在于,所述专业词典的构建过程,包括:

6.根据权利要求2所述的方法,其特征在于,确定并组合所述依存关系列表中各依存关系的词向量,得到所述待纠错文本的句法依存向量的过程,包括:

7.根据权利要求1所述的方法,其特征在于,对所述通用词典向量和所述专业词典向量进行融合,基于融合向量确定所述待纠错文本对应的纠错后文本的过程,包括:

8.根据权利要求7所述的方法,其特征在于,所述第一纠错模型包括:

9.根据权利要求2所述的方法,其特征在于,将所述句法依存向量与所述通用词典向量和所述专业词典向量进行融...

【专利技术属性】
技术研发人员:张轶鑫王宝鑫伍大勇王士进
申请(专利权)人:河北省讯飞人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1