细粒度自适应字音预测任务辅助的中文拼写纠错方法技术

技术编号：35432327 阅读：13 留言：0更新日期：2022-11-03 11:37

本发明专利技术涉及自然语言理解领域，公开了一种细粒度自适应字音预测任务辅助的中文拼写纠错方法，在多模态语言模型进行中文拼写纠错的基础上，为模型设计了一个细粒度的发音预测的辅助任务，并且为辅助任务设置一个自适应权重，可以引导模型正确地利用发音信息帮助中文拼写纠错；本发明专利技术还设计一种有约束的迭代策略，在能够解决具有连续错别字的困难样本的同时，也能一定程度上避免过度纠正的问题。也能一定程度上避免过度纠正的问题。也能一定程度上避免过度纠正的问题。

全部详细技术资料下载

【技术实现步骤摘要】
细粒度自适应字音预测任务辅助的中文拼写纠错方法

[0001]本专利技术涉及自然语言理解领域，具体涉及一种细粒度自适应字音预测任务辅助的中文拼写纠错方法。

技术介绍

[0002]随着语音识别技术、光学字符识别等智能信息转换系统的广泛应用以及键盘写作的普及，识别错误和拼写错误的场景不可避免，那么就越来越需要计算机系统能够更准确地理解和纠正人类语言。另外，在许多自然语言处理领域的应用中，文本纠错都是这些应用的重要组成部分，比如搜索优化，机器翻译，词性标注。而且相比较其他语言，中文的汉字众多，更加容易出现用词不规范，拼写错误导致的文本错误。因此，中文拼写纠错技术具有很高的研究价值与实用价值。
[0003]现有的中文拼写纠错技术多采用基于多模态模型进行端到端地预测纠正文本的方法。由于中文拼写错误一般是由正误字符之间发音相近导致的，那么使用多模态模型对字音和语义分别进行编码，从而联合预测纠正文本，这种方法是合理的。然而这里存在缺陷：对于新引入的字音编码，虽然可以提取文本的发音信息，但是发音信息在中文拼写纠错上的利用方式是没有显式的优化的，即没有设置显式的辅助任务来引导模型利用发音信息更好的进行中文拼写纠错，大部分纠错技术没有考虑到这一点。另外，在拼写错误中往往会出现连续错别字的困难样本，以及在纠错过程中模型往往会出现过度纠正的问题，这都会导致模型纠错性能的下降。

技术实现思路

[0004]为解决上述技术问题，本专利技术提供一种细粒度自适应字音预测任务辅助的中文拼写纠错方法。以提升拼写纠错的表现。本专利技术...

【技术保护点】

【技术特征摘要】
1.一种细粒度自适应字音预测任务辅助的中文拼写纠错方法，通过字音预测辅助任务来引导多模态语言模型利用发音信息进行在中文拼写纠错；多模态语言模型的训练步骤包括：步骤一：将含错文本送到多模态编码器进行文本编码，将编码结果通过不同的映射得到字符编码和字音编码，将字符编码和字音编码分别输入至汉字解码器和字音解码器中，解码出纠正字符以及纠正字符对应的字音；其中，映射得到字音编码并解码出纠正字符对应字音的过程即为字音预测辅助任务；步骤二：字音预测辅助任务的自适应权重计算：文本第i个位置的纠正字符的优化目标；文本第i个位置的纠正字符对应字音的优化目标文本第i个位置的纠正字符对应字音的优化目标；其中分别表示第i个位置的纠正字符及对应的字音；为文本长度，表示预测为纠正字符对应字音的概率，表示预测为纠正字符的概率；字音预测辅助任务的自适应权重字音预测辅助任务的自适应权重；其中表示文本中第i个位置的错误字符的编码结果经过映射后的字音编码，表示第i个位置的纠正字符的字音编码；表示文本第i个位置的错误字符和纠正字符的字音编码余弦相似度；多模态语言模型的最终训练时的优化目标；通过训练完成的多模态语言模型对含错文本进行拼写纠错。2.根据权利要求1所述的细粒度自适应字音预测任务辅助的中文拼写纠错方法，其特征在于：多模态编码器进行文本编码时，文本中第i个位置的错误字符即文本中第i个单词，文本中第i...

【专利技术属性】
技术研发人员：毛震东，张勇东，王泉，郭俊波，靳国庆，李佳豪，
申请(专利权)人：北京邮电大学人民网股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人