当前位置: 首页 > 专利查询>河北省讯飞人工智能研究院科大讯飞股份有限公司专利>正文

多语言文本检测与纠错方法、系统、电子设备及存储介质技术方案

技术编号：32915615 阅读：70 留言：0更新日期：2022-04-07 12:06

本发明专利技术提供一种多语言文本检测与纠错方法、系统、电子设备及存储介质，所述方法包括获取待检测文本，并对所述待检测文本进行多语言字符识别以得到至少一个待识别语句；对所述待识别语句中的目标语言的字符进行语种检测，得到待检测语种单词，并对所述待检测语种单词进行拼写检测和语义检测；若至少一个所述待检测语种单词存在拼写错误和/或语义错误，则对存在拼写错误和/或语义错误的单词进行对应的拼写纠错和/或语义纠错。本发明专利技术可以更好地理解跨语言语境下的文本语义，对文本中的所有目标语言的字符进行检测并只对检测有错误的单词进行纠正。进行纠正。进行纠正。

全部详细技术资料下载

【技术实现步骤摘要】
多语言文本检测与纠错方法、系统、电子设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种多语言文本检测与纠错方法、系统、电子设备及存储介质。

技术介绍

[0002]现有的一些纠错技术方案，无论是基于规则还是基于神经网络，都只能针对单一语种背景的文本进行纠错，而没有考虑到语码转换的情况，例如“小张真是个gafe”(西班牙俚语：倒霉鬼)。基于中文语境下出现的外文字符，就有可能出现拼写错误和语义错误，导致系统出现跨语言文本的语义理解错误的问题。

技术实现思路

[0003]本专利技术提供一种多语言文本检测与纠错方法、系统、电子设备及存储介质，用以解决现有技术中对跨语言文本的语音理解错误的问题。
[0004]第一方面，本专利技术提供一种多语言文本检测与纠错方法，所述方法包括：
[0005]获取待检测文本，并对所述待检测文本进行多语言字符识别以得到至少一个待识别语句，所述待识别语句包含主干语言的字符以及至少一种目标语言的字符，所述主干语言与所述目标语言不同；
[0006]对所述...

【技术保护点】

【技术特征摘要】
1.一种多语言文本检测与纠错方法，其特征在于，所述方法包括：获取待检测文本，并对所述待检测文本进行多语言字符识别以得到至少一个待识别语句，所述待识别语句包含主干语言的字符以及至少一种目标语言的字符，所述主干语言与所述目标语言不同；对所述待识别语句中的目标语言的字符进行语种检测，得到待检测语种单词，并对所述待检测语种单词进行拼写检测和语义检测；若至少一个所述待检测语种单词存在拼写错误和/或语义错误，则对存在拼写错误和/或语义错误的单词进行对应的拼写纠错和/或语义纠错。2.根据权利要求1所述的多语言文本检测与纠错方法，其特征在于，所述获取待检测文本，并对所述待检测文本进行多语言字符识别以得到至少一个待识别语句包括：对所述待检测文本进行数据清洗，以删除所述待检测文本中的非法字符以及编码错误导致的乱码；对所述待检测文本进行分句，得到所述至少一个待识别语句，并删除每个所述待识别语句的句首和句尾的空白字符；识别所述待识别语句的字符，并且在存在目标语言的字符的情况下，记录所述目标语言的字符在所述待识别语句中的位置。3.根据权利要求1所述的多语言文本检测与纠错方法，其特征在于，所述对所述待识别语句中的目标语言的字符进行语种检测包括：将存在目标语言的字符的待识别语句输入预设语种检测模型；所述预设语种检测模型基于序列标注机制对输入的所述待识别语句进行分词，并输出所述待识别语句中存在的目标语言的单词对应的语种。4.根据权利要求3所述的多语种文本检测与纠错方法，其特征在于，所述预设语种检测模型基于序列标注机制对输入的所述待识别语句进行分词，并输出所述待识别语句中存在的目标语言的单词对应的语种包括：对所述待识别语句进行分词，得到具有至少一个分词的分词列表，并将所述分词列表的首位和末尾分别添加预设的特殊字符，以表示开始和结束；将所述分词列表中的每个分词映射到对应的标识号，以得到标识号列表；将所述标识号列表输入所述预设语种检测模型的嵌入层以将其转换成具有第一预设维度的第一矩阵；将所述第一矩阵输入所述预设语种检测模型的多层transformer进行计算，以输出具有第二预设维度的第二矩阵；将所述第二矩阵输入所述预设语种检测模型的全连接层，并对所述全连接层的输出进行归一化计算，得到每个标识号所对应分词的语种概率；根据每个分词的语种概率确定其对应的语种。5.根据权利要求1所述的多语言文本检测与纠错方法，其特征在于，所述对所述待检测语种单词进行拼写检测和语义检测：将每个所述待检测语种单词输入预设拼写检测模型，以检测是否存在拼写错误；若所述预设拼写检测模型检测出每个所述待检测语种单词不存在拼写错误，则将包含至少一个所述待检测语种单词的待检测语句输入预设语义检测模型，以检测是否存在语义
错误；若所述待检测语句不存在语义错误，则将所述待检测语句对应的待检测文本作为已检测文本返回。6.根据权利要求5所述的多语言文本检测与纠错方法，其特征在于，所述若至少一个所述待检测语种单词存在拼写错误和/或语义错误，则对存在拼写错误和/或语义错误的单词进行对应的拼写纠错和/或语义纠错包括：若所述待检测语种单词存在拼写错误，则将所述待检测语种单词输入预设拼写纠错模型，以进行拼写纠错处理；将包含经过拼写纠错处理的所述待检测语种单词的待检测语句输入至所述预设语义检测模型，以检测是否存在语义错误；若所述待检测语句不存在语义错误，则将所述拼写纠错后的待检测语句对应的待检测文本作为已检测文本返回。7.根据权利要求6所述的多语言文本检测与纠错方法，其特征在于，所述若至少一个所述待检测语种单词存在拼写错误和/或语义错误，则对存在拼写错误和/或语义错误的单词进行对应的拼写纠错和/或语义纠错包括：若所述待检测语句存在语义错误，则将所述待检测语句输入预设语义纠错模型，以进行语义纠错处理；将所述语义纠错后的待检测语句对应的待检测文本作为已检测文本返回。8.根据权利要求5所述的多语言文本检测与纠错方法，其特征在于，在所述将每个所述待检测语种单词输入预设拼写检测模型，以检测是否存在拼写错误之前，所述方法还包括：将预设数量的参考语种单词输入所述预设拼写检测模型的编码器进行编码处理，所述预设数量的参考语种单词包括已标注的正确拼写单词集合和错误拼写单词集合；对经过编码后的每个单词进行分词并将分词结果输入所述预设拼写检测模型的隐藏层，以及抽取所述隐藏层的输出，以得到每个单词的多种表示；将每个单词的所述多种表示在各自空间进行聚合处理，以得到所述正确拼写单词集合和所述错误拼写单词集合的聚类结果。9.根据权利要求8所述的多语言文本检测与纠错方法，其特征在于，所述将每个所述待检测语种单词输入预设拼...

【专利技术属性】
技术研发人员：杨子清，韦菁，崔一鸣，伍大勇，陈志刚，
申请(专利权)人：河北省讯飞人工智能研究院科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人