文本自动纠错方法、装置、电子设备及存储介质制造方法及图纸

技术编号：32581250 阅读：28 留言：0更新日期：2022-03-09 17:12

本申请涉及一种文本自动纠错方法、装置、电子设备及存储介质，结合了字词层面和句子层面的纠错方式进行纠错，在保证纠错效率的前提下，可以对文本进行更全面有效的纠错，该方法包括：对输入文本进行错误检测，以确定出所述输入文本中包含的易错词条；生成每个易错词条对应的正确候选词条，基于每个易错词条对应的正确候选词条以及易错词条在所述输入文本中的位置，构建多个候选纠错结果并添加到候选结果集合中；基于下游纠错模型获得所述输入文本对应的若干候选纠错结果，并添加到所述候选结果集合中；对所述候选结果集合中的候选纠错结果进行排序，基于排序结果获得所述输入文本对应的纠错结果。应的纠错结果。应的纠错结果。

全部详细技术资料下载

【技术实现步骤摘要】
文本自动纠错方法、装置、电子设备及存储介质

[0001]本申请涉及自然语言处理
，尤其涉及一种文本自动纠错方法、装置、电子设备及存储介质。

技术介绍

[0002]随着信息技术的快速发展，越来越多的用户可以通过计算机访问各种信息系统或网站。然而，用户在网站搜索内容时难免会输入错误的搜索数据或查询内容，从而导致系统或网站向用户展示了不是用户想要的数据。目前主流的技术方案中，大多比较依赖用户的搜索和点击日志数据，基于搜索和点击日志数据通过概率学方式将较为可能的候选项返回给用户。针对在没有用户日志的前提，项目处于冷启动阶段时行之有效的搜索自动纠错方案相对较少且纠错效果不佳。

技术实现思路

[0003]本申请实施例提供一种文本自动纠错方法、装置、电子设备及存储介质，提供一种在项目冷启动阶段时行之有效的文本自动纠错方案。
[0004]第一方面，本申请一实施例提供了一种文本自动纠错方法，包括：
[0005]对输入文本进行错误检测，以确定出所述输入文本中包含的易错词条；
[0006]生成每个易错...

【技术保护点】

【技术特征摘要】
1.一种文本自动纠错方法，其特征在于，包括：对输入文本进行错误检测，以确定出所述输入文本中包含的易错词条；生成每个易错词条对应的正确候选词条，基于每个易错词条对应的正确候选词条以及易错词条在所述输入文本中的位置，构建多个候选纠错结果并添加到候选结果集合中；基于下游纠错模型获得所述输入文本对应的若干候选纠错结果，并添加到所述候选结果集合中；对所述候选结果集合中的候选纠错结果进行排序，基于排序结果获得所述输入文本对应的纠错结果。2.根据权利要求1所述的方法，其特征在于，所述对输入文本进行错误检测，包括：对所述输入文本进行分词处理，以获得若干分词；对于包含拼音的分词，将分词中的拼音转换为中文，并将转换后的分词确定为易错词条；对于仅包含中文的分词，将分词转换为对应的拼音，再将对应的拼音转换为中文，以获得转换后的分词，若转换后的分词和对应的原始分词不一致、且转换后的分词和原始分词的文本相似度大于相似度阈值，则将转换后的分词确定为易错候选词条，获取由易错候选词条对应的原始分词和位于原始分词前后的若干分词组成的原始文本，用易错候选词条替换原始文本中的原始分词，以获得拼接文本，利用语言模型分别计算原始文本和拼接文本的语言得分，若拼接文本的语言得分大于原始文本的语言得分，则将原始分词确定为易错词条。3.根据权利要求2所述的方法，其特征在于，所述将分词中的拼音转换为中文，包括：基于预先构建的初始概率分布、状态转移概率分布和状态
‑
观测值概率分布，结合维特比算法，找到将分词中的拼音转换为中文的最优路径，用最优路径对应的中文替换分词中的拼音，以获得转换后的分词，其中，所述初始概率分布记录了每个字处于文本开始位置的概率，所述状态转移概率分布记录了一个字转移到另外一个字的概率，所述状态
‑
观测值概率分布记录了某个字是某个读音的概率分布。4.根据权利要求1所述的方法，其特征在于，所述错误检测包括以下至少一种检测方式：检测所述输入文本中是否存在属于易错混淆集合的词语，将属于易错混淆集合的词语确定为易错词条；或对所述输入文本进行分词处理，将不属于预设词典的分词确定为易错词条；或按照2
‑
gram模型将所述输入文本切分成若干二元分词，利用语言模型获得每个二元分词的语言得分；按照3
‑
gram模型将所述输入文本切分成若干三元分词，利用语言模型获得每个三元分词的语言得分；针对所述输入文本中每个位置的字，根据包含该位置的字的二元分词和三元分词的语言得分，确定该位置的字的语言得分；基于每个位置的字的语言得分和预设的得分阈值，确定出所述输入文本中的易错位置，基于易错位置的字获得易错词条。5.根据权利要求1至4任一项所述的方法，其特征在于，所述生成每个易错词条对应的正确候选词条，包括：对易错词条中的每个字，用对应的同音字、音似字、形似字、易混淆字进行替换，以获得
易错词条对应的若干正确候选词条；和/或通过预测模型对所述输入文本中易错词条所在位置进行掩码操作...

【专利技术属性】
技术研发人员：张俊峰，王艳飞，胡茂海，胡碧峰，刘庆，
申请(专利权)人：和美深圳信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人