文本纠错方法、装置、设备及存储介质制造方法及图纸

技术编号：25522628 阅读：23 留言：0更新日期：2020-09-04 17:12

本申请实施例提供了一种文本纠错方法、装置、设备及存储介质；所述方法包括：采用预设混淆字库，对待纠错文本中的至少一个混淆字符进行替换，得到第一文本集合；在所述第一文本集合中，确定满足预设条件的候选文本；采用所述预设混淆字库，对所述候选文本中的至少一个混淆字符进行替换，得到第二文本集合；根据所述第二文本集合，遍历存储有与所述待纠错文本所属领域相同的至少两个词语的领域词库，得到与第二文本相匹配的目标文本；这样，通过采用混淆字库和领域词库对待纠错文本进行纠错，能够对领域专有名词进行纠错，从而提高了对文本进行纠错的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
文本纠错方法、装置、设备及存储介质
本申请涉及文本处理
，尤其涉及文本纠错方法、装置、设备及存储介质。
技术介绍
对文字进行识别的过程中，进行文字纠错的候选集由全量词典生成，查找候选字时，全量检索会造成搜索的空间过大，耗时较长；而且在形近字错误纠错的场景下，不同形近字组成的词的词向量可能会比较接近，无法保证区分的正确率。
技术实现思路
本申请实施例提供一种文本纠错方法、装置、设备及存储介质，通过采用混淆字库和领域词库对待纠错文本进行纠错，能够对领域专有名词进行纠错，从而提高了对文本进行纠错的准确度。本申请实施例的技术方案是这样实现的：第一方面，本申请实施例提供一种文本纠错方法，包括：采用预设混淆字库，对待纠错文本中的至少一个混淆字符进行替换，得到第一文本集合；在所述第一文本集合中，确定满足预设条件的候选文本；采用所述预设混淆字库，对所述候选文本中的至少一个混淆字符进行替换，得到第二文本集合；根据所述第二文本集合，遍历存储有与所述待纠错文本所属领域相同的至少两个词语的领域词库，得到与第二文本相匹配的目标文本。第二方面，本申请实施例提供一种文本纠错装置，所述装置包括：第一替换模块，用于采用预设混淆字库，对待纠错文本中的至少一个混淆字符进行替换，得到第一文本集合；第一确定模块，用于在所述第一文本集合中，确定满足预设条件的候选文本；第二替换模块，用于采用所述预设混淆字库，对所述候选文本中的至少一个混淆字符进行替换，得到第...

【技术保护点】
1.一种文本纠错方法，其特征在于，所述方法包括：/n采用预设混淆字库，对待纠错文本中的至少一个混淆字符进行替换，得到第一文本集合；/n在所述第一文本集合中，确定满足预设条件的候选文本；/n采用所述预设混淆字库，对所述候选文本中的至少一个混淆字符进行替换，得到第二文本集合；/n根据所述第二文本集合，遍历存储有与所述待纠错文本所属领域相同的至少两个词语的领域词库，得到与第二文本相匹配的目标文本。/n

【技术特征摘要】
1.一种文本纠错方法，其特征在于，所述方法包括：
采用预设混淆字库，对待纠错文本中的至少一个混淆字符进行替换，得到第一文本集合；
在所述第一文本集合中，确定满足预设条件的候选文本；
采用所述预设混淆字库，对所述候选文本中的至少一个混淆字符进行替换，得到第二文本集合；
根据所述第二文本集合，遍历存储有与所述待纠错文本所属领域相同的至少两个词语的领域词库，得到与第二文本相匹配的目标文本。

2.根据权利要求1所述的方法，其特征在于，所述采用预设混淆字库，对所述待纠错文本中的至少一个混淆字符进行替换，得到第一文本集合，包括：
在所述预设混淆字库中，确定字形与所述待纠错文本中字符的字形之间的相似度大于等于第一预设相似度阈值的第一混淆字集合；
采用所述第一混淆字集合中的至少一个混淆字，对所述待纠错文本中对应的字符进行替换，得到所述第一文本集合。

3.根据权利要求1所述的方法，其特征在于，所述在所述第一文本集合中，确定满足预设条件的候选文本，包括：
确定所述第一文本集合中第一文本的每一字符出现的第一概率；
根据所述每一字符出现的第一概率，确定所述每一字符所属第一文本出现的第二概率；
将第二概率大于等于预设概率阈值的第一文本确定为所述候选文本。

4.根据权利要求1所述的方法，其特征在于，所述采用所述预设混淆字库，对所述候选文本中的至少一个混淆字符进行替换，得到第二文本集合，包括：
在所述预设混淆字库中，确定字形与所述候选文本中字符的字形之间的相似度，大于等于第二预设相似度阈值的第二混淆字集合；
采用所述第二混淆字集合中的至少一个混淆字，对所述候选文本中对应的字符进行替换，得到所述第二文本集合。

5.根据权利要求1至4任一项所述的方法，其特征在于，在所述采用预设混淆字库，对所述待纠错文本中相对应的至少一个混淆字符进行替换，得到第一文本集合之前，所述方法还包括：
获取至少...

【专利技术属性】
技术研发人员：洪科元，李斌，章秦，苏晨，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人