The present invention provides an error correction method and a device for text data, which belongs to the field of text processing. The method includes: obtaining the corresponding error correction for voice commands for correcting text data correction correction to the characteristics and the error correction information; error correction information includes at least the wrong words and / or error correction term; error correction rules according to the custom error correction character word matching corresponding, according to the definition of error correction rules and error correcting words and / or words of error correction to text data. The personalized speech error correction rules custom error correction rules for users, so that the user can according to their own language definition of error correction rules, and not in accordance with the basic rules of the fixed form of error correction and error correction to say voice commands, process more intelligent and convenient, improve the user experience.
【技术实现步骤摘要】
文本数据的纠错方法及装置
本专利技术实施例涉及文本处理领域,更具体地,涉及一种文本数据的纠错方法及装置。
技术介绍
随着人工智能相关技术的日益成熟,越来越多的智能设备进入用户的生活中,人与机器的交互日渐平常。其中,语音输入是人机交互中最自然且最便捷的方式,它可以解放人的双手,从而使用范围越来越广泛。目前,语音输入的过程通常是由智能设备将用户输入的语音数据转化为文本数据,从而对文本数据进行显示或者基于文本数据执行相应的指令。另外,现在许多的智能设备还提供语音纠错的功能,即让用户可以通过语音输入的方式对智能设备显示的文本数据进行纠错,从而可进一步解放了人的双手,大大提高了用户体验。相关技术中在对文本数据进行纠错时,通常需要预先设置较多的纠错规则,用户必需按照预先设置的规则说出相应的纠错语音指令,系统才可正确找到错误词或纠错词,从而对待纠错文本数据进行纠错。当用户说的纠错语音指令在纠错系统中没有找到匹配的预先设置的纠错规则时,则无法对待纠错文本数据进行纠错。
技术实现思路
为了解决上述问题,本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的文本数据的纠错方法及 ...
【技术保护点】
一种文本数据的纠错方法,其特征在于,包括:获取用于对待纠错文本数据进行纠错的纠错语音指令所对应的纠错特征词和纠错信息;所述纠错信息至少包括错误词和/或纠错词;根据所述纠错特征词匹配对应的自定义纠错规则,根据所述自定义纠错规则以及所述错误词和/或所述纠错词,对所述待纠错文本数据进行纠错;其中,所述自定义纠错规则为用户自定义的个性化语音纠错规则,所述自定义纠错规则与纠错系统中预先设置的基本纠错规则各自所包括的纠错特征词不同。
【技术特征摘要】
1.一种文本数据的纠错方法,其特征在于,包括:获取用于对待纠错文本数据进行纠错的纠错语音指令所对应的纠错特征词和纠错信息;所述纠错信息至少包括错误词和/或纠错词;根据所述纠错特征词匹配对应的自定义纠错规则,根据所述自定义纠错规则以及所述错误词和/或所述纠错词,对所述待纠错文本数据进行纠错;其中,所述自定义纠错规则为用户自定义的个性化语音纠错规则,所述自定义纠错规则与纠错系统中预先设置的基本纠错规则各自所包括的纠错特征词不同。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若判断获知首次使用所述自定义纠错规则纠错失败且使用所述纠错系统中的基本纠错规则纠错成功,将所述自定义纠错规则与纠错成功所使用的基本纠错规则作为同一功能的纠错规则,并在所述纠错系统中添加所述自定义纠错规则;和/或,获取所述自定义纠错规则对应的添加指令,根据所述添加指令在所述纠错系统中添加所述自定义纠错规则。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述待纠错文本数据进行分词,获取第一分词结果;基于自定义指代词库,若判断获知所述第一分词结果对应的各分词中存在自定义指代词,确定所述各分词中存在的自定义指代词在所述自定义指代词库中所对应的替换词,并基于所述替换词替换所述待纠错文本数据中对应的分词。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:根据历史操作记录,生成对应的自定义指代词及替换词,并添加至所述自定义指代词库中。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述待纠错文本数据进行分词处理,获取第二分词结果;将所述第二分词结果中各分词与历史纠错记录进行匹配,根据得到的匹配结果对所述待纠错文本数据进行纠错。6.根据权利要求5所述的方法,其特征在于,所述历史纠错记录至少包括纠错词及错误词;相应地,将所述第二分词结果中各分词与历史纠错记录进行匹配,根据得到的匹配结果对所述待纠错文本数据进行纠错,包括:若判断获知所述各分词中存在与所述历史纠错记录中的错误词相匹配的分词,根据所述历史纠错记录中的纠错词,对所述待纠错文本数据中对应的分词进行纠错。7.根据权利要求6所述的方法,其特征在于,所述根据所述历史纠错记录中的纠错词,对所述待纠错文本数据中对应的分词进行纠错,包括:若判断获知所述历史纠错记录对应的纠错操作次数大于预设阈值,将所述历史纠错记录中的纠错词替换所述待纠错文本数据中对应的分词;和/或,在将所述历史纠错记录中的纠错词替换所述待纠错文本数据中对应的分词后,将得到的替换结果输入至预设语言模型中输出得到第一分值,将所述待纠错文本数据输入至所述预设语言模型中输出得到第二分值,若所述第一分值大于所述第二分值,则将所述替换结果作为对所述待纠错文本数据进行纠错后的结果。8.一种文本数据的纠错装置,其特征在于,包括:第一获取模块,用于获取用于对待纠错文本数据进行纠错的纠错语音指令所对应的纠错特征词和纠错信息;所述纠错信息至少包括错误词和/或纠错词;第一纠错模块,用于根据所...
【专利技术属性】
技术研发人员:刘迪源,潘嘉,刘聪,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。