【技术实现步骤摘要】
纠错方法、装置、设备及可读存储介质
本专利技术涉及人工智能
,尤其涉及一种纠错方法、装置、设备及可读存储介质。
技术介绍
随着信息时代的不断发展,我们每天都在接收信息,同时每天也在输出信息,不论是以合种输出方式,如语音输入,输入法输入等都不可避免地存在错误字符,在现有的纠错技术中有通过收集错误字符进行模型训练得到纠错模型的方法,以及制作映射词典进行错误字符和正确字符的一一对应,但是以上方法由于错别字千奇百怪难以对日常所有出现的错误字符进行收集,同时在后续的使用中,由于先前收集错误字符的不足,导致在后续的使用中更新成本太高,难以维护。
技术实现思路
本专利技术的主要目的在于提供一种纠错方法、装置、设备及可读存储介质,旨在解决如何有效进行字符纠错的技术问题。为实现上述目的,本专利技术提供的一种纠错方法,所述纠错方法包括以下步骤:获取待纠错的文本数据,所述文本数据包括用户输入的文本信息和预设的文本模板;对所述文本数据进行分词处理,得到待转换字符,其中所述待转换字符为单个中文字、词组和产品名称中的一种;将所述待转换字符转换为拼音序列;根据所述拼音序列,采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符,其中,所述纠错词典为预先通过观察聊天机器人的聊天语料中常出现错误的字符对应的正确字符的词典;将所述正确字符替换所述文本数据中对应的待转换字符。可选地,通过以下方式得到所述纠错词典:收集所述聊天机器人中的聊天语料; ...
【技术保护点】
1.一种纠错方法,其特征在于,所述纠错方法包括以下步骤:/n获取待纠错的文本数据,所述文本数据包括用户输入的文本信息和预设的文本模板;/n对所述文本数据进行分词处理,得到待转换字符,其中所述待转换字符为单个中文字、词组和产品名称中的一种;/n将所述待转换字符转换为拼音序列;/n根据所述拼音序列,采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符,其中,所述纠错词典为预先通过观察聊天机器人的聊天语料中常出现错误的字符对应的正确字符的词典;/n将所述正确字符替换所述文本数据中对应的待转换字符。/n
【技术特征摘要】
1.一种纠错方法,其特征在于,所述纠错方法包括以下步骤:
获取待纠错的文本数据,所述文本数据包括用户输入的文本信息和预设的文本模板;
对所述文本数据进行分词处理,得到待转换字符,其中所述待转换字符为单个中文字、词组和产品名称中的一种;
将所述待转换字符转换为拼音序列;
根据所述拼音序列,采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符,其中,所述纠错词典为预先通过观察聊天机器人的聊天语料中常出现错误的字符对应的正确字符的词典;
将所述正确字符替换所述文本数据中对应的待转换字符。
2.如权利要求1所述的纠错方法,其特征在于,所述纠错方法还包括:通过以下方式得到所述纠错词典:
收集所述聊天机器人中的聊天语料;
提取所述聊天语料中出现错误且被纠正的字符;
将所述字符转换为拼音特征,并建立所述拼音特征与所述字符的映射关系;
根据所述多模匹配算法的匹配原理,对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建,得到所述纠错词典。
3.如权利要求2所述的纠错方法,其特征在于,所述根据所述多模匹配算法的匹配原理,对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建,得到所述纠错词典的步骤包括:
将所有字符对应的拼音特征进行路径化,得到路径特征;
提取所述路径特征中拼音的相同部分和不同部分,其中所述相同为至少存在两个连续的音节相同;
基于相同部分创建一个主树干;
在所述主树干的基础上,创建子树干,其中所述子树干为基于不同部分创建形成,得到所述搜索树形状的纠错词典;
其中,所述主树干和子树干上均设有若干个节点,每个节点对应拼音特征中的一个字母或者一个音节。
4.如权利要求1-3任一项所述的纠错方法,其特征在于,所述对所述文本数据进行分词处理,得到待转换字符的步骤包括:
设置初始长度为一的可变长度的滑动窗口;
基于所述滑动窗口对所述文本数据进行迭代扫描处理,得到待转换字符,其中所述待转换字符为所述滑动窗口所框选的字符。
5.如权利要求4所述的纠错方法,其特征在于,所述根据所述拼音序列,采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符的步骤包括:
利用所述多模匹配算法,查询所述纠错词典中包含所述拼音序列的所有字符;
计算每个字符的长度,并从所有字符中选择长度最大的字符,得到第一纠错字符;
根据所述第一纠错字符的长度调整所述滑动窗口,从所述文本数据中重新获取待转换字符;
比较所述第一纠错字符和重新获取的待转换字符的相似度;
若所述相似度大于预设值,则将所述第一接错字符选定为所述正确字符;
若所述相似度小于预设值,则从所有的字符中选择所述长度为最小的字...
【专利技术属性】
技术研发人员:曾增烽,刘东煜,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。