纠错方法、装置、设备及可读存储介质制造方法及图纸

技术编号:24996870 阅读:40 留言:0更新日期:2020-07-24 17:59
本发明专利技术涉及人工智能技术领域,公开了一种纠错方法,包括以下步骤:获取待纠错的文本数据,对所述文本数据进行分词处理,得到待转换字符,将所述待转换字符转换为拼音序列,根据所述拼音序列,采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符,将所述正确字符替换所述文本数据中对应的待转换字符。本发明专利技术还公开了一种纠错装置、设备及计算机可读存储介质,从而能够实现对于文本中错误字符的快速纠错,同时在后续使用中,只需将新文本加入至纠错词典中即可,更新成本低,便于维护。

【技术实现步骤摘要】
纠错方法、装置、设备及可读存储介质
本专利技术涉及人工智能
,尤其涉及一种纠错方法、装置、设备及可读存储介质。
技术介绍
随着信息时代的不断发展,我们每天都在接收信息,同时每天也在输出信息,不论是以合种输出方式,如语音输入,输入法输入等都不可避免地存在错误字符,在现有的纠错技术中有通过收集错误字符进行模型训练得到纠错模型的方法,以及制作映射词典进行错误字符和正确字符的一一对应,但是以上方法由于错别字千奇百怪难以对日常所有出现的错误字符进行收集,同时在后续的使用中,由于先前收集错误字符的不足,导致在后续的使用中更新成本太高,难以维护。
技术实现思路
本专利技术的主要目的在于提供一种纠错方法、装置、设备及可读存储介质,旨在解决如何有效进行字符纠错的技术问题。为实现上述目的,本专利技术提供的一种纠错方法,所述纠错方法包括以下步骤:获取待纠错的文本数据,所述文本数据包括用户输入的文本信息和预设的文本模板;对所述文本数据进行分词处理,得到待转换字符,其中所述待转换字符为单个中文字、词组和产品名称中的一种;将所述待转换字符转换为拼音序列;根据所述拼音序列,采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符,其中,所述纠错词典为预先通过观察聊天机器人的聊天语料中常出现错误的字符对应的正确字符的词典;将所述正确字符替换所述文本数据中对应的待转换字符。可选地,通过以下方式得到所述纠错词典:收集所述聊天机器人中的聊天语料;提取所述聊天语料中出现错误且被纠正的字符;将所述字符转换为拼音特征,并建立所述拼音特征与所述字符的映射关系;根据所述多模匹配算法的匹配原理,对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建,得到所述纠错词典。可选地,所述根据所述多模匹配算法的匹配原理,对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建,得到所述纠错词典的步骤,包括:将所有字符对应的拼音特征进行路径化,得到路径特征;提取所述路径特征中拼音的相同部分和不同部分,其中所述相同为至少存在两个连续的音节相同;基于相同部分创建一个主树干;在所述主树干的基础上,创建子树干,其中所述子树干为基于不同部分创建形成,得到所述搜索树形状的纠错词典;其中,所述主树干和子树干上均设有若干个节点,每个节点对应拼音特征中的一个字母或者一个音节。可选地,所述对所述文本数据进行分词处理,得到待转换字符的步骤,包括:设置初始长度为一的可变长度的滑动窗口;基于所述滑动窗口对所述文本数据进行迭代扫描处理,得到待转换字符,其中所述待转换字符为所述滑动窗口所框选的字符。可选地,所述根据所述拼音序列,采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符的步骤包括:利用所述多模匹配算法,查询所述纠错词典中包含所述拼音序列的所有字符;计算每个字符的长度,并从所有字符中选择长度最大的字符,得到第一纠错字符;根据所述第一纠错字符的长度调整所述滑动窗口,从所述文本数据中重新获取待转换字符;比较所述第一纠错字符和重新获取的待转换字符的相似度;若所述相似度大于预设值,则将所述第一接错字符选定为所述正确字符;若所述相似度小于预设值,则从所有的字符中选择所述长度为最小的字符作为所述正确字符。可选地,若所述节点为拼音特征中的一个音节时,所述利用所述多模匹配算法,查询所述纠错词典中包含所述拼音序列的所有字符的步骤包括:根据拼音中的音节划分规则,对所述拼音序列进行音节的划分处理,得到音节序列,所述划分处理为将所述拼音序列中按顺序将声母和韵母组成一个音节后,进行分割处理;根据所述音节序列,依次与所述纠错词典中的主树干和子树干上的节点进行匹配,得到对应的拼音特征;根据所述拼音特征,以及拼音特征与字符的对应关系,确定所述拼音序列的所有字符。可选地,所述根据所述音节序列,依次与所述纠错词典中的主树干和子树干上的节点进行匹配,得到对应的拼音特征包括:将所述音节序列中的音节,依次输入到所述多模匹配算法对应的模型中;通过所述模型,按照所述音节序列中的第一音节排序依次与所述纠错词典中的所有主树干上的第一节点进行匹配;若匹配失败,则读取所述音节序列中的第二音节与所述纠错词典中的所有主树干继续匹配;若匹配成功,则沿着匹配成功的主树干进行所述音节序列中的第二音节与所述主树干的下一节点的匹配,并判断所述下一节点中是否存在所述子树干;若存在,则读取所述音节序列中的第三音节与所述下一节点中的子树干上的第一子节点进行匹配;若匹配成功,则沿着匹配成功的子树干进行所述音节序列中的下一个音节进行匹配;若匹配失败,则读取预置于所述第一节点中的跳转表,将所述音节序列的匹配处理跳转到与其他主树干或者子树干继续匹配。此外,为实现上述目的,本专利技术还提供一种纠错装置,所述纠错装置包括:获取模块,用于获取待纠错的文本数据,所述文本数据包括用户输入的文本信息和预设的文本模板;分词模块,用于对所述文本数据进行分词处理,得到待转换字符,其中所述待转换字符为单个中文字、词组和产品名称中的一种;转换模块,用于将所述待转换字符转换为拼音序列;匹配模块,用于根据所述拼音序列,采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符,其中,所述纠错词典为预先通过观察聊天机器人的聊天语料中常出现错误的字符对应的正确字符的词典;替换模块,用于将所述正确字符对所述文本数据中的待转换字符进行替换。可选地,所述纠错装置还包括词典构建模块,所述词典构建模块包括收集单元、提取单元、拼音单元、构建单元,其中:所述收集单元用于收集所述聊天机器人中的聊天语料;所述提取单元用于提取所述聊天语料中出现错误且被纠正的字符;所述拼音单元用于将所述字符转换为拼音特征,并建立所述拼音特征与所述字符的映射关系;所述构建单元用于根据所述多模匹配算法的匹配原理,对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建,得到所述纠错词典。可选地,所述构建单元用于将所有字符对应的拼音特征进行路径化,得到路径特征;提取所述路径特征中拼音的相同部分和不同部分,其中所述相同为至少存在两个连续的音节相同;基于相同部分创建一个主树干;在所述主树干的基础上,创建子树干,其中所述子树干为基于不同部分创建形成,得到所述搜索树形状的纠错词典;其中,所述主树干和子树干上均设有若干个节点,每个节点对应拼音特征中的一个字母或者一个音节。可选地,所述分词模块包括设置单元,扫描单元,其中:所述设置单元用于设置初始长度为一的可变长度的滑动窗口;所述扫描单元用于基于所述滑动窗口对所述文本数据进行迭代扫描处理,得到待转换字符,其中所述待转换字符为所述滑动窗口所框选的字符。本文档来自技高网...

【技术保护点】
1.一种纠错方法,其特征在于,所述纠错方法包括以下步骤:/n获取待纠错的文本数据,所述文本数据包括用户输入的文本信息和预设的文本模板;/n对所述文本数据进行分词处理,得到待转换字符,其中所述待转换字符为单个中文字、词组和产品名称中的一种;/n将所述待转换字符转换为拼音序列;/n根据所述拼音序列,采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符,其中,所述纠错词典为预先通过观察聊天机器人的聊天语料中常出现错误的字符对应的正确字符的词典;/n将所述正确字符替换所述文本数据中对应的待转换字符。/n

【技术特征摘要】
1.一种纠错方法,其特征在于,所述纠错方法包括以下步骤:
获取待纠错的文本数据,所述文本数据包括用户输入的文本信息和预设的文本模板;
对所述文本数据进行分词处理,得到待转换字符,其中所述待转换字符为单个中文字、词组和产品名称中的一种;
将所述待转换字符转换为拼音序列;
根据所述拼音序列,采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符,其中,所述纠错词典为预先通过观察聊天机器人的聊天语料中常出现错误的字符对应的正确字符的词典;
将所述正确字符替换所述文本数据中对应的待转换字符。


2.如权利要求1所述的纠错方法,其特征在于,所述纠错方法还包括:通过以下方式得到所述纠错词典:
收集所述聊天机器人中的聊天语料;
提取所述聊天语料中出现错误且被纠正的字符;
将所述字符转换为拼音特征,并建立所述拼音特征与所述字符的映射关系;
根据所述多模匹配算法的匹配原理,对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建,得到所述纠错词典。


3.如权利要求2所述的纠错方法,其特征在于,所述根据所述多模匹配算法的匹配原理,对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建,得到所述纠错词典的步骤包括:
将所有字符对应的拼音特征进行路径化,得到路径特征;
提取所述路径特征中拼音的相同部分和不同部分,其中所述相同为至少存在两个连续的音节相同;
基于相同部分创建一个主树干;
在所述主树干的基础上,创建子树干,其中所述子树干为基于不同部分创建形成,得到所述搜索树形状的纠错词典;
其中,所述主树干和子树干上均设有若干个节点,每个节点对应拼音特征中的一个字母或者一个音节。


4.如权利要求1-3任一项所述的纠错方法,其特征在于,所述对所述文本数据进行分词处理,得到待转换字符的步骤包括:
设置初始长度为一的可变长度的滑动窗口;
基于所述滑动窗口对所述文本数据进行迭代扫描处理,得到待转换字符,其中所述待转换字符为所述滑动窗口所框选的字符。


5.如权利要求4所述的纠错方法,其特征在于,所述根据所述拼音序列,采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符的步骤包括:
利用所述多模匹配算法,查询所述纠错词典中包含所述拼音序列的所有字符;
计算每个字符的长度,并从所有字符中选择长度最大的字符,得到第一纠错字符;
根据所述第一纠错字符的长度调整所述滑动窗口,从所述文本数据中重新获取待转换字符;
比较所述第一纠错字符和重新获取的待转换字符的相似度;
若所述相似度大于预设值,则将所述第一接错字符选定为所述正确字符;
若所述相似度小于预设值,则从所有的字符中选择所述长度为最小的字...

【专利技术属性】
技术研发人员:曾增烽刘东煜
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1