【技术实现步骤摘要】
中文文本的自动纠错方法、装置、设备以及存储介质
本专利技术涉及自然语言处理
,尤其涉及一种中文文本的自动纠错方法、装置、计算机设备以及存储介质。
技术介绍
中文文本自动纠错是一项用于检查中文文本中是否存在语法或者语义错误,并对存在的错误进行自动纠正的技术,其被广泛地应用于键盘输入法、文档编辑、搜索引擎、语音识别等领域。在目前的中文文本自动纠错方法中,在进行中文文本的嵌入时,通常使用的嵌入形式为字符嵌入、段落嵌入和位置嵌入这三种形式,导致目前的中文文本自动纠错方法在进行自动纠错时只会综合中文文本的字符因素、段落因素以及位置因素等进行文本的纠正,未能够综合其他因素进行文本的纠正,如,中文文本中出现的是错误是由于同音、模糊音等拼音因素导致的错误(如,正确的中文文本为“施华洛世奇”,而错误的中文文本为“诗华洛世奇”)时,目前的中文文本自动纠错方法通常未能准确地对该类错误进行自动纠正。可见,目前的中文文本自动纠错方法自动纠错的准确率仍有提升的空间。
技术实现思路
本专利技术所要解决的技术问题在于,目前的中文文本自动纠错方法未能对拼音因素导致的错误进行准确的纠错,导致目前的中文文本自动纠错方法的自动纠错准确率不高。为了解决上述技术问题,本专利技术第一方面公开了一种中文文本的自动纠错方法,所述方法包括:对目标中文文本执行预设的字符转换操作,得到包含所述目标中文文本中每个字符的字符序列;对所述目标中文文本执行预设的拼音转换操作,得到包含所述目标中文文本中每个字符对应的拼音字符的拼音序 ...
【技术保护点】
1.一种中文文本的自动纠错方法,其特征在于,所述方法包括:/n对目标中文文本执行预设的字符转换操作,得到包含所述目标中文文本中每个字符的字符序列;/n对所述目标中文文本执行预设的拼音转换操作,得到包含所述目标中文文本中每个字符对应的拼音字符的拼音序列;/n将所述字符序列和所述拼音序列输入至预设的字符拼音嵌入层进行分析,得到所述目标中文文本对应的文本特征向量;/n将所述文本特征向量输入至预设的bert网络进行分析,得到所述目标中文文本中每个字符对应的候选字符列表;/n将所述目标中文文本中每个字符对应的候选字符列表输入至预设的语言分析模型进行分析,得到所述目标中文文本对应的纠错中文文本;/n将所述目标中文文本替换为所述纠错中文文本,以完成对所述目标中文文本的自动纠错。/n
【技术特征摘要】
1.一种中文文本的自动纠错方法,其特征在于,所述方法包括:
对目标中文文本执行预设的字符转换操作,得到包含所述目标中文文本中每个字符的字符序列;
对所述目标中文文本执行预设的拼音转换操作,得到包含所述目标中文文本中每个字符对应的拼音字符的拼音序列;
将所述字符序列和所述拼音序列输入至预设的字符拼音嵌入层进行分析,得到所述目标中文文本对应的文本特征向量;
将所述文本特征向量输入至预设的bert网络进行分析,得到所述目标中文文本中每个字符对应的候选字符列表;
将所述目标中文文本中每个字符对应的候选字符列表输入至预设的语言分析模型进行分析,得到所述目标中文文本对应的纠错中文文本;
将所述目标中文文本替换为所述纠错中文文本,以完成对所述目标中文文本的自动纠错。
2.根据权利要求1所述的中文文本的自动纠错方法,其特征在于,所述字符拼音嵌入层中包含有预设的字符向量表和拼音向量表;
以及,所述将所述字符序列和所述拼音序列输入至预设的字符拼音嵌入层进行分析,得到所述目标中文文本对应的文本特征向量,包括:
从所述字符向量表中查找所述字符序列中的每个字符所对应的字符向量值;
根据所述字符序列中的每个字符所对应的字符向量值生成所述字符序列对应的字符向量;
从所述拼音向量表中查找所述拼音序列中的每个拼音字符所对应的拼音向量值;
根据所述拼音序列中的每个拼音字符所对应的拼音向量值生成所述拼音序列对应的拼音向量;
计算所述字符向量和所述拼音向量的加权和,以作为所述目标中文文本对应的文本特征向量。
3.根据权利要求1或2所述的中文文本的自动纠错方法,其特征在于,所述将所述目标中文文本中每个字符对应的候选字符列表输入至预设的语言分析模型进行分析,得到所述目标中文文本对应的纠错中文文本,包括:
根据所述目标中文文本中每个字符对应的候选字符列表确定出所述目标中文文本对应的多个候选纠错中文文本;
基于预设的计算方式计算每个所述候选纠错中文文本的出现概率值;
将最大的出现概率值所对应的所述候选纠错中文文本确定为所述目标中文文本对应的纠错中文文本。
4.根据权利要求3所述的中文文本的自动纠错方法,其特征在于,所述基于预设的计算方式计算每个所述候选纠错中文文本的出现概率值,包括:
通过以下公式计算每个所述候选纠错中文文本的出现概率值:
Ppath=P(c1c2…cn)=P(c1)P(c2|c1)P(c3|c2)…P(cn|cn-1)
其中,Ppath是该候选纠错中文文本的出现概率值,c1到cn是该候选纠错中文文本中的每个字符,P(c1)是指以c1字符为开头的候选纠错中文文本的数量与候选纠错中文文...
【专利技术属性】
技术研发人员:吴晓东,
申请(专利权)人:平安国际智慧城市科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。