中文文本的自动纠错方法、装置、设备以及存储介质制造方法及图纸

技术编号:29134038 阅读:17 留言:0更新日期:2021-07-02 22:29
本发明专利技术公开了一种中文文本的自动纠错方法,包括:对目标中文文本执行预设的字符转换操作和拼音转换操作,得到包含目标中文文本中每个字符的字符序列和拼音序列;将字符序列和拼音序列输入至预设的字符拼音嵌入层进行分析,得到目标中文文本对应的文本特征向量;将文本特征向量输入至预设的bert网络进行分析,得到目标中文文本中每个字符对应的候选字符列表;将目标中文文本中每个字符对应的候选字符列表输入至预设的语言分析模型进行分析,得到目标中文文本对应的纠错中文文本;将目标中文文本替换为纠错中文文本。可见,本发明专利技术能够综合中文文本的拼音因素进行文本的纠正,提高自动纠错的准确率。本发明专利技术还涉及区块链技术领域。

【技术实现步骤摘要】
中文文本的自动纠错方法、装置、设备以及存储介质
本专利技术涉及自然语言处理
,尤其涉及一种中文文本的自动纠错方法、装置、计算机设备以及存储介质。
技术介绍
中文文本自动纠错是一项用于检查中文文本中是否存在语法或者语义错误,并对存在的错误进行自动纠正的技术,其被广泛地应用于键盘输入法、文档编辑、搜索引擎、语音识别等领域。在目前的中文文本自动纠错方法中,在进行中文文本的嵌入时,通常使用的嵌入形式为字符嵌入、段落嵌入和位置嵌入这三种形式,导致目前的中文文本自动纠错方法在进行自动纠错时只会综合中文文本的字符因素、段落因素以及位置因素等进行文本的纠正,未能够综合其他因素进行文本的纠正,如,中文文本中出现的是错误是由于同音、模糊音等拼音因素导致的错误(如,正确的中文文本为“施华洛世奇”,而错误的中文文本为“诗华洛世奇”)时,目前的中文文本自动纠错方法通常未能准确地对该类错误进行自动纠正。可见,目前的中文文本自动纠错方法自动纠错的准确率仍有提升的空间。
技术实现思路
本专利技术所要解决的技术问题在于,目前的中文文本自动纠错方法未能对拼音因素导致的错误进行准确的纠错,导致目前的中文文本自动纠错方法的自动纠错准确率不高。为了解决上述技术问题,本专利技术第一方面公开了一种中文文本的自动纠错方法,所述方法包括:对目标中文文本执行预设的字符转换操作,得到包含所述目标中文文本中每个字符的字符序列;对所述目标中文文本执行预设的拼音转换操作,得到包含所述目标中文文本中每个字符对应的拼音字符的拼音序列;将所述字符序列和所述拼音序列输入至预设的字符拼音嵌入层进行分析,得到所述目标中文文本对应的文本特征向量;将所述文本特征向量输入至预设的bert网络进行分析,得到所述目标中文文本中每个字符对应的候选字符列表;将所述目标中文文本中每个字符对应的候选字符列表输入至预设的语言分析模型进行分析,得到所述目标中文文本对应的纠错中文文本;将所述目标中文文本替换为所述纠错中文文本,以完成对所述目标中文文本的自动纠错。本专利技术第二方面公开了一种中文文本的自动纠错装置,所述装置包括:转换模块,用于对目标中文文本执行预设的字符转换操作,得到包含所述目标中文文本中每个字符的字符序列;所述转换模块,还用于对所述目标中文文本执行预设的拼音转换操作,得到包含所述目标中文文本中每个字符对应的拼音字符的拼音序列;分析模块,用于将所述字符序列和所述拼音序列输入至预设的字符拼音嵌入层进行分析,得到所述目标中文文本对应的文本特征向量;所述分析模块,还用于将所述文本特征向量输入至预设的bert网络进行分析,得到所述目标中文文本中每个字符对应的候选字符列表;所述分析模块,还用于将所述目标中文文本中每个字符对应的候选字符列表输入至预设的语言分析模型进行分析,得到所述目标中文文本对应的纠错中文文本;替换模块,用于将所述目标中文文本替换为所述纠错中文文本,以完成对所述目标中文文本的自动纠错。本专利技术第三方面公开了一种计算机设备,所述计算机设备包括:存储有可执行程序代码的存储器;与所述存储器连接的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,执行本专利技术第一方面公开的中文文本的自动纠错方法中的部分或全部步骤。本专利技术第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本专利技术第一方面公开的中文文本的自动纠错方法中的部分或全部步骤。本专利技术实施例中,对目标中文文本执行字符转换操作和拼音转换操作以得到目标中文文本对应的字符序列和拼音序列,将字符序列和拼音序列输入至字符拼音嵌入层进行分析以得到目标中文文本对应的文本特征向量,将文本特征向量输入至bert网络进行分析以得到目标中文文本中每个字符对应的候选字符列表,将候选字符列表输入至语言分析模型进行分析以得到目标中文文本对应的纠错中文文本,最后将目标中文文本替换为纠错中文文本以完成自动纠错,从而能够在目前的中文文本自动纠错方法中引起拼音嵌入,使得中文文本自动纠错方法能够综合中文文本的拼音因素进行文本的纠正,提高自动纠错的准确率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例公开的一种中文文本的自动纠错方法的流程示意图;图2是本专利技术实施例公开的一种中文文本的自动纠错装置的结构示意图;图3是本专利技术实施例公开的一种计算机设备的结构示意图;图4是本专利技术实施例公开的一种计算机存储介质的结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本专利技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。本专利技术公开了一种中文文本的自动纠错方法、装置、计算机设备以及存储介质,对目标中文文本执行字符转换操作和拼音转换操作以得到目标中文文本对应的字符序列和拼音序列,将字符序列和拼音序列输入至字符拼音嵌入层进行分析以得到目标中文文本对应的文本特征向量,将文本特征向量输入至bert网络进行分析以得到目标中文文本中每个字符对应的候选字符列表,将候选字符列表输入至语言分析模型进行分析以得到目标中文文本对应的纠错中文文本,最后将目标中文文本替换为纠错中文文本以完成自动纠错,从而能够在目前的中文文本自动纠错方法中引起拼音嵌入,使得中文文本自动纠错方法能够综合中文文本的拼音因素进行文本的纠正,提高自动纠错的准确率。以下分别进行详细说明。实施例一请参阅图1,图1是本专利技术实施例公开的一种中文文本的自动纠错方法的流程示意图。如图1所示,该中文文本的自动纠错方法可以包括以下操作:101、对目标中文文本执行预设的字符转换操作,得到本文档来自技高网
...

【技术保护点】
1.一种中文文本的自动纠错方法,其特征在于,所述方法包括:/n对目标中文文本执行预设的字符转换操作,得到包含所述目标中文文本中每个字符的字符序列;/n对所述目标中文文本执行预设的拼音转换操作,得到包含所述目标中文文本中每个字符对应的拼音字符的拼音序列;/n将所述字符序列和所述拼音序列输入至预设的字符拼音嵌入层进行分析,得到所述目标中文文本对应的文本特征向量;/n将所述文本特征向量输入至预设的bert网络进行分析,得到所述目标中文文本中每个字符对应的候选字符列表;/n将所述目标中文文本中每个字符对应的候选字符列表输入至预设的语言分析模型进行分析,得到所述目标中文文本对应的纠错中文文本;/n将所述目标中文文本替换为所述纠错中文文本,以完成对所述目标中文文本的自动纠错。/n

【技术特征摘要】
1.一种中文文本的自动纠错方法,其特征在于,所述方法包括:
对目标中文文本执行预设的字符转换操作,得到包含所述目标中文文本中每个字符的字符序列;
对所述目标中文文本执行预设的拼音转换操作,得到包含所述目标中文文本中每个字符对应的拼音字符的拼音序列;
将所述字符序列和所述拼音序列输入至预设的字符拼音嵌入层进行分析,得到所述目标中文文本对应的文本特征向量;
将所述文本特征向量输入至预设的bert网络进行分析,得到所述目标中文文本中每个字符对应的候选字符列表;
将所述目标中文文本中每个字符对应的候选字符列表输入至预设的语言分析模型进行分析,得到所述目标中文文本对应的纠错中文文本;
将所述目标中文文本替换为所述纠错中文文本,以完成对所述目标中文文本的自动纠错。


2.根据权利要求1所述的中文文本的自动纠错方法,其特征在于,所述字符拼音嵌入层中包含有预设的字符向量表和拼音向量表;
以及,所述将所述字符序列和所述拼音序列输入至预设的字符拼音嵌入层进行分析,得到所述目标中文文本对应的文本特征向量,包括:
从所述字符向量表中查找所述字符序列中的每个字符所对应的字符向量值;
根据所述字符序列中的每个字符所对应的字符向量值生成所述字符序列对应的字符向量;
从所述拼音向量表中查找所述拼音序列中的每个拼音字符所对应的拼音向量值;
根据所述拼音序列中的每个拼音字符所对应的拼音向量值生成所述拼音序列对应的拼音向量;
计算所述字符向量和所述拼音向量的加权和,以作为所述目标中文文本对应的文本特征向量。


3.根据权利要求1或2所述的中文文本的自动纠错方法,其特征在于,所述将所述目标中文文本中每个字符对应的候选字符列表输入至预设的语言分析模型进行分析,得到所述目标中文文本对应的纠错中文文本,包括:
根据所述目标中文文本中每个字符对应的候选字符列表确定出所述目标中文文本对应的多个候选纠错中文文本;
基于预设的计算方式计算每个所述候选纠错中文文本的出现概率值;
将最大的出现概率值所对应的所述候选纠错中文文本确定为所述目标中文文本对应的纠错中文文本。


4.根据权利要求3所述的中文文本的自动纠错方法,其特征在于,所述基于预设的计算方式计算每个所述候选纠错中文文本的出现概率值,包括:
通过以下公式计算每个所述候选纠错中文文本的出现概率值:
Ppath=P(c1c2…cn)=P(c1)P(c2|c1)P(c3|c2)…P(cn|cn-1)
其中,Ppath是该候选纠错中文文本的出现概率值,c1到cn是该候选纠错中文文本中的每个字符,P(c1)是指以c1字符为开头的候选纠错中文文本的数量与候选纠错中文文...

【专利技术属性】
技术研发人员:吴晓东
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1