中文文本的自动纠错方法、装置、设备以及存储介质制造方法及图纸

技术编号：29134038 阅读：34 留言：0更新日期：2021-07-02 22:29

本发明专利技术公开了一种中文文本的自动纠错方法，包括：对目标中文文本执行预设的字符转换操作和拼音转换操作，得到包含目标中文文本中每个字符的字符序列和拼音序列；将字符序列和拼音序列输入至预设的字符拼音嵌入层进行分析，得到目标中文文本对应的文本特征向量；将文本特征向量输入至预设的bert网络进行分析，得到目标中文文本中每个字符对应的候选字符列表；将目标中文文本中每个字符对应的候选字符列表输入至预设的语言分析模型进行分析，得到目标中文文本对应的纠错中文文本；将目标中文文本替换为纠错中文文本。可见，本发明专利技术能够综合中文文本的拼音因素进行文本的纠正，提高自动纠错的准确率。本发明专利技术还涉及区块链技术领域。

全部详细技术资料下载

【技术实现步骤摘要】
中文文本的自动纠错方法、装置、设备以及存储介质
本专利技术涉及自然语言处理
，尤其涉及一种中文文本的自动纠错方法、装置、计算机设备以及存储介质。
技术介绍
中文文本自动纠错是一项用于检查中文文本中是否存在语法或者语义错误，并对存在的错误进行自动纠正的技术，其被广泛地应用于键盘输入法、文档编辑、搜索引擎、语音识别等领域。在目前的中文文本自动纠错方法中，在进行中文文本的嵌入时，通常使用的嵌入形式为字符嵌入、段落嵌入和位置嵌入这三种形式，导致目前的中文文本自动纠错方法在进行自动纠错时只会综合中文文本的字符因素、段落因素以及位置因素等进行文本的纠正，未能够综合其他因素进行文本的纠正，如，中文文本中出现的是错误是由于同音、模糊音等拼音因素导致的错误(如，正确的中文文本为“施华洛世奇”，而错误的中文文本为“诗华洛世奇”)时，目前的中文文本自动纠错方法通常未能准确地对该类错误进行自动纠正。可见，目前的中文文本自动纠错方法自动纠错的准确率仍有提升的空间。
技术实现思路
本专利技术所要解决的技术问题在于，目前的中文文...

【技术保护点】
1.一种中文文本的自动纠错方法，其特征在于，所述方法包括：/n对目标中文文本执行预设的字符转换操作，得到包含所述目标中文文本中每个字符的字符序列；/n对所述目标中文文本执行预设的拼音转换操作，得到包含所述目标中文文本中每个字符对应的拼音字符的拼音序列；/n将所述字符序列和所述拼音序列输入至预设的字符拼音嵌入层进行分析，得到所述目标中文文本对应的文本特征向量；/n将所述文本特征向量输入至预设的bert网络进行分析，得到所述目标中文文本中每个字符对应的候选字符列表；/n将所述目标中文文本中每个字符对应的候选字符列表输入至预设的语言分析模型进行分析，得到所述目标中文文本对应的纠错中文文本；/n将所述...

【技术特征摘要】
1.一种中文文本的自动纠错方法，其特征在于，所述方法包括：
对目标中文文本执行预设的字符转换操作，得到包含所述目标中文文本中每个字符的字符序列；
对所述目标中文文本执行预设的拼音转换操作，得到包含所述目标中文文本中每个字符对应的拼音字符的拼音序列；
将所述字符序列和所述拼音序列输入至预设的字符拼音嵌入层进行分析，得到所述目标中文文本对应的文本特征向量；
将所述文本特征向量输入至预设的bert网络进行分析，得到所述目标中文文本中每个字符对应的候选字符列表；
将所述目标中文文本中每个字符对应的候选字符列表输入至预设的语言分析模型进行分析，得到所述目标中文文本对应的纠错中文文本；
将所述目标中文文本替换为所述纠错中文文本，以完成对所述目标中文文本的自动纠错。

2.根据权利要求1所述的中文文本的自动纠错方法，其特征在于，所述字符拼音嵌入层中包含有预设的字符向量表和拼音向量表；
以及，所述将所述字符序列和所述拼音序列输入至预设的字符拼音嵌入层进行分析，得到所述目标中文文本对应的文本特征向量，包括：
从所述字符向量表中查找所述字符序列中的每个字符所对应的字符向量值；
根据所述字符序列中的每个字符所对应的字符向量值生成所述字符序列对应的字符向量；
从所述拼音向量表中查找所述拼音序列中的每个拼音字符所对应的拼音向量值；
根据所述拼音序列中的每个拼音字符所对应的拼音向量值生成所述拼音序列对应的拼音向量；
计算所述字符向量和所述拼音向量的加权和，以作为所述目标中文文本对应的文本特征向量。

3.根据权利要求1或2所述的中文文本的自动纠错方法，其特征在于，所述将所述目标中文文本中每个字符对应的候选字符列表输入至预设的语言分析模型进行分析，得到所述目标中文文本对应的纠错中文文本，包括：
根据所述目标中文文本中每个字符对应的候选字符列表确定出所述目标中文文本对应的多个候选纠错中文文本；
基于预设的计算方式计算每个所述候选纠错中文文本的出现概率值；
将最大的出现概率值所对应的所述候选纠错中文文本确定为所述目标中文文本对应的纠错中文文本。

4.根据权利要求3所述的中文文本的自动纠错方法，其特征在于，所述基于预设的计算方式计算每个所述候选纠错中文文本的出现概率值，包括：
通过以下公式计算每个所述候选纠错中文文本的出现概率值：
Ppath＝P(c1c2…cn)＝P(c1)P(c2|c1)P(c3|c2)…P(cn|cn-1)
其中，Ppath是该候选纠错中文文本的出现概率值，c1到cn是该候选纠错中文文本中的每个字符，P(c1)是指以c1字符为开头的候选纠错中文文本的数量与候选纠错中文文...

【专利技术属性】
技术研发人员：吴晓东，
申请(专利权)人：平安国际智慧城市科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人