当前位置: 首页 > 专利查询>栾兴专利>正文

一种长文本纠错方法技术

技术编号：34832679 阅读：15 留言：0更新日期：2022-09-08 07:26

一种长文本纠错方法，包括：获取待纠错文本，对待纠错文本预处理后使用结巴分词以生成第一分词文本；将所述第一分词文本输入BiGRU

全部详细技术资料下载

【技术实现步骤摘要】
一种长文本纠错方法

[0001]本申请涉及文本纠错领域，特别是涉及一种长文本纠错方法。

技术介绍

[0002]语言经过长期演变和发展，形成了自身特有的文法和句法规则，这些复杂的文法和句法规则，例如词的多音、多意、多用，容易让人在使用语言表达时出现用词不当的错误。在某些重要场合，语言使用的错误可能带来负面影响，因此文本纠错技术也受到越来越多的关注。
[0003]相关技术中，关于中文的文本纠错技术主要是基于一种通用的范式，首先需要进行分词处理，也就是将连贯的文字分解由一个个具有特定语言含义的单元组成的序列，人工提前收集每个词固定的相似字符用作候选字符，在匹配时通过一个过滤器从混淆集中选择最佳的候选字作为给定替代，这种技术因人工经验不足导致混淆集的构建不完备，又由于长文本句子语义复杂，分词做不到准确合理，导致分词效果较差，进而使后续的文本纠错准确率降低。

技术实现思路

[0004]为了解决现有技术存在的不足，本申请的目的在于提供一种长文本纠错方法，分词准确姓高，纠错效果好。
[0005]为实现上述目的，本申请提供的长文本纠错方法，包括：获取待纠错文本，对待纠错文本预处理后使用结巴分词以生成第一分词文本；将所述第一分词文本输入BiGRU
‑
Attention模型生成第二分词文本，所述BiGRU
‑
Attention模型包括输入层、隐藏层和输出层；所述隐藏层包括BiGRU层、Attention层和全连接层；所述BiGRU层对所述第一分词文本进行词向量化处理以生...

【技术保护点】

【技术特征摘要】
1.一种长文本纠错方法，包括：获取待纠错文本，对待纠错文本预处理后使用结巴分词以生成第一分词文本；将所述第一分词文本输入BiGRU
‑
Attention模型生成第二分词文本，所述BiGRU
‑
Attention模型包括输入层、隐藏层和输出层；所述隐藏层，包括BiGRU层、Attention层和全连接层；所述BiGRU层对所述第一分词文本进行词向量化处理以生成第一词向量矩阵，对所述词向量矩阵进行特征提取以生成第二词向量矩阵；所述Attention层对所述第二词向量矩阵进行特征加权以生成第三词向量矩阵；所述全连接层基于所述第二词向量矩阵和所述第三词向量矩阵以生成第四词向量矩阵；所述输出层基于所述第四词向量矩阵和所述第一分词文本生成所述第二分词文本；识别所述第二分词文本，标记错误词；基于错误词，通过初始召回和召回过滤从词典中选出所述错误词的候选词集合；对所述候选词集合中的每一候选词进行概率打分以选出最优候选词并替换所述错误词。2.根据权利要求1所述的长文本纠错方法，其特征在于，所述识别第二分词文本，标记错误词的步骤，还包括，基于Query纠错，识别第二分词文本，标记错误词。3.根据权利要求1所述的长文本纠错方法，其特征在于，所述BiGRU层对所述第一分词文本进行词向量化处理以生成第一词向量矩阵，对所述词向量矩阵进行特征提取以生成第二词向量矩阵的步骤，采用如下计算公式：，，其中，G
t
表示第一词分词文本中第t个词的第一词向量，所有词的第一词向量构成第一词向量矩阵，表示第一词分词文本中第t个词的第二词向量，所有词的第二词向量构成第二词向量矩阵，H
xo
、H
ho
和H
co
分别表示输入向量、隐藏层向量和细胞的权重矩阵，b0表示偏置向量，b1表...

【专利技术属性】
技术研发人员：栾兴，
申请(专利权)人：栾兴，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人