当前位置: 首页 > 专利查询>栾兴专利>正文

一种长文本纠错方法技术

技术编号:34832679 阅读:15 留言:0更新日期:2022-09-08 07:26
一种长文本纠错方法,包括:获取待纠错文本,对待纠错文本预处理后使用结巴分词以生成第一分词文本;将所述第一分词文本输入BiGRU

【技术实现步骤摘要】
一种长文本纠错方法


[0001]本申请涉及文本纠错领域,特别是涉及一种长文本纠错方法。

技术介绍

[0002]语言经过长期演变和发展,形成了自身特有的文法和句法规则,这些复杂的文法和句法规则,例如词的多音、多意、多用,容易让人在使用语言表达时出现用词不当的错误。在某些重要场合,语言使用的错误可能带来负面影响,因此文本纠错技术也受到越来越多的关注。
[0003]相关技术中,关于中文的文本纠错技术主要是基于一种通用的范式,首先需要进行分词处理,也就是将连贯的文字分解由一个个具有特定语言含义的单元组成的序列,人工提前收集每个词固定的相似字符用作候选字符,在匹配时通过一个过滤器从混淆集中选择最佳的候选字作为给定替代,这种技术因人工经验不足导致混淆集的构建不完备,又由于长文本句子语义复杂,分词做不到准确合理,导致分词效果较差,进而使后续的文本纠错准确率降低。

技术实现思路

[0004]为了解决现有技术存在的不足,本申请的目的在于提供一种长文本纠错方法,分词准确姓高,纠错效果好。
[0005]为实现上述目的,本申请提供的长文本纠错方法,包括:获取待纠错文本,对待纠错文本预处理后使用结巴分词以生成第一分词文本;将所述第一分词文本输入BiGRU

Attention模型生成第二分词文本,所述BiGRU

Attention模型包括输入层、隐藏层和输出层;所述隐藏层包括BiGRU层、Attention层和全连接层;所述BiGRU层对所述第一分词文本进行词向量化处理以生成第一词向量矩阵,对所述词向量矩阵进行特征提取以生成第二词向量矩阵;所述Attention层对所述第二词向量矩阵进行特征加权以生成第三词向量矩阵;所述全连接层基于所述第二词向量矩阵和所述第三词向量矩阵以生成第四词向量矩阵;所述输出层基于所述第四词向量矩阵和所述第一分词文本生成所述第二分词文本;识别所述第二分词文本,标记错误词;基于错误词,通过初始召回和召回过滤从词典中选出所述错误词的候选词集合;对所述候选词集合中的每一候选词进行概率打分以选出最优候选词并替换所述错误词。
[0006]进一步地,所述识别第二分词文本,标记错误词的步骤,还包括,基于Query纠错,识别第二分词文本,标记错误词。
[0007]进一步地,所述BiGRU层对所述第一分词文本进行词向量化处理以生成第一词向量矩阵,对所述词向量矩阵进行特征提取以生成第二词向量矩阵的步骤,采用如下计算公式:,,其中,G
t
表示第一词分词文本中第t个词的第一词向量,所有词的第一词向量构成第一词向量矩阵,表示第一词分词文本中第t个词的第二词向量,所有词的第二词向量构成第二词向量矩阵,H
xo
、H
ho
和H
co
分别表示输入向量、隐藏层向量和细胞的权重矩阵,b0表示偏置向量,b1表示偏移值,c
t
表示细胞状态,tanh是非线性激活函数。
[0008]进一步地,所述Attention层对所述第二词向量矩阵进行特征加权以生成第三词向量矩阵的步骤,采用如下计算公式:,其中,表示第一词分词文本中第t个词的第三词向量,所有词的第三词向量构成第三词向量矩阵;h
t
为BIGRU层输出的第t个词的第二词向量,W
w
与b
w
分别为权重和偏置系数。
[0009]进一步地,所述全连接层基于所述第二词向量矩阵和所述第三词向量矩阵以生成第四词向量矩阵的步骤,采用如下计算公式:,其中,M2为第二词向量矩阵,M3为第三词向量矩阵,M4为第四词向量矩阵。
[0010]进一步地,所述对所述候选词集合中的每一候选词进行概率打分的步骤,公式如下:,其中,w
i
表示错误词所在句子的第i个词, 表示错误词所在句子中各分词组成正确句子的概率,表示一个句子中前i

1个词是w1w2..w
n
时第i个词是w
i
的概率。
[0011]更进一步地,所述候选词集合包括:与错误词字形相近的词、与错误词字音相似的词和与错误词词意相近的词。
[0012]为实现上述目的,本申请提供的电子设备,包括存储器和处理器,所述处理器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上所述的长文本纠错方法的步骤。
[0013]为实现上述目的,本申请提供的计算机可读存储介质,其上存储有计算机指令,当计算机指令运行时执行如上所述的长文本纠错方法的步骤。
[0014]本申请的长文本纠错方法,结合BiGRU、 Attention注意力机制以及Query纠错,在Query纠错前大大提高了了分词的准确程度,提高了 Query纠错替换时的准确率。
[0015]本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。
附图说明
[0016]附图用来提供对本申请的进一步理解,并且构成说明书的一部分,并与本申请的实施例一起,用于解释本申请,并不构成对本申请的限制。在附图中:图1为本申请的长文本纠错方法的流程示意图;图2为本申请的BiGRU

Attention模型的示意图;图3为本申请的一种电子设备的示意框图;图4为本申请的一种计算机可读存储介质的示意图。
具体实施方式
[0017]下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
[0018]应当理解,本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。
[0019]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
[0020]需要注意,本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。“多个”应理解为两个或以上。
[0021]下面,将参考附图详细地说明本申请的实施例。
[0022]实施例1图1为本申请的长文本纠错方法的流程示意图,如图1所示,在至少一个实施例中,该方法至少包括步骤S101、S102、S103、S104和S105。
[0023]步骤S101:获取待纠错文本,对待纠错文本预处理后使用结巴分词以生成第一分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种长文本纠错方法,包括:获取待纠错文本,对待纠错文本预处理后使用结巴分词以生成第一分词文本;将所述第一分词文本输入BiGRU

Attention模型生成第二分词文本,所述BiGRU

Attention模型包括输入层、隐藏层和输出层;所述隐藏层,包括BiGRU层、Attention层和全连接层;所述BiGRU层对所述第一分词文本进行词向量化处理以生成第一词向量矩阵,对所述词向量矩阵进行特征提取以生成第二词向量矩阵;所述Attention层对所述第二词向量矩阵进行特征加权以生成第三词向量矩阵;所述全连接层基于所述第二词向量矩阵和所述第三词向量矩阵以生成第四词向量矩阵;所述输出层基于所述第四词向量矩阵和所述第一分词文本生成所述第二分词文本;识别所述第二分词文本,标记错误词;基于错误词,通过初始召回和召回过滤从词典中选出所述错误词的候选词集合;对所述候选词集合中的每一候选词进行概率打分以选出最优候选词并替换所述错误词。2.根据权利要求1所述的长文本纠错方法,其特征在于,所述识别第二分词文本,标记错误词的步骤,还包括,基于Query纠错,识别第二分词文本,标记错误词。3.根据权利要求1所述的长文本纠错方法,其特征在于,所述BiGRU层对所述第一分词文本进行词向量化处理以生成第一词向量矩阵,对所述词向量矩阵进行特征提取以生成第二词向量矩阵的步骤,采用如下计算公式:,,其中,G
t
表示第一词分词文本中第t个词的第一词向量,所有词的第一词向量构成第一词向量矩阵,表示第一词分词文本中第t个词的第二词向量,所有词的第二词向量构成第二词向量矩阵,H
xo
、H
ho
和H
co
分别表示输入向量、隐藏层向量和细胞的权重矩阵,b0表示偏置向量,b1表...

【专利技术属性】
技术研发人员:栾兴
申请(专利权)人:栾兴
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1