当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于字符序列的文本检错方法技术

技术编号:28839202 阅读:80 留言:0更新日期:2021-06-11 23:37
本发明专利技术涉及一种基于字符序列的文本检错方法,包括:S1、从问答系统的日志信息中提取出样本语料;S2、基于样本语料,构建领域词表及各样本文本对应的决策权重矩阵;S3、构建文本检错模型;S4、将多个样本文本分别向量化处理后依次输入文本检错模型,根据预设的迭代次数以及决策权重矩阵,以训练文本检错模型;S5、获取实际文本并构建对应的决策权重矩阵;S6、将实际文本向量化处理后输入训练好的文本检错模型,结合该实际文本对应的决策权重矩阵,得到该实际文本对应的检错结果。与现有技术相比,本发明专利技术通过构建对应于文本的决策权重矩阵,并将其与Bi‑LSTM的隐藏输出相结合,能够有效突出错误字符特征,提高检错结果准确性。

【技术实现步骤摘要】
一种基于字符序列的文本检错方法
本专利技术涉及文本分析
,尤其是涉及一种基于字符序列的问答文本检错方法。
技术介绍
问答系统的快速发展为信息检索系统注入了新的活力,不同于传统的搜索引擎,它能用准确、简洁的自然语言回答用户用自然语言表达的问题。因此问答系统成为了目前各大厂商大力发展的新一代信息检索工具,例如:面向医疗行业的智能问答系统,基于移动通讯领域的问答系统以及面向电商领域的智能问答系统等。尽管目前问答系统已经被广泛应用于上述领域,但在实际中,用户输入文本往往会存在一些错误,如果问答系统不能识别文本中的错误,那么就很难正确地理解用户的意图并给出对应的答案。例如在物流行业,当用户输入“为什么我的建议直不发?”时,实际是将“件一”错误写成了“建议”,此时文本表达的含义与原始的信息完全不同,为此需要能够对输入拼写进行自动检错,以保证问答系统能够准确地进行人机交互。不同于英文文本的拼写错误,中文的输入不存在非词错误,无法像英文那样以字典匹配的方式进行错误查找,中文的输入错误主要集中在同音字错误以及形近字错误,并且中文没有词边界,即词与词之间没有间隔符,在不同的语境下,同一个词语的组合可能会导致正确与错误两种相反的结果。例如:“快递有快的吗”和“我要寄快的”,前一个文本中的“快的”使用正确,而后一个文本中的“快的”却是一个错误的组合。因此传统的英文文本检错方法不适用中文的文本检错。中文的特殊性使得自然语言的自动检错工作更为困难。目前常用的中文文本检错方法是基于概率统计的方法,包括:N元匹配检错算法,NMWS的检错算法以及基于混合系统的检错算法等。大量正确的语料是保证这些检错方法能够准确检查出错误字符的重要前提,一旦语料中存在错误,则这些错误就会被一直保留下去,并且在检错算法的处理过程中,用来判断文本表述是否合理的阈值是一个难以确定的超参数,与此同时基于规则统计的方法将导致文本检错只能从局部进行,而无法考虑长距离依赖关系。鉴于以上情况,一些研究者开始将深度学习中的序列模型运用到文本检错中,利用该类模型进行自动提取上下文特征,进而利用上下文信息来进行目标字符的正误判断。比较常见的模型有:RNN模型,Bi-LSTM模型,Bi-GRU模型等,然而,当文本数量比较小时,由于文本中错误字符与正确字符的类别分布不均衡,通常正确字符的数量要远远多于错误字符的数量,使得模型均很难学习到在语料库中占小比例的错误字符的特征,无法准确地对目标字符进行正误判断,导致文本检错结果的准确率不高。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于字符序列的问答文本检错方法,利用Bi-LSTM神经网络来提取文本中的上下文特征,通过构建决策权重矩阵,并将该权重矩阵与Bi-LSTM的隐藏输出相结合,以突出错误字符特征,提高文本检错结果的准确率。本专利技术的目的可以通过以下技术方案来实现:一种基于字符序列的文本检错方法,包括以下步骤:S1、获取问答系统的日志信息,并从日志信息中提取出样本语料,其中,样本语料包括多个样本文本,样本文本由字符序列组成;S2、基于样本语料,构建领域词表,并根据领域词表,构建各样本文本对应的决策权重矩阵;S3、构建文本检错模型,该文本检错模型包括依次连接的输入层、嵌入层、Bi-LSTM层,全连接层以及输出层;S4、将多个样本文本分别向量化处理后依次输入文本检错模型,根据预设的迭代次数以及各样本文本对应的决策权重矩阵,对文本检错模型进行训练,以得到训练好的文本检错模型;S5、获取实际文本,并根据领域词表,构建该实际文本对应的决策权重矩阵;S6、将实际文本向量化处理后输入训练好的文本检错模型,结合该实际文本对应的决策权重矩阵,得到该实际文本对应的检错结果,其中,检错结果具体为对应于实际文本字符序列的类别标签序列。进一步地,所述步骤S1具体包括以下步骤:S11、获取问答系统的日志信息,从日志信息中筛选出由字符序列组成的多个样本文本;S12、依次对多个样本文本的字符序列进行正确字符和错误字符的人工标注,得到各字符序列对应的人工标签序列。进一步地,所述步骤S2具体包括以下步骤:S21、对样本语料中的多个样本文本进行分词处理,以得到领域词表;S22、根据领域词表,以及文本中其余字符与目标字符的相对位置,首先将样本文本的字符数量填充至与预设的文本字符数量相同,之后依次计算得到文本中其余字符对目标字符的影响权重,其中,若文本的字符数量小于预设的文本字符数量,则从该文本的最后一个字符开始依次填充0字符,直至该文本的字符数量与预设的文本字符数量相同,若文本的字符数量等于预设的文本字符数量,则无需对该文本进行0字符填充,预设的文本字符数量等于样本语料中长度最长的样本文本所包含的字符数量;S23、将其余字符对目标字符的各影响权重分别平均化处理,之后按照字符序列的排列顺序,将平均化处理后目标字符的各影响权重按顺序排列组成该目标字符的决策权重向量;S24、基于字符序列的排列顺序,将各目标字符的决策权重向量按顺序排列组成文本的决策权重矩阵。进一步地,所述步骤S22中计算文本中其余字符对各目标字符的影响权重的规则为:若文本中其余字符与目标字符的相对位置越大,则其余字符对目标字符的影响权重越小;若文本中其余字符与目标字符之间的片段存在于领域词表中,则该其余字符对目标字符的影响权重随着该其余字符与目标字符之间相对位置的增大而增大。进一步地,所述领域词表具体为:words_table=(words1,words2,words3,…wordsm)其中,words_table为领域词表,wordsm为领域词表中第m个分词,m是一个正整数。进一步地,所述决策权重矩阵具体为:sen_matrixj=(avg_vector1,…avg_vectork)avg_vectori=(avi1,avi2,…,avil,…,avik)sentencej=(w1,w2,w3,…,wn,…,wk),k≥n其中,sen_matrixj为文本j的决策权重矩阵,avg_vectori为目标字符i的决策权重向量,k为预设的文本字符数量,n为文本j的实际字符数量,avil为字符l对目标字符i的影响权重平均值,vil为字符l对目标字符i的影响权重,dil为字符l与目标字符i的相对位置,wordsil为字符l与目标字符i之间的片段,sentencej为文本j的字符序列,wk为字符序列中第k个字符。进一步地,所述步骤S4具体包括以下步骤:S41、根据样本文本的数量,将多个样本文本平均分成A个batch,并对A个batch中各样本文本进行向量化处理,其中,A个batch构成一个epoch,一个batch中包含B个样本文本;S42、将A个batch依次输入文本检错模型,结合各样本文本对应的决策权重矩阵,每输入一个batch,则计算一本文档来自技高网
...

【技术保护点】
1.一种基于字符序列的文本检错方法,其特征在于,包括以下步骤:/nS1、获取问答系统的日志信息,并从日志信息中提取出样本语料,其中,样本语料包括多个样本文本,样本文本由字符序列组成;/nS2、基于样本语料,构建领域词表,并根据领域词表,构建各样本文本对应的决策权重矩阵;/nS3、构建文本检错模型,该文本检错模型包括依次连接的输入层、嵌入层、Bi-LSTM层,全连接层以及输出层;/nS4、将多个样本文本分别向量化处理后依次输入文本检错模型,根据预设的迭代次数以及各样本文本对应的决策权重矩阵,对文本检错模型进行训练,以得到训练好的文本检错模型;/nS5、获取实际文本,并根据领域词表,构建该实际文本对应的决策权重矩阵;/nS6、将实际文本向量化处理后输入训练好的文本检错模型,结合该实际文本对应的决策权重矩阵,得到该实际文本对应的检错结果,其中,检错结果具体为对应于实际文本字符序列的类别标签序列。/n

【技术特征摘要】
1.一种基于字符序列的文本检错方法,其特征在于,包括以下步骤:
S1、获取问答系统的日志信息,并从日志信息中提取出样本语料,其中,样本语料包括多个样本文本,样本文本由字符序列组成;
S2、基于样本语料,构建领域词表,并根据领域词表,构建各样本文本对应的决策权重矩阵;
S3、构建文本检错模型,该文本检错模型包括依次连接的输入层、嵌入层、Bi-LSTM层,全连接层以及输出层;
S4、将多个样本文本分别向量化处理后依次输入文本检错模型,根据预设的迭代次数以及各样本文本对应的决策权重矩阵,对文本检错模型进行训练,以得到训练好的文本检错模型;
S5、获取实际文本,并根据领域词表,构建该实际文本对应的决策权重矩阵;
S6、将实际文本向量化处理后输入训练好的文本检错模型,结合该实际文本对应的决策权重矩阵,得到该实际文本对应的检错结果,其中,检错结果具体为对应于实际文本字符序列的类别标签序列。


2.根据权利要求1所述的一种基于字符序列的文本检错方法,其特征在于,所述步骤S1具体包括以下步骤:
S11、获取问答系统的日志信息,从日志信息中筛选出由字符序列组成的多个样本文本;
S12、依次对多个样本文本的字符序列进行正确字符和错误字符的人工标注,得到各字符序列对应的人工标签序列。


3.根据权利要求2所述的一种基于字符序列的文本检错方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、对样本语料中的多个样本文本进行分词处理,以得到领域词表;
S22、根据领域词表,以及文本中其余字符与目标字符的相对位置,首先将样本文本的字符数量填充至与预设的文本字符数量相同,之后依次计算得到文本中其余字符对目标字符的影响权重,其中,若文本的字符数量小于预设的文本字符数量,则从该文本的最后一个字符开始依次填充0字符,直至该文本的字符数量与预设的文本字符数量相同,若文本的字符数量等于预设的文本字符数量,则无需对该文本进行0字符填充,预设的文本字符数量等于样本语料中长度最长的样本文本所包含的字符数量;
S23、将其余字符对目标字符的各影响权重分别平均化处理,之后按照字符序列的排列顺序,将平均化处理后目标字符的各影响权重按顺序排列组成该目标字符的决策权重向量;
S24、基于字符序列的排列顺序,将各目标字符的决策权重向量按顺序排列组成文本的决策权重矩阵。


4.根据权利要求3所述的一种基于字符序列的文本检错方法,其特征在于,所述步骤S22中计算文本中其余字符对各目标字符的影响权重的规则为:
若文本中其余字符与目标字符的相对位置越大,则其余字符对目标字符的影响权重越小;
若文本中其余字符与目标字符之间的片段存在于领域词表中,则该其余字符对目标字符的影响权重随着该其余字符与目标字符之间相对位置的增大而增大。


5.根据权利要求4所述的一种基于字符序列的文本检错方法,其特征...

【专利技术属性】
技术研发人员:彭俊杰胡淼张换香胡敬响谭书华
申请(专利权)人:上海大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1