一种基于字符序列的文本检错方法技术

技术编号：28839202 阅读：80 留言：0更新日期：2021-06-11 23:37

本发明专利技术涉及一种基于字符序列的文本检错方法，包括：S1、从问答系统的日志信息中提取出样本语料；S2、基于样本语料，构建领域词表及各样本文本对应的决策权重矩阵；S3、构建文本检错模型；S4、将多个样本文本分别向量化处理后依次输入文本检错模型，根据预设的迭代次数以及决策权重矩阵，以训练文本检错模型；S5、获取实际文本并构建对应的决策权重矩阵；S6、将实际文本向量化处理后输入训练好的文本检错模型，结合该实际文本对应的决策权重矩阵，得到该实际文本对应的检错结果。与现有技术相比，本发明专利技术通过构建对应于文本的决策权重矩阵，并将其与Bi‑LSTM的隐藏输出相结合，能够有效突出错误字符特征，提高检错结果准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于字符序列的文本检错方法
本专利技术涉及文本分析
，尤其是涉及一种基于字符序列的问答文本检错方法。
技术介绍
问答系统的快速发展为信息检索系统注入了新的活力，不同于传统的搜索引擎，它能用准确、简洁的自然语言回答用户用自然语言表达的问题。因此问答系统成为了目前各大厂商大力发展的新一代信息检索工具，例如：面向医疗行业的智能问答系统，基于移动通讯领域的问答系统以及面向电商领域的智能问答系统等。尽管目前问答系统已经被广泛应用于上述领域，但在实际中，用户输入文本往往会存在一些错误，如果问答系统不能识别文本中的错误，那么就很难正确地理解用户的意图并给出对应的答案。例如在物流行业，当用户输入“为什么我的建议直不发？”时，实际是将“件一”错误写成了“建议”，此时文本表达的含义与原始的信息完全不同，为此需要能够对输入拼写进行自动检错，以保证问答系统能够准确地进行人机交互。不同于英文文本的拼写错误，中文的输入不存在非词错误，无法像英文那样以字典匹配的方式进行错误查找，中文的输入错误主要集中在同音字错误以及形近字错误，并且中文没有词边界，即词与词之间没有间隔符，在不同的语境下，同一个词语的组合可能会导致正确与错误两种相反的结果。例如：“快递有快的吗”和“我要寄快的”，前一个文本中的“快的”使用正确，而后一个文本中的“快的”却是一个错误的组合。因此传统的英文文本检错方法不适用中文的文本检错。中文的特殊性使得自然语言的自动检错工作更为困难。目前常用的中文文本检错方法是基于概率统计的方法，包括：N元匹配检错算法，NM...

【技术保护点】
1.一种基于字符序列的文本检错方法，其特征在于，包括以下步骤：/nS1、获取问答系统的日志信息，并从日志信息中提取出样本语料，其中，样本语料包括多个样本文本，样本文本由字符序列组成；/nS2、基于样本语料，构建领域词表，并根据领域词表，构建各样本文本对应的决策权重矩阵；/nS3、构建文本检错模型，该文本检错模型包括依次连接的输入层、嵌入层、Bi-LSTM层，全连接层以及输出层；/nS4、将多个样本文本分别向量化处理后依次输入文本检错模型，根据预设的迭代次数以及各样本文本对应的决策权重矩阵，对文本检错模型进行训练，以得到训练好的文本检错模型；/nS5、获取实际文本，并根据领域词表，构建该实际文本对应的决策权重矩阵；/nS6、将实际文本向量化处理后输入训练好的文本检错模型，结合该实际文本对应的决策权重矩阵，得到该实际文本对应的检错结果，其中，检错结果具体为对应于实际文本字符序列的类别标签序列。/n

【技术特征摘要】
1.一种基于字符序列的文本检错方法，其特征在于，包括以下步骤：
S1、获取问答系统的日志信息，并从日志信息中提取出样本语料，其中，样本语料包括多个样本文本，样本文本由字符序列组成；
S2、基于样本语料，构建领域词表，并根据领域词表，构建各样本文本对应的决策权重矩阵；
S3、构建文本检错模型，该文本检错模型包括依次连接的输入层、嵌入层、Bi-LSTM层，全连接层以及输出层；
S4、将多个样本文本分别向量化处理后依次输入文本检错模型，根据预设的迭代次数以及各样本文本对应的决策权重矩阵，对文本检错模型进行训练，以得到训练好的文本检错模型；
S5、获取实际文本，并根据领域词表，构建该实际文本对应的决策权重矩阵；
S6、将实际文本向量化处理后输入训练好的文本检错模型，结合该实际文本对应的决策权重矩阵，得到该实际文本对应的检错结果，其中，检错结果具体为对应于实际文本字符序列的类别标签序列。

2.根据权利要求1所述的一种基于字符序列的文本检错方法，其特征在于，所述步骤S1具体包括以下步骤：
S11、获取问答系统的日志信息，从日志信息中筛选出由字符序列组成的多个样本文本；
S12、依次对多个样本文本的字符序列进行正确字符和错误字符的人工标注，得到各字符序列对应的人工标签序列。

3.根据权利要求2所述的一种基于字符序列的文本检错方法，其特征在于，所述步骤S2具体包括以下步骤：
S21、对样本语料中的多个样本文本进行分词处理，以得到领域词表；
S22、根据领域词表，以及文本中其余字符与目标字符的相对位置，首先将样本文本的字符数量填充至与预设的文本字符数量相同，之后依次计算得到文本中其余字符对目标字符的影响权重，其中，若文本的字符数量小于预设的文本字符数量，则从该文本的最后一个字符开始依次填充0字符，直至该文本的字符数量与预设的文本字符数量相同，若文本的字符数量等于预设的文本字符数量，则无需对该文本进行0字符填充，预设的文本字符数量等于样本语料中长度最长的样本文本所包含的字符数量；
S23、将其余字符对目标字符的各影响权重分别平均化处理，之后按照字符序列的排列顺序，将平均化处理后目标字符的各影响权重按顺序排列组成该目标字符的决策权重向量；
S24、基于字符序列的排列顺序，将各目标字符的决策权重向量按顺序排列组成文本的决策权重矩阵。

4.根据权利要求3所述的一种基于字符序列的文本检错方法，其特征在于，所述步骤S22中计算文本中其余字符对各目标字符的影响权重的规则为：
若文本中其余字符与目标字符的相对位置越大，则其余字符对目标字符的影响权重越小；
若文本中其余字符与目标字符之间的片段存在于领域词表中，则该其余字符对目标字符的影响权重随着该其余字符与目标字符之间相对位置的增大而增大。

5.根据权利要求4所述的一种基于字符序列的文本检错方法，其特征...

【专利技术属性】
技术研发人员：彭俊杰，胡淼，张换香，胡敬响，谭书华，
申请(专利权)人：上海大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人