一种标点符号的处理方法及装置制造方法及图纸

技术编号：24354633 阅读：31 留言：0更新日期：2020-06-03 02:18

本文公开了一种标点符号的处理方法及装置。所述标点符号的处理方法，包括：从语料库中选择句子样本作为训练样本；所述训练样本包括标点符号正确的句子样本和标点符号错误的句子样本；向模型输入句子样本以及所述句子样本中标点符号的位置信息，为所述模型标注输出标签，通过有监督训练的方式训练所述模型预测所述输入的句子样本的正确标点符号表述；其中，所述输出标签至少包括句子样本的标点符号的正确表述方式对应的标签；向所述模型输入待预测的句子和所述句子中标点符号的位置信息，利用所述模型预测所述句子的正确标点符号表述。本文的技术方案能够通过神经网络的深度学习自动对标点符号进行勘误。

A processing method and device of punctuation mark

全部详细技术资料下载

【技术实现步骤摘要】
一种标点符号的处理方法及装置
本专利技术涉及计算机
，尤其涉及的是一种标点符号的处理方法及装置。
技术介绍
在自然语言的理解中正确的标点符号对语义理解起着至关重要的作用，没有标点符号或标点符号使用不当，直接影响到语言文字的表达功能。人们往往不注意或不重视标点符号的运用，写文章常常是一逗到底或一点到底。标点符号的作用主要体现在两个方面：一是语法作用，如表示停顿、语气、词语性质和作用等；二是修辞作用，即我们通常所说的标点符号的活用、妙用。书面语言中同一句话，同一位置标点符号不同，语气大不一样。例如：正确句子是：他来了。错误句子1：他来了？错误句子2：他来了！在正确句子中，用句号表示的是陈述语气，说的是一件事实。在错误句子1中，用问号表示的是疑问语气，表达的是说话人不相信“他来了”这个判断的疑问心态。在错误句子2中，用叹号表现的是感慨或惊讶的语气，表达的是说话人对“他来了”这个事实的感慨或惊异的感情色彩。目前针对标点符号勘误，一般采用人工勘误的方法，费时费力，效率较低。
技术实现思路
本文提供一种标点符号的处理方法及装置，能够通过神经网络的深度学习自动对标点符号进行勘误。根据本申请的第一方面，本专利技术实施例提供一种标点符号的处理方法，包括：从语料库中选择句子样本作为训练样本；所述训练样本包括标点符号正确的句子样本和标点符号错误的句子样本；向模型输入句子样本以及所述句子样本中标点符号的位置信息，为所述模型标注输出标签，通过有监督训练的方式训练所述模型预测所述...

【技术保护点】
1.一种标点符号的处理方法，包括：/n从语料库中选择句子样本作为训练样本；所述训练样本包括标点符号正确的句子样本和标点符号错误的句子样本；/n向模型输入句子样本以及所述句子样本中标点符号的位置信息，为所述模型标注输出标签，通过有监督训练的方式训练所述模型预测所述输入的句子样本的正确标点符号表述；其中，所述输出标签至少包括句子样本的标点符号的正确表述方式对应的标签；/n向所述模型输入待预测的句子和所述句子中标点符号的位置信息，利用所述模型预测所述句子的正确标点符号表述。/n

【技术特征摘要】
1.一种标点符号的处理方法，包括：
从语料库中选择句子样本作为训练样本；所述训练样本包括标点符号正确的句子样本和标点符号错误的句子样本；
向模型输入句子样本以及所述句子样本中标点符号的位置信息，为所述模型标注输出标签，通过有监督训练的方式训练所述模型预测所述输入的句子样本的正确标点符号表述；其中，所述输出标签至少包括句子样本的标点符号的正确表述方式对应的标签；
向所述模型输入待预测的句子和所述句子中标点符号的位置信息，利用所述模型预测所述句子的正确标点符号表述。

2.如权利要求1所述的方法，其特征在于：
所述从语料库中选择句子样本作为训练样本，包括：
从语料库中选择一部分句子样本作为第一语料集合，从语料库中选择另一部分句子样本作为第二语料集合；
对所述第一语料集合中的任意一条句子样本，将所述句子样本中的正确标点符号随机替换为错误标点符号，将替换后的句子样本作为模型输入的句子样本，将替换前的句子样本作为用于模型输出标注的参考样本；
对所述第二语料集合中的任意一条句子样本，将所述句子样本复制一份得到所述句子样本的副本，将所述句子样本原件作为模型输入的句子样本，将所述句子样本的副本作为用于模型输出标注的参考样本。

3.如权利要求1所述的方法，其特征在于：
所述通过有监督训练的方式训练所述模型预测所述输入句子样本的正确标点符号表述，包括：
根据句子样本以及所述句子样本中标点符号的位置信息对所述句子样本中的每一个字进行向量表达，生成所述句子的输入矩阵；
对所述输入矩阵进行模型运算输出输出矩阵，所述输出矩阵包括句子样本中的每个字对应的输入向量经过模型运算后得到的输出向量；
根据所述模型的输出矩阵与所述模型标注的输出标签之间的差异确定模型的梯度信息，通过所述梯度信息进行反向传播以调整所述模型的参数。

4.如权利要求3所述的方法，其特征在于：
所述根据句子样本以及所述句子样本中标点符号的位置信息对所述句子样本中的每一个字进行向量表达，包括：
将句子样本中的每一个字通过文本数字化表示为词嵌入矩阵的向量；将句子样本中的每一个字在句子中的位置信息表示为位置嵌入矩阵的向量；将句子样本中的每一个字是否为标点符号的信息表示为标点符号掩码嵌入矩阵的向量；
对句子样本中的任意一个字，将所述字对应的词嵌入矩阵的...

【专利技术属性】
技术研发人员：陈栋，付骁弈，
申请(专利权)人：北京明略软件系统有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人