一种标点符号的处理方法及装置制造方法及图纸

技术编号:24354633 阅读:19 留言:0更新日期:2020-06-03 02:18
本文公开了一种标点符号的处理方法及装置。所述标点符号的处理方法,包括:从语料库中选择句子样本作为训练样本;所述训练样本包括标点符号正确的句子样本和标点符号错误的句子样本;向模型输入句子样本以及所述句子样本中标点符号的位置信息,为所述模型标注输出标签,通过有监督训练的方式训练所述模型预测所述输入的句子样本的正确标点符号表述;其中,所述输出标签至少包括句子样本的标点符号的正确表述方式对应的标签;向所述模型输入待预测的句子和所述句子中标点符号的位置信息,利用所述模型预测所述句子的正确标点符号表述。本文的技术方案能够通过神经网络的深度学习自动对标点符号进行勘误。

A processing method and device of punctuation mark

【技术实现步骤摘要】
一种标点符号的处理方法及装置
本专利技术涉及计算机
,尤其涉及的是一种标点符号的处理方法及装置。
技术介绍
在自然语言的理解中正确的标点符号对语义理解起着至关重要的作用,没有标点符号或标点符号使用不当,直接影响到语言文字的表达功能。人们往往不注意或不重视标点符号的运用,写文章常常是一逗到底或一点到底。标点符号的作用主要体现在两个方面:一是语法作用,如表示停顿、语气、词语性质和作用等;二是修辞作用,即我们通常所说的标点符号的活用、妙用。书面语言中同一句话,同一位置标点符号不同,语气大不一样。例如:正确句子是:他来了。错误句子1:他来了?错误句子2:他来了!在正确句子中,用句号表示的是陈述语气,说的是一件事实。在错误句子1中,用问号表示的是疑问语气,表达的是说话人不相信“他来了”这个判断的疑问心态。在错误句子2中,用叹号表现的是感慨或惊讶的语气,表达的是说话人对“他来了”这个事实的感慨或惊异的感情色彩。目前针对标点符号勘误,一般采用人工勘误的方法,费时费力,效率较低。
技术实现思路
本文提供一种标点符号的处理方法及装置,能够通过神经网络的深度学习自动对标点符号进行勘误。根据本申请的第一方面,本专利技术实施例提供一种标点符号的处理方法,包括:从语料库中选择句子样本作为训练样本;所述训练样本包括标点符号正确的句子样本和标点符号错误的句子样本;向模型输入句子样本以及所述句子样本中标点符号的位置信息,为所述模型标注输出标签,通过有监督训练的方式训练所述模型预测所述输入的句子样本的正确标点符号表述;其中,所述输出标签至少包括句子样本的标点符号的正确表述方式对应的标签;向所述模型输入待预测的句子和所述句子中标点符号的位置信息,利用所述模型预测所述句子的正确标点符号表述。根据本申请的第二方面,本专利技术实施例提供一种标点符号的处理装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的标点符号的处理程序,所述标点符号的处理程序被所述处理器执行时实现上述标点符号的处理方法的步骤。根据本申请的第三方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有标点符号的处理程序,所述标点符号的处理程序被处理器执行时实现上述标点符号的处理方法的步骤。与相关技术相比,本专利技术实施例提供的一种标点符号的处理方法及装置,从语料库中选择句子样本作为训练样本,所述训练样本包括标点符号正确的句子样本和标点符号错误的句子样本;向模型输入句子样本以及所述句子样本中标点符号的位置信息,为所述模型标注输出标签,通过有监督训练的方式训练所述模型预测所述输入的句子样本的正确标点符号表述;其中,所述输出标签至少包括句子样本的标点符号的正确表述方式对应的标签;向所述模型输入待预测的句子和所述句子中标点符号的位置信息,利用所述模型预测所述句子的正确标点符号表述。本专利技术实施例的技术方案能够通过神经网络的深度学习自动对标点符号进行勘误。附图说明图1为本专利技术实施例1的一种标点符号的处理方法的流程图;图2为本专利技术实施例1中Transformer编码器的结构示意图;图3-a为本专利技术实施例1中词嵌入矩阵的示意图;图3-b为本专利技术实施例1中位置嵌入矩阵的示意图;图3-c为本专利技术实施例1中标点符号掩码嵌入矩阵的示意图;图4为本专利技术实施例1中模型的输入输出示意图;图5为本专利技术实施例2的一种标点符号的处理装置的示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。实施例1如图1所示,本专利技术实施例提供了一种标点符号的处理方法,包括:步骤S110,从语料库中选择句子样本作为训练样本;所述训练样本包括标点符号正确的句子样本和标点符号错误的句子样本;步骤S120,向模型输入句子样本以及所述句子样本中标点符号的位置信息,为所述模型标注输出标签,通过有监督训练的方式训练所述模型预测所述输入的句子样本的正确标点符号表述;其中,所述输出标签至少包括句子样本的标点符号的正确表述方式对应的标签;步骤S130,向所述模型输入待预测的句子和所述句子中标点符号的位置信息,利用所述模型预测所述句子的正确标点符号表述。步骤S110中,在训练语料准备阶段,在一种实施方式中,所述从语料库中选择句子样本作为训练样本,包括:从语料库中选择一部分句子样本作为第一语料集合,从语料库中选择另一部分句子样本作为第二语料集合;对所述第一语料集合中的任意一条句子样本,将所述句子样本中的正确标点符号随机替换为错误标点符号,将替换后的句子样本作为模型输入的句子样本,将替换前的句子样本作为用于模型输出标注的参考样本;对所述第二语料集合中的任意一条句子样本,将所述句子样本复制一份得到所述句子样本的副本,将所述句子样本原件作为模型输入的句子样本,将所述句子样本的副本作为用于模型输出标注的参考样本;其中,所述语料库可以是新闻语料构成的语料库。相对于其他文本语料,新闻语料的标点符号正确率较高。其中,所述第一语料集合和第二语料集合包含的句子样本数量相等;在训练语料准备阶段,初始语料获取时,可以先获取大量的新闻语料,然后以预设的概率随机替换样本中的正确标点符号为错误标点符号。由原始语料和随机替换了所述原始语料中的标点符号生成的新语料可以构成第一类型的语料对样本,由原始语料和原始语料的副本(将所述原始语料复制一份)可以构成第二类型的语料对样本。第一类型的语料对样本作为训练的负样本,第二类型的语料对样本作为训练的正样本,通过正负样本的均衡,能够使得模型的学习范围更加全面。以下是一条第一类型的语料对样本的示意:Y:在一次军事行动失败后,他们逃到了邻国。在邻国,他们也面临死亡威胁,其它六名逃亡的活动人士失踪了。X:在一次军事行动失败后!他们逃到了邻国。在邻国?他们也面临死亡威胁。其它六名逃亡的活动人士失踪了:在上述的语料对样本中,Y为原始语料中的一条样本,X为随机替换标点符号后的样本。X与Y可以构成一条语料对样本。在模型训练时,Y作为模型输出的标注参考(可以根据Y对模型输出进行自动标注),X作为模型的输入。步骤S120中,在模型训练阶段,可以采用Transformer作为特征抽取器。在其他的实施方式中,所述模型也可以采用其他的神经网络编码器作为特征抽取器,比如采用CNN(ConvolutionalNeuralNetwork,卷积神经网络)或RNN(RecurrentNeuralNetworks,循环神经网络)作为特征抽取器。Tr本文档来自技高网...

【技术保护点】
1.一种标点符号的处理方法,包括:/n从语料库中选择句子样本作为训练样本;所述训练样本包括标点符号正确的句子样本和标点符号错误的句子样本;/n向模型输入句子样本以及所述句子样本中标点符号的位置信息,为所述模型标注输出标签,通过有监督训练的方式训练所述模型预测所述输入的句子样本的正确标点符号表述;其中,所述输出标签至少包括句子样本的标点符号的正确表述方式对应的标签;/n向所述模型输入待预测的句子和所述句子中标点符号的位置信息,利用所述模型预测所述句子的正确标点符号表述。/n

【技术特征摘要】
1.一种标点符号的处理方法,包括:
从语料库中选择句子样本作为训练样本;所述训练样本包括标点符号正确的句子样本和标点符号错误的句子样本;
向模型输入句子样本以及所述句子样本中标点符号的位置信息,为所述模型标注输出标签,通过有监督训练的方式训练所述模型预测所述输入的句子样本的正确标点符号表述;其中,所述输出标签至少包括句子样本的标点符号的正确表述方式对应的标签;
向所述模型输入待预测的句子和所述句子中标点符号的位置信息,利用所述模型预测所述句子的正确标点符号表述。


2.如权利要求1所述的方法,其特征在于:
所述从语料库中选择句子样本作为训练样本,包括:
从语料库中选择一部分句子样本作为第一语料集合,从语料库中选择另一部分句子样本作为第二语料集合;
对所述第一语料集合中的任意一条句子样本,将所述句子样本中的正确标点符号随机替换为错误标点符号,将替换后的句子样本作为模型输入的句子样本,将替换前的句子样本作为用于模型输出标注的参考样本;
对所述第二语料集合中的任意一条句子样本,将所述句子样本复制一份得到所述句子样本的副本,将所述句子样本原件作为模型输入的句子样本,将所述句子样本的副本作为用于模型输出标注的参考样本。


3.如权利要求1所述的方法,其特征在于:
所述通过有监督训练的方式训练所述模型预测所述输入句子样本的正确标点符号表述,包括:
根据句子样本以及所述句子样本中标点符号的位置信息对所述句子样本中的每一个字进行向量表达,生成所述句子的输入矩阵;
对所述输入矩阵进行模型运算输出输出矩阵,所述输出矩阵包括句子样本中的每个字对应的输入向量经过模型运算后得到的输出向量;
根据所述模型的输出矩阵与所述模型标注的输出标签之间的差异确定模型的梯度信息,通过所述梯度信息进行反向传播以调整所述模型的参数。


4.如权利要求3所述的方法,其特征在于:
所述根据句子样本以及所述句子样本中标点符号的位置信息对所述句子样本中的每一个字进行向量表达,包括:
将句子样本中的每一个字通过文本数字化表示为词嵌入矩阵的向量;将句子样本中的每一个字在句子中的位置信息表示为位置嵌入矩阵的向量;将句子样本中的每一个字是否为标点符号的信息表示为标点符号掩码嵌入矩阵的向量;
对句子样本中的任意一个字,将所述字对应的词嵌入矩阵的...

【专利技术属性】
技术研发人员:陈栋付骁弈
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1