一种基于命名实体识别的中文标点符号添加方法技术

技术编号:25757175 阅读:32 留言:0更新日期:2020-09-25 21:06
本发明专利技术公开了一种基于命名实体识别的快速中文标点符号添加方法,主要包括:收集并清洗文本数据,以命名实体识别任务形式为标点符号添加模型构造生成训练数据集;用双向LSTM或者双向GRU网络加条件随机场的组合,构建轻量级的网络模型;利用训练数据集来训练神经网络;利用训练得到的神经网络模型对无标签文本进行实体识别,根据识别到的实体类别在实体后添加实体所属类别的标点符号。本发明专利技术通过构建轻量级的神经网络模型来对无标点符号文本进行中文标点符号的添加,可以快速地根据句中语义与语法,为无标点符号文本添加上四种常用的标点符号,便于读者阅读文本时快速理解语义。所用的网络结构轻,训练与推理速度快,且不需要大量的训练数据。

【技术实现步骤摘要】
一种基于命名实体识别的中文标点符号添加方法
本专利技术涉及自然语言处理领域,特别是指一种基于命名实体识别的中文标点符号添加方法。
技术介绍
在语音识别生成文本中,识别生成的文本往往不带标点符号,直接以无标点符号文本的形式呈现识别结果会影响读者理解句中表达意思的速度。对于实时性的语音识别转化任务,其对添加的标点符号的类型要求不高,主要能对句子文本进行合理间隔断句,符合读者阅读停顿习惯,便于读者准确快速地理解语义,但其对推理速度有较高的要求,保证整个语音识别与转化的实时性。目前对于无标签文本添加标点符号的方法,主要有两种,一种是语音识别过程中根据语音的停顿间隔音判别进行标点符号的添加,一种是基于自注意力机制模型的深度学习网络进行添加。第一种的标点符号的添加方法对主要根据语音停顿而无法结合句子语义信息,其添加的准确率一般,尤其在语音停顿识别效果不佳或语音卡顿时,会有标点符号生成位置较多错误的情况,同时在声学模型进行语音识别的同时生成标点符号会在一定程序上增加语音识别的词错率。第二种基于自注意力深度学习网络模型的方法,其标点符号的添加效果较好,但由于其需要的网络结构较深,网络参数量较大,其推理速度较慢,对实时性要求较高的任务上并不适用。
技术实现思路
本专利技术提出一种基于命名实体识别的中文标点符号添加方法,通过构建轻量级的神经网络模型来对无标点符号文本进行中文标点符号的添加,可以快速地为无标点符号文本添加上四种常用的标点符号,便于读者快速阅读理解语义。本专利技术的技术方案是这样实现的:<br>一种基于命名实体识别的中文标点符号添加方法,包括以下步骤:步骤1:收集清洗文本数据,将标点符号前的一个词作为命名实体,以命名实体识别任务形式为标点符号添加模型构造生成训练数据集;步骤2:用双向LSTM或者双向GRU网络加条件随机场的模型组合,构建轻量级的神经网络模型;步骤3:利用步骤1中的训练数据集来训练步骤2中的神经网络模型;步骤4:利用步骤3中训练得到的神经网络模型对无标签文本进行实体识别并添加实体所属类别的标点符号。优选的,步骤1具体包括以下步骤:步骤101:收集中文文本数据,进行数据清洗;通过字符串替换与正则匹配,修正文本中的字符,再过滤掉带有不合格字符的语句,保留修正替换后的数据集中符合要求的句子,得到清洗过后的句子文本序列;步骤102:构建命名实体识别任务训练数据集的标签,将句中将标点符号前的一个词作为标点符号实体,标点符号实体的字的标签类别根据字后的标点符号类别——逗号、句号、感叹号和问号,分别为其设置四种不同的实体标签;句子中非实体的字,再单独设置非实体标签;句子中的四种标点符号本身不生成标签,以此生成标签序列文本。步骤103:构建命名实体识别任务训练数据集的输入,对步骤101句子文本序列,采用正则过滤去除逗号、句号、感叹号和问号四种标点符号,得到没有标点符号的输入序列文本,所得到的输入序列文本与步骤102的标签文本形成平行文本,作为模型的输入与对应标签;步骤104:构建字索引字典与标签索引字典,将输入文本中的每个字与标签文本中的每一个标签,都用其在字典中的下标数字进行代表,实现输入与标签的数字化处理;步骤105:收集或者自训练得到字的预训练嵌入层向量,使输入的汉字字符具有语义信息。优选的,步骤1中收集清洗文本数据具体包括以下步骤:1)提取文本:从语料文本库中提取出文本信息,去除不需要的信息如文本的ID、所属的链接、文本的标题,保留整段或者整篇的文章主体内容作为待处理文本,进行两道清洗;2)一次清洗,采用正则匹配的方法,去除上一步中大段文本中的空行,使用字符串替换的办法,将文本存在的英文输入格式下的逗号、句号、问号及感叹号四种标点符号替换为中文输入格式下的逗号、句号、问号及感叹号,最后采用字符串截取的方式对句首为标点符号的进行截取,对句未不存在标点符号的进行句号补充,得到整段的合格的文本序列;3)二次清洗:采用正则匹配的方式,将上一步得到的整段的合格的文本序列以逗号、句号、问号和感叹号为划分点分成多个小句,再次采用正则匹配的方式检测各个小句中除了汉字字符、英文字符和四种标点符号外,是否还存在除汉字、英文及标点符号以外的特殊字符,如果存在,则舍去该小句;由句中不存在特殊字符的小句再次组成整段的合格的文本序列;最后采用正则划分的方式,将整段的合格的文本序列以句号为界,分成多个小句,每个小句构成单选文本,得到整句的合格的文本序列。优选的,步骤2具体包括以下步骤:步骤201:利用深度学习框架构建神经网络,通过搭设双向LSTM或者双向GRU神经网络来构建序列标注模型;双向LSTM或者双向GRU神经网络模型后接入条件随机场概率模型网络;步骤202:构建字向量嵌入矩阵、相对位置向量嵌入矩阵、词性向量嵌入矩阵,对文本中的每一个字进行特征向量嵌入,包括根据该字的字向量,该字在所属词中的相对位置的向量,该字的所属词的词性类别的向量,三者共同组成字特征向量;步骤203:将步骤202得出的字的特征向量,按字在句子中的先后顺序输入步骤201中的双向LSTM或双向GRU网络模型,通过双向LSTM或双向GRU网络模型将词的特征向量转化生成字的表征特征向量;步骤204:将步骤203得出的句子中的每一个字的表征特征向量输入步骤201中条件随机场概率模型,得到句子中的每一个字属于每种命名实体标签的预测概率;字的所属命名实体标签的概率包括,属于逗号实体起始标签的概率,属于逗号实体其它字标签;属于句号实体起始标签的概率,属于句号实体其它字标签的概率;以及问号与感叹号实体起始与中间字的概率,以及不属于任务实体的标签O的概率,共9种所属标签的概率,取概率值最高的标签,作为句中该字的命名实体类别标签。优选的,步骤202中,句中每个字的嵌入层向量由字向量,字在所属词的相对位置向量,字的词性类别向量组成,分别来表征句中字的语义信息、该字所属词信息及所属词的词性信息。优选的,字向量嵌入矩阵采用其它经过大量中文语料预训练的得到的字向量矩阵或在神经网络模型中初始化生成,随神经网络模型的训练调整得到。优选的,步骤202中利用分词工具对无标签文本进行分词,分词得到的词由多个字组成或由单个字组成;分词后将得到的每一个词中的第一个字的相对位置设置为0,第二字的相对位置设置为1,以此类推;分词后得到该词的词性,给每一种词性以不同的数字表示,词中的每一个字的词性类别都设置为所属词的词性类别;然后针对相对位置的数字和词性的数字,设置两个不同的嵌入层向量矩阵,分别以其数字作为下标,查找得到该字的相对位置向量和词性向量。优先的,步骤202中,每个字的字向量、相对位置向量与词性向量三者拼接得到该字的嵌入层向量。优选的,步骤204中条件随机场概率模型在可以通过概率统计,在时序上约束生成标签的字与其前一个字和后一个字的标签在位置上相对关系。优选的,步骤4具体包括以下步骤:步骤401:利用模型识别无标签本文档来自技高网...

【技术保护点】
1.一种基于命名实体识别的中文标点符号添加方法,其特征在于,包括以下步骤:/n步骤1:收集清洗文本数据,将标点符号前的一个词作为命名实体,以命名实体识别任务形式为标点符号添加模型构造生成训练数据集;/n步骤2:用双向LSTM或者双向GRU网络加条件随机场的模型组合,构建轻量级的神经网络模型;/n步骤3:利用步骤1中的训练数据集来训练步骤2中的神经网络模型;/n步骤4:利用步骤3中训练得到的神经网络模型对无标签文本进行实体识别并添加实体所属类别的标点符号。/n

【技术特征摘要】
1.一种基于命名实体识别的中文标点符号添加方法,其特征在于,包括以下步骤:
步骤1:收集清洗文本数据,将标点符号前的一个词作为命名实体,以命名实体识别任务形式为标点符号添加模型构造生成训练数据集;
步骤2:用双向LSTM或者双向GRU网络加条件随机场的模型组合,构建轻量级的神经网络模型;
步骤3:利用步骤1中的训练数据集来训练步骤2中的神经网络模型;
步骤4:利用步骤3中训练得到的神经网络模型对无标签文本进行实体识别并添加实体所属类别的标点符号。


2.根据权利要求1所述的一种基于命名实体识别的中文标点符号添加方法,其特征在于,步骤1具体包括以下步骤:
步骤101:收集中文文本数据,进行数据清洗;通过字符串替换与正则匹配,修正文本中的字符,再过滤掉带有不合格字符的语句,保留修正替换后的数据集中符合要求的句子,得到清洗过后的句子文本序列;
步骤102:构建命名实体识别任务训练数据集的标签,将句中标点符号前的一个词作为标点符号实体,标点符号实体的字的标签类别根据字后的标点符号类别——逗号、句号、感叹号和问号,分别为其设置四种不同的实体标签;句子中除标点符号实体以外的字,再单独设置标签;句子中的四种标点符号自身不生成标签,以此生成标签序列文本;
步骤103:构建命名实体识别任务训练数据集的输入,对步骤101句子文本序列,采用正则过滤去除逗号、句号、感叹号和问号四种标点符号,得到没有标点符号的输入序列文本,所得到的输入序列文本与步骤102的标签文本形成平行文本,作为模型的输入与对应标签;
步骤104:构建字索引字典与标签索引字典,将输入文本中的每个字与标签文本中的每一个标签,都用其在字典中的下标数字进行代表,实现输入与标签的数字化处理;
步骤105:收集或者自训练得到字的预训练嵌入层向量,使输入的汉字字符具有语义信息。


3.根据权利要求1或2所述的一种基于命名实体识别的中文标点符号添加方法,其特征在于,步骤1中收集清洗文本数据具体包括以下步骤:
1)提取文本:从语料文本库中提取出文本信息,去除不需要的信息如文本的ID、所属的链接、文本的标题,保留整段或者整篇的文章主体内容作为待处理文本,进行两道清洗;
2)一次清洗,采用正则匹配的方法,去除上一步中大段文本中的空行,使用字符串替换的办法,将文本存在的英文输入格式下的逗号、句号、问号及感叹号四种标点符号替换为中文输入格式下的逗号、句号、问号及感叹号,最后采用字符串截取的方式对句首为标点符号的进行截取,对句未不存在标点符号的进行句号补充,得到整段的合格的文本序列;
3)二次清洗:采用正则匹配的方式,将上一步得到的整段的合格的文本序列以逗号、句号、问号和感叹号为划分点分成多个小句,再次采用正则匹配的方式检测各个小句中除了汉字字符、英文字符和四种标点符号外,是否还存在除汉字字符、英文字符及四种标点符号字符以外的特殊字符,如果存在,则舍去该小句;不存在特殊字符的小句再次组成整段的合格的文本序列;最后采用正则划分的方式,将整段的合格的文本序列以句号为界,分成多个小句,每个小句构成单选文本,得到整句的合格的文本序列。


4.根据权利要求1所述的一种基于命名实体识别的中文标点符号添加方法,其特征在于,...

【专利技术属性】
技术研发人员:徐波
申请(专利权)人:广州多益网络股份有限公司广东利为网络科技有限公司多益网络有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1