一种基于命名实体识别的中文标点符号添加方法技术

技术编号：25757175 阅读：32 留言：0更新日期：2020-09-25 21:06

本发明专利技术公开了一种基于命名实体识别的快速中文标点符号添加方法，主要包括：收集并清洗文本数据，以命名实体识别任务形式为标点符号添加模型构造生成训练数据集；用双向LSTM或者双向GRU网络加条件随机场的组合，构建轻量级的网络模型；利用训练数据集来训练神经网络；利用训练得到的神经网络模型对无标签文本进行实体识别，根据识别到的实体类别在实体后添加实体所属类别的标点符号。本发明专利技术通过构建轻量级的神经网络模型来对无标点符号文本进行中文标点符号的添加，可以快速地根据句中语义与语法，为无标点符号文本添加上四种常用的标点符号，便于读者阅读文本时快速理解语义。所用的网络结构轻，训练与推理速度快，且不需要大量的训练数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于命名实体识别的中文标点符号添加方法
本专利技术涉及自然语言处理领域，特别是指一种基于命名实体识别的中文标点符号添加方法。
技术介绍
在语音识别生成文本中，识别生成的文本往往不带标点符号，直接以无标点符号文本的形式呈现识别结果会影响读者理解句中表达意思的速度。对于实时性的语音识别转化任务，其对添加的标点符号的类型要求不高，主要能对句子文本进行合理间隔断句，符合读者阅读停顿习惯，便于读者准确快速地理解语义，但其对推理速度有较高的要求，保证整个语音识别与转化的实时性。目前对于无标签文本添加标点符号的方法，主要有两种，一种是语音识别过程中根据语音的停顿间隔音判别进行标点符号的添加，一种是基于自注意力机制模型的深度学习网络进行添加。第一种的标点符号的添加方法对主要根据语音停顿而无法结合句子语义信息，其添加的准确率一般，尤其在语音停顿识别效果不佳或语音卡顿时，会有标点符号生成位置较多错误的情况，同时在声学模型进行语音识别的同时生成标点符号会在一定程序上增加语音识别的词错率。第二种基于自注意力深度学习网络模型的方法，其标点符号的添加效果较好，但由于其需要的网络结构较深，网络参数量较大，其推理速度较慢，对实时性要求较高的任务上并不适用。
技术实现思路
本专利技术提出一种基于命名实体识别的中文标点符号添加方法，通过构建轻量级的神经网络模型来对无标点符号文本进行中文标点符号的添加，可以快速地为无标点符号文本添加上四种常用的标点符号，便于读者快速阅读理解语义。本专利技术的技术方案是这样实现的：<...

【技术保护点】
1.一种基于命名实体识别的中文标点符号添加方法，其特征在于，包括以下步骤：/n步骤1：收集清洗文本数据，将标点符号前的一个词作为命名实体，以命名实体识别任务形式为标点符号添加模型构造生成训练数据集；/n步骤2：用双向LSTM或者双向GRU网络加条件随机场的模型组合，构建轻量级的神经网络模型；/n步骤3：利用步骤1中的训练数据集来训练步骤2中的神经网络模型；/n步骤4：利用步骤3中训练得到的神经网络模型对无标签文本进行实体识别并添加实体所属类别的标点符号。/n

【技术特征摘要】
1.一种基于命名实体识别的中文标点符号添加方法，其特征在于，包括以下步骤：
步骤1：收集清洗文本数据，将标点符号前的一个词作为命名实体，以命名实体识别任务形式为标点符号添加模型构造生成训练数据集；
步骤2：用双向LSTM或者双向GRU网络加条件随机场的模型组合，构建轻量级的神经网络模型；
步骤3：利用步骤1中的训练数据集来训练步骤2中的神经网络模型；
步骤4：利用步骤3中训练得到的神经网络模型对无标签文本进行实体识别并添加实体所属类别的标点符号。

2.根据权利要求1所述的一种基于命名实体识别的中文标点符号添加方法，其特征在于，步骤1具体包括以下步骤：
步骤101：收集中文文本数据，进行数据清洗；通过字符串替换与正则匹配，修正文本中的字符，再过滤掉带有不合格字符的语句，保留修正替换后的数据集中符合要求的句子，得到清洗过后的句子文本序列；
步骤102：构建命名实体识别任务训练数据集的标签，将句中标点符号前的一个词作为标点符号实体，标点符号实体的字的标签类别根据字后的标点符号类别——逗号、句号、感叹号和问号，分别为其设置四种不同的实体标签；句子中除标点符号实体以外的字，再单独设置标签；句子中的四种标点符号自身不生成标签，以此生成标签序列文本；
步骤103：构建命名实体识别任务训练数据集的输入，对步骤101句子文本序列，采用正则过滤去除逗号、句号、感叹号和问号四种标点符号，得到没有标点符号的输入序列文本，所得到的输入序列文本与步骤102的标签文本形成平行文本，作为模型的输入与对应标签；
步骤104：构建字索引字典与标签索引字典，将输入文本中的每个字与标签文本中的每一个标签，都用其在字典中的下标数字进行代表，实现输入与标签的数字化处理；
步骤105：收集或者自训练得到字的预训练嵌入层向量，使输入的汉字字符具有语义信息。

3.根据权利要求1或2所述的一种基于命名实体识别的中文标点符号添加方法，其特征在于，步骤1中收集清洗文本数据具体包括以下步骤：
1)提取文本：从语料文本库中提取出文本信息，去除不需要的信息如文本的ID、所属的链接、文本的标题，保留整段或者整篇的文章主体内容作为待处理文本，进行两道清洗；
2)一次清洗，采用正则匹配的方法，去除上一步中大段文本中的空行，使用字符串替换的办法，将文本存在的英文输入格式下的逗号、句号、问号及感叹号四种标点符号替换为中文输入格式下的逗号、句号、问号及感叹号，最后采用字符串截取的方式对句首为标点符号的进行截取，对句未不存在标点符号的进行句号补充，得到整段的合格的文本序列；
3)二次清洗：采用正则匹配的方式，将上一步得到的整段的合格的文本序列以逗号、句号、问号和感叹号为划分点分成多个小句，再次采用正则匹配的方式检测各个小句中除了汉字字符、英文字符和四种标点符号外，是否还存在除汉字字符、英文字符及四种标点符号字符以外的特殊字符，如果存在，则舍去该小句；不存在特殊字符的小句再次组成整段的合格的文本序列；最后采用正则划分的方式，将整段的合格的文本序列以句号为界，分成多个小句，每个小句构成单选文本，得到整句的合格的文本序列。

4.根据权利要求1所述的一种基于命名实体识别的中文标点符号添加方法，其特征在于，...

【专利技术属性】
技术研发人员：徐波，
申请(专利权)人：广州多益网络股份有限公司，广东利为网络科技有限公司，多益网络有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人