基于加权有限状态转换器的文本内容添加标点方法技术

技术编号：20489521 阅读：27 留言：0更新日期：2019-03-02 21:12

基于加权有限状态转换器的文本内容添加标点方法，涉及语音识别文本内容的后处理以及自然语言处理。将待处理文本进行预处理；将待处理句子文本中可能出现标点的分词间插入标志；将包含标志的句子编译为加权有限状态转换器形式；将均为加权有限状态转换器形式的句子和语言模型进行合成；对合成出的加权有限状态转换器进行剪枝等处理并求解最优路径；将最优路径上的数字状态索引转换为真实符号并逆序排列，即得经过自动添加标点处理的最终结果。以主要解决语音识别中解码内容无标点等断句信息从而影响文字表达与人工阅读的问题，次要用于任何现成无标点文本自动添加标点的问题。

Punctuation Method for Text Content Addition Based on Weighted Finite State Converter

The method of adding punctuation to text content based on weighted finite state converter involves post-processing of speech recognition text content and natural language processing. Preprocessing the text to be processed, inserting markers between the participles that may appear punctuation in the text to be processed, compiling the sentences containing markers into weighted finite state converters, synthesizing the sentence and language models in the form of weighted finite state converters, pruning the weighted finite state converters synthesized and solving the optimal path; The digital state index on the optimal path is converted to real symbols and arranged in reverse order, which is the final result of automatic punctuation. It mainly solves the problem of decoding punctuation-free sentence information in speech recognition, which affects text expression and manual reading. Secondly, it is used to automatically add punctuation to any ready-made punctuation-free text.

全部详细技术资料下载

【技术实现步骤摘要】
基于加权有限状态转换器的文本内容添加标点方法
本专利技术涉及语音识别文本内容的后处理以及自然语言处理，尤其是涉及利用加权有限状态转换器形式的语言模型对无标点文本自动加上常用标点的方法。
技术介绍
在传统的语音识别技术中，识别系统仅针对有声符号进行建模和识别，而无声符号，类似标点符号，如逗号、句号、问号和叹号等则难以像有声符号那样可以依据不同的发音进行区分性的建模和识别，因此，语音识别的结果通常仅仅为一长串没有标点，不包含断句信息的文本，随着识别文本内容的长度增加，这样的结果也变得非常不利于人工阅读，尤其不利于那些利用语音识别技术对大量语音内容进行识别并生成文本内容的场景。目前已经提供解决此问题的方法只有少数几个，但总归可以分为两类，第一类直接利用语音信息，通过判断语音信号中静音的时长是否超过阈值来决定该位置是否应该添加标点符号，若添加，则将该位置的前后语音信息送入到一个分类器中，以此决定添加哪种标点符号；该类代表性专利有《一种符号插入方法及装置》(专利号：CN201711091958.6)和专利《实现语音识别中自动添加标点符号的方法及系统》(专利号：CN201110156209.3)。第二类则仅仅利用生成的文本内容，如将文本中所有的分词通过词向量模型转化为词向量，以此作为基本输入送入深度神经网络计算分词后出现标点的概率，然后取最高概率的添加方式作为最后的添加方案；该类代表性专利有《标点符号的添加方法、装置和计算机设备》(专利号：CN201710911956.0)。此两者都有其不可避免的局限性，由于标点符号与文本内容的语境是密切相关的，前者只考虑了一些简单的...

【技术保护点】
1.基于加权有限状态转换器的文本内容添加标点方法，其特征在于包括以下步骤：1)将待处理文本进行预处理；2)将待处理句子文本中可能出现标点的分词间插入标志；3)将包含标志的句子编译为加权有限状态转换器形式；4)将均为加权有限状态转换器形式的句子和语言模型进行合成；5)对合成出的加权有限状态转换器进行剪枝等处理并求解最优路径；6)将最优路径上的数字状态索引转换为真实符号并逆序排列，即得经过自动添加标点处理的最终结果。

【技术特征摘要】
1.基于加权有限状态转换器的文本内容添加标点方法，其特征在于包括以下步骤：1)将待处理文本进行预处理；2)将待处理句子文本中可能出现标点的分词间插入标志；3)将包含标志的句子编译为加权有限状态转换器形式；4)将均为加权有限状态转换器形式的句子和语言模型进行合成；5)对合成出的加权有限状态转换器进行剪枝等处理并求解最优路径；6)将最优路径上的数字状态索引转换为真实符号并逆序排列，即得经过自动添加标点处理的最终结果。2.如权利要求1所述基于加权有限状态转换器的文本内容添加标点方法，其特征在于在步骤1)中，所述将待处理文本进行预处理的具体方法为：由于基于词典的语音识别出来的结果本身是分词形式，因此不用额外处理，但在其他使用场景若有不是分词形式的句子文本，在使用该方法前，需要提前进行分词，以此与语言模型的分词集合保持一致。3.如权利要求1所述基于加权有限状态转换器的文本内容添加标点方法，其特征在于在步骤2)中，所述将待处理句子文本中可能出现标点的分词间插入标志的具体方法为：所述标志应区别于其他文本，两个分词之间出现标志代表这两个分词之间的位置有概率出现标点，否则必然不出现标志，结合语音信息，通过控制标志的有无，有效避免长词被标点间隔开的情况，对于分词形式的“明天、天晴、适合、出门”这句无标点句子，插入标志后出现的形式如下，设标志为“mark”：[1]明天mark天晴mark适合mark出门；[2]明天天晴mark适合mark出门；[3]明天mark天晴适合mark出门；[4]明天mark天晴mark适合出门；[5]明天天晴适合mark出门；[6]明天天晴mark适合出门；[7]明天mark天晴适合出门；[8]明天天晴适合出门；所述插入标志后一共有8种形式，在不借鉴语音信息或其他规则的情况，通常取第1种插入方法，反之，将依据借鉴信息处理得到第2到第8种的某个形式。4.如权利要求1所述基于加权有限状态转换器的文本内容添加标点方法，其特征在于在步骤3)中，所述将包含标志的句子编译为加权有限状态转换器形式的具体方法为：该形式使用标准的openfst形式，所述openfst形式为一种关于加权有限状态转换器的由开源代码定义的标准读写格式，该格式描述加权有限状态转换器结构所包含的初始状态结点、转移弧、弧权重或代价、状态结点、输入标签、输出标签以及结束状态结点；从初始状态结点到结束状态结点通过有向转移弧转移可能形成多条路径，每条路径都各自代表一种标点添加方案，而最终所取方案即各条路径总权重最高或者代价最低的路径所代表的标点添加方案；对包含标志的句子进行编译时，两个分词间有标志的，仅仅多插入代表着各个标点的状态结点以及在这两个分词间添加标点类别数量条的线性路径，而两个分词之间的原转移弧则表示这两个分词间不加标点符号的情况，具体过程为：(1)读取第一个必然是分词的符号，建立序号为0的初始状态结点及序号为1的状态并在序号0和序号1之间建立输入/输出标签均为“分词1”的第一条转移弧，所述第一条转移弧简记为(0,1，分词1)；(2)读取第二个符号，第一种情况为：若该符号不为标志，则必是分词，此时仅添加状态2，并添加弧(1,2，分词2)，即分词1到分词2仅有一条无标点路径可走；第二种情况为：若该符号为标志，则再读下一个必然是分词的符号，并添加状态2,3,4,5,6，以及分别添加弧(1,2,“，”)(1,3，“。”)(1，4，“？”)(1,5，“！”)(1,6,分词2)(2,6，分词2)(3,6，分词2)(4,6，分词2)(5,6，分词2)，此处仅表示添加四种标点的转移路径，作为示例，而更一般的情况是，假如有m个标点符号，则此...

【专利技术属性】
技术研发人员：洪青阳，赵淼，
申请(专利权)人：厦门大学，厦门天聪智能软件有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人