当前位置: 首页 > 专利查询>厦门大学专利>正文

基于加权有限状态转换器的文本内容添加标点方法技术

技术编号:20489521 阅读:27 留言:0更新日期:2019-03-02 21:12
基于加权有限状态转换器的文本内容添加标点方法,涉及语音识别文本内容的后处理以及自然语言处理。将待处理文本进行预处理;将待处理句子文本中可能出现标点的分词间插入标志;将包含标志的句子编译为加权有限状态转换器形式;将均为加权有限状态转换器形式的句子和语言模型进行合成;对合成出的加权有限状态转换器进行剪枝等处理并求解最优路径;将最优路径上的数字状态索引转换为真实符号并逆序排列,即得经过自动添加标点处理的最终结果。以主要解决语音识别中解码内容无标点等断句信息从而影响文字表达与人工阅读的问题,次要用于任何现成无标点文本自动添加标点的问题。

Punctuation Method for Text Content Addition Based on Weighted Finite State Converter

The method of adding punctuation to text content based on weighted finite state converter involves post-processing of speech recognition text content and natural language processing. Preprocessing the text to be processed, inserting markers between the participles that may appear punctuation in the text to be processed, compiling the sentences containing markers into weighted finite state converters, synthesizing the sentence and language models in the form of weighted finite state converters, pruning the weighted finite state converters synthesized and solving the optimal path; The digital state index on the optimal path is converted to real symbols and arranged in reverse order, which is the final result of automatic punctuation. It mainly solves the problem of decoding punctuation-free sentence information in speech recognition, which affects text expression and manual reading. Secondly, it is used to automatically add punctuation to any ready-made punctuation-free text.

【技术实现步骤摘要】
基于加权有限状态转换器的文本内容添加标点方法
本专利技术涉及语音识别文本内容的后处理以及自然语言处理,尤其是涉及利用加权有限状态转换器形式的语言模型对无标点文本自动加上常用标点的方法。
技术介绍
在传统的语音识别技术中,识别系统仅针对有声符号进行建模和识别,而无声符号,类似标点符号,如逗号、句号、问号和叹号等则难以像有声符号那样可以依据不同的发音进行区分性的建模和识别,因此,语音识别的结果通常仅仅为一长串没有标点,不包含断句信息的文本,随着识别文本内容的长度增加,这样的结果也变得非常不利于人工阅读,尤其不利于那些利用语音识别技术对大量语音内容进行识别并生成文本内容的场景。目前已经提供解决此问题的方法只有少数几个,但总归可以分为两类,第一类直接利用语音信息,通过判断语音信号中静音的时长是否超过阈值来决定该位置是否应该添加标点符号,若添加,则将该位置的前后语音信息送入到一个分类器中,以此决定添加哪种标点符号;该类代表性专利有《一种符号插入方法及装置》(专利号:CN201711091958.6)和专利《实现语音识别中自动添加标点符号的方法及系统》(专利号:CN201110156209.3)。第二类则仅仅利用生成的文本内容,如将文本中所有的分词通过词向量模型转化为词向量,以此作为基本输入送入深度神经网络计算分词后出现标点的概率,然后取最高概率的添加方式作为最后的添加方案;该类代表性专利有《标点符号的添加方法、装置和计算机设备》(专利号:CN201710911956.0)。此两者都有其不可避免的局限性,由于标点符号与文本内容的语境是密切相关的,前者只考虑了一些简单的语音信息,如通过静音时长判断时,则无法应对说话者说话时因为犹豫话没说完但突然停顿的情况,也不是很适合应对说话较快的情况,且不能独立地用于只有文本的场景。而后者所述特例虽然脱离了语音内容,能够独立对文本内容进行标点的添加,但是由于其系统的复杂性,对资源和时间的消耗也有所增加,而当需要更新时,如增加标点或者增加语料,也要花更长的时间重新训练神经网络模型,又由于其完全未考虑到语音层面,如静音的信息,可能导致一些比较长的术语和专有名词被标点间隔开。考虑到用自然语言处理领域下的n-gram语言模型(n元语法)对标点符号的语境建模是一种简单快速有效的方法,更新障碍小,而加权有限状态转换器(WFST)处理句子的速度极快且具有易操控的特性,从而又很容易控制在哪些位置加标点,侧重加什么标点,因此,基于加权有限状态转换器的文本内容自动添加标点是一个自由高效且易实现的方法,不仅能独立于语音内容直接对文本进行处理,又能在一定程度上考虑到语音的信息,它与语音识别模块既相互独立又能紧密结合。
技术实现思路
本专利技术旨在提供一种为无标点等断句信息的文本自动添加标点等断句信息的方法和系统,以主要解决语音识别中解码内容无标点等断句信息从而影响文字表达与人工阅读的问题,用于任何现成无标点文本自动添加标点的问题,如无标点语料恢复标点等断句信息的基于加权有限状态转换器的文本内容添加标点方法。本专利技术包括以下步骤:1)将待处理文本进行预处理;2)将待处理句子文本中可能出现标点的分词间插入标志;3)将包含标志的句子编译为加权有限状态转换器形式;4)将均为加权有限状态转换器形式的句子和语言模型进行合成;5)对合成出的加权有限状态转换器进行剪枝等处理并求解最优路径;6)将最优路径上的数字状态索引转换为真实符号并逆序排列,即得经过自动添加标点处理的最终结果。在步骤1)中,所述将待处理文本进行预处理的具体方法可为:由于基于词典的语音识别出来的结果本身可以是分词形式,因此不用额外处理,但在其他使用场景若有不是分词形式的句子文本,在使用该方法前,需要提前进行分词,以此与语言模型的分词集合保持一致。在步骤2)中,所述将待处理句子文本中可能出现标点的分词间插入标志的具体方法可为:所述标志应区别于其他文本,两个分词之间出现标志代表这两个分词之间的位置有概率出现标点,否则必然不出现标志,结合语音信息,通过控制标志的有无,可以有效避免长词被标点间隔开的情况,对于分词形式的“明天、天晴、适合、出门”这句无标点句子,插入标志后可能出现的形式如下,设标志为“mark”:[1]明天mark天晴mark适合mark出门;[2]明天天晴mark适合mark出门;[3]明天mark天晴适合mark出门;[4]明天mark天晴mark适合出门;[5]明天天晴适合mark出门;[6]明天天晴mark适合出门;[7]明天mark天晴适合出门;[8]明天天晴适合出门;所述插入标志后一共有8种形式,在不借鉴语音信息或其他规则的情况,通常取第1种插入方法,反之,将依据借鉴信息处理得到第2到第8种的某个形式。在步骤3)中,所述将包含标志的句子编译为加权有限状态转换器形式的具体方法可为:该形式在具体实施时主要使用标准的openfst形式,所述openfst形式为一种关于加权有限状态转换器的由开源代码定义的标准读写格式,该格式描述加权有限状态转换器结构所包含的初始状态结点、转移弧、弧权重或代价、状态结点、输入标签、输出标签以及结束状态结点;从初始状态结点到结束状态结点通过有向转移弧转移可能形成多条路径,每条路径都各自代表一种标点添加方案,而最终所取方案即各条路径总权重最高或者代价最低的路径所代表的标点添加方案;对包含标志的句子进行编译时,两个分词间有标志的,仅仅多插入代表着各个标点的状态结点以及在这两个分词间添加标点类别数量条的线性路径,而两个分词之间的原转移弧则表示这两个分词间不加标点符号的情况,具体过程为:(1)读取第一个必然是分词的符号,建立序号为0的初始状态结点及序号为1的状态并在序号0和序号1之间建立输入/输出标签均为“分词1”的第一条转移弧,所述第一条转移弧简记为(0,1,分词1);(2)读取第二个符号,第一种情况为:若该符号不为标志,则必是分词,此时仅添加状态2,并添加弧(1,2,分词2),即分词1到分词2仅有一条无标点路径可走;第二种情况为:若该符号为标志,则再读下一个必然是分词的符号,并添加状态2,3,4,5,6,以及分别添加弧(1,2,“,”)(1,3,“。”)(1,4,“?”)(1,5,“!”)(1,6,分词2)(2,6,分词2)(3,6,分词2)(4,6,分词2)(5,6,分词2),此处仅表示添加四种标点的转移路径(作为示例),而更一般的情况是,假如有m个标点符号,则此时应添加一共m+1个状态,并从2开始对这m+1个状态进行编号,即编号依次为2,3,4,…,m,m+1,m+2,同时添加从状态1发出的弧(1,2,标点1)(1,3,标点2)(1,4,标点3)…(1,m,标点m-1)(1,m+1,标点m)(1,m+2,分词2),并添加进入状态m+1的弧(2,m+2,分词2)(3,m+2,分词2)(4,m+2,分词2)…(m,m+2,分词2)(m+1,m+2,分词2),使得分词1到分词2时可能走一条出现某一种标点或不出现标点的转移路径,第二种情况对于第一种情况来说,仅仅多了几条代表标点的路径;另外,任意一条弧(序号x,序号y,标签z)在被添加时,均可额外补充干预权重以偏向某条路径,从而优化最终加标点的效果;若不额外添加干预权重,本文档来自技高网
...

【技术保护点】
1.基于加权有限状态转换器的文本内容添加标点方法,其特征在于包括以下步骤:1)将待处理文本进行预处理;2)将待处理句子文本中可能出现标点的分词间插入标志;3)将包含标志的句子编译为加权有限状态转换器形式;4)将均为加权有限状态转换器形式的句子和语言模型进行合成;5)对合成出的加权有限状态转换器进行剪枝等处理并求解最优路径;6)将最优路径上的数字状态索引转换为真实符号并逆序排列,即得经过自动添加标点处理的最终结果。

【技术特征摘要】
1.基于加权有限状态转换器的文本内容添加标点方法,其特征在于包括以下步骤:1)将待处理文本进行预处理;2)将待处理句子文本中可能出现标点的分词间插入标志;3)将包含标志的句子编译为加权有限状态转换器形式;4)将均为加权有限状态转换器形式的句子和语言模型进行合成;5)对合成出的加权有限状态转换器进行剪枝等处理并求解最优路径;6)将最优路径上的数字状态索引转换为真实符号并逆序排列,即得经过自动添加标点处理的最终结果。2.如权利要求1所述基于加权有限状态转换器的文本内容添加标点方法,其特征在于在步骤1)中,所述将待处理文本进行预处理的具体方法为:由于基于词典的语音识别出来的结果本身是分词形式,因此不用额外处理,但在其他使用场景若有不是分词形式的句子文本,在使用该方法前,需要提前进行分词,以此与语言模型的分词集合保持一致。3.如权利要求1所述基于加权有限状态转换器的文本内容添加标点方法,其特征在于在步骤2)中,所述将待处理句子文本中可能出现标点的分词间插入标志的具体方法为:所述标志应区别于其他文本,两个分词之间出现标志代表这两个分词之间的位置有概率出现标点,否则必然不出现标志,结合语音信息,通过控制标志的有无,有效避免长词被标点间隔开的情况,对于分词形式的“明天、天晴、适合、出门”这句无标点句子,插入标志后出现的形式如下,设标志为“mark”:[1]明天mark天晴mark适合mark出门;[2]明天天晴mark适合mark出门;[3]明天mark天晴适合mark出门;[4]明天mark天晴mark适合出门;[5]明天天晴适合mark出门;[6]明天天晴mark适合出门;[7]明天mark天晴适合出门;[8]明天天晴适合出门;所述插入标志后一共有8种形式,在不借鉴语音信息或其他规则的情况,通常取第1种插入方法,反之,将依据借鉴信息处理得到第2到第8种的某个形式。4.如权利要求1所述基于加权有限状态转换器的文本内容添加标点方法,其特征在于在步骤3)中,所述将包含标志的句子编译为加权有限状态转换器形式的具体方法为:该形式使用标准的openfst形式,所述openfst形式为一种关于加权有限状态转换器的由开源代码定义的标准读写格式,该格式描述加权有限状态转换器结构所包含的初始状态结点、转移弧、弧权重或代价、状态结点、输入标签、输出标签以及结束状态结点;从初始状态结点到结束状态结点通过有向转移弧转移可能形成多条路径,每条路径都各自代表一种标点添加方案,而最终所取方案即各条路径总权重最高或者代价最低的路径所代表的标点添加方案;对包含标志的句子进行编译时,两个分词间有标志的,仅仅多插入代表着各个标点的状态结点以及在这两个分词间添加标点类别数量条的线性路径,而两个分词之间的原转移弧则表示这两个分词间不加标点符号的情况,具体过程为:(1)读取第一个必然是分词的符号,建立序号为0的初始状态结点及序号为1的状态并在序号0和序号1之间建立输入/输出标签均为“分词1”的第一条转移弧,所述第一条转移弧简记为(0,1,分词1);(2)读取第二个符号,第一种情况为:若该符号不为标志,则必是分词,此时仅添加状态2,并添加弧(1,2,分词2),即分词1到分词2仅有一条无标点路径可走;第二种情况为:若该符号为标志,则再读下一个必然是分词的符号,并添加状态2,3,4,5,6,以及分别添加弧(1,2,“,”)(1,3,“。”)(1,4,“?”)(1,5,“!”)(1,6,分词2)(2,6,分词2)(3,6,分词2)(4,6,分词2)(5,6,分词2),此处仅表示添加四种标点的转移路径,作为示例,而更一般的情况是,假如有m个标点符号,则此...

【专利技术属性】
技术研发人员:洪青阳赵淼
申请(专利权)人:厦门大学厦门天聪智能软件有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1