标点符号添加方法、系统、移动终端及存储介质技术方案

技术编号:23400487 阅读:104 留言:0更新日期:2020-02-22 12:42
本发明专利技术适用于语音识别技术领域,提供了一种标点符号添加方法、系统、移动终端及存储介质,该方法包括:获取待识别语音进行语音识别,以得到目标文本;对目标文本进行特征词的提取和标注,并将特征词的标注结果与语言表达习惯进行匹配;当标注结果与语言表达习惯匹配成功时,对提取后的目标文本进行修正条件的判断,根据判断结果对目标文本进行标点符号修正,并输出目标文本;当标注结果与语言表达习惯未匹配成功时,根据语言表达习惯对目标文本进行标点符号添加,并输出目标文本。本发明专利技术通过基于停顿检测、特征词的标注结果和语言表达习惯,以对应对文本进行标点符号的辅助修正,防止了由于仅根据3‑gram方式进行标点添加所导致的准确率低下的现象。

Punctuation method, system, mobile terminal and storage medium

【技术实现步骤摘要】
标点符号添加方法、系统、移动终端及存储介质
本专利技术属于语音识别
,尤其涉及一种标点符号添加方法、系统、移动终端及存储介质。
技术介绍
近年来,随着语音技术的飞速发展,语音识别技术凭借其智能、高效和人性化的优势,被广泛应用于生产、生活的各个领域,越来越受到大众的欢迎,但目前来说,语音在经过语音识别模型之后,输出的均为无符号文本。这严重影响了语音识别技术在会议记录、语音转文本、操作和应用记录等方面的应用,因此,语音识别过程中标点符号的添加问题越来越受人们所重视。现有的标点符号添加过程中,只是依据3-gram方式对应进行标点的添加,这样往往导致标点符号添加错误,且只能添加逗号等分隔符进行分句,使得标点添加准确率低下,且使得转化后的文本往往需要大量的人工干预以进行标点的校正,导致标点符号添加效率低下。
技术实现思路
本专利技术实施例要解决的技术问题是,由于现有的标点符号添加只是依据3-gram方式对应进行标点的添加,所导致的标点符号添加准确率低下的问题。本专利技术实施例是这样实现的,一种标点符号添加方法,所述方法包括:获取待识别语音,并对所述待识别语音进行语音识别,以得到目标文本;对所述目标文本进行特征词的提取和标注,并将所述特征词的标注结果与本地预存储的语言表达习惯进行匹配,所述特征词包括名词、动词、状态词、程度词和辅助词;当所述标注结果与所述语言表达习惯匹配成功时,对提取后的所述目标文本进行修正条件的判断,根据判断结果对所述目标文本进行标点符号修正,并输出所述目标文本;当所述标注结果与所述语言表达习惯未匹配成功时,根据所述语言表达习惯对所述目标文本进行标点符号修正,并输出所述目标文本。更进一步的,所述将所述特征词的标注结果与本地预存储的语言表达习惯进行匹配的步骤之前,所述方法还包括:对所述目标文本进行停顿检测,并根据检测结果和所述语言表达习惯判断所述目标文本是否断句正确;当判断到所述目标文本断句正确时,则触发所述标注结果与所述语言表达习惯之间的匹配;当判断到所述目标文本断句未正确时,则直接对所述目标文本进行所述修正条件的判断,并根据判断结果对所述目标文本进行标点符号添加。更进一步的,所述对提取后的所述目标文本进行修正条件的判断的步骤包括:判断所述目标文本中的文本语句内是否存在停顿;当判断到所述文本语句内存在停顿时,则在停顿对应位置添加逗号;判断所述目标文本中相邻所述特征词之间是否存在并列关系;当判断到相邻所述特征词之间存在并列关系时,则在相邻所述特征词之间添加顿号;判断相邻所述文本语句的句式之间是否存在并列关系;当判断到相邻所述文本语句的句式之间存在并列关系时,则在相邻所述文本语句之间添加分号;判断所述文本语句内是否存在专有词;当判断到所述文本语句内存在所述专有词时,对所述专有词添加引号。更进一步的,所述对提取后的所述目标文本进行修正条件的判断的步骤还包括:判断所述文本语句是否为解释说明语句;当判断到所述文本语句为所述解释说明书语句时,则在所述文本语句的末端添加冒号;判断所述文本语句是否为疑问句;当判断到所述文本语句为疑问句时,则在所述文本语句的末端添加问号;判断所述文本语句是否为感叹句;当判断到所述文本语句为所述感叹句时,则在所述文本语句的末端添加感叹号;判断所述文本语句是否为陈述句;当判断到所述文本语句为所述陈述句时,则在所述陈述句的末端添加句号。更进一步的,所述判断所述文本语句是否为解释说明语句的步骤包括:判断所述文本语句的后段语句结构是否为名词+主语+谓语结构;若是,则判断订所述文本语句为所述解释说明语句。更进一步的,所述对所述待识别语音进行语音识别的步骤包括:对所述待识别语音进行音素识别,以得到音素数据;对所述音素数据进行解码,以得到所述目标文本。本专利技术实施例的另一目的在于提供一种标点符号添加系统,所述系统包括:语音识别模块,用于获取待识别语音,并对所述待识别语音进行语音识别,以得到目标文本;特征标记模块,用于对所述目标文本进行特征词的提取和标注,并将所述特征词的标注结果与本地预存储的语言表达习惯进行匹配,所述特征词包括名词、动词、状态词、程度词和辅助词;第一标点添加模块,用于当所述标注结果与所述语言表达习惯匹配成功时,对提取后的所述目标文本进行修正条件的判断,根据判断结果对所述目标文本进行标点符号修正,并输出所述目标文本;第二标点添加模块,用于当所述标注结果与所述语言表达习惯未匹配成功时,根据所述语言表达习惯对所述目标文本进行标点符号修正,并输出所述目标文本。更进一步的,所述标点符号添加系统还包括:停顿检测模块,用于对所述目标文本进行停顿检测,并根据检测结果和所述语言表达习惯判断所述目标文本是否断句正确;当判断到所述目标文本断句正确时,则触发所述标注结果与所述语言表达习惯之间的匹配;当判断到所述目标文本断句未正确时,则直接对所述目标文本进行所述修正条件的判断,并根据判断结果对所述目标文本进行标点符号添加。本专利技术实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的标点符号添加方法。本专利技术实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的标点符号添加方法的步骤。本专利技术实施例,通过基于停顿检测、特征词的标注结果和语言表达习惯,以对应对文本进行标点符号的辅助修正,防止了由于仅根据3-gram方式进行标点添加所导致的准确率低下的现象,通过对提取后的所述目标文本进行修正条件的判断的设计,以使在满足修正条件处对应进行标点符号的修正,且通过当判断到所述标注结果与所述语言表达习惯未匹配成功时,直接根据所述语言表达习惯进行标点符号添加的设计,有效的对目标文本的标点添加起到了辅助校正效果,提高了标点添加的准确性。附图说明图1是本专利技术第一实施例提供的标点符号添加方法的流程图;图2是本专利技术第二实施例提供的标点符号添加方法的流程图;图3是本专利技术第三实施例提供的标点符号添加系统的结构示意图;图4是本专利技术第四实施例提供的移动终端的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。现有的标点符号添加过程中,只是依据3-gram方式对应进行标点的添加,使得标点添加准确率低下,且使得转化后的文本往往需要大量的人工干预以进行标点的校正,因此,本专利技术的目的在于通过基于特征本文档来自技高网...

【技术保护点】
1.一种标点符号添加方法,其特征在于,所述方法包括:/n获取待识别语音,并对所述待识别语音进行语音识别,以得到目标文本;/n对所述目标文本进行特征词的提取和标注,并将所述特征词的标注结果与本地预存储的语言表达习惯进行匹配,所述特征词包括名词、动词、状态词、程度词和辅助词;/n当所述标注结果与所述语言表达习惯匹配成功时,对提取后的所述目标文本进行修正条件的判断,根据判断结果对所述目标文本进行标点符号修正,并输出所述目标文本;/n当所述标注结果与所述语言表达习惯未匹配成功时,根据所述语言表达习惯对所述目标文本进行标点符号修正,并输出所述目标文本。/n

【技术特征摘要】
1.一种标点符号添加方法,其特征在于,所述方法包括:
获取待识别语音,并对所述待识别语音进行语音识别,以得到目标文本;
对所述目标文本进行特征词的提取和标注,并将所述特征词的标注结果与本地预存储的语言表达习惯进行匹配,所述特征词包括名词、动词、状态词、程度词和辅助词;
当所述标注结果与所述语言表达习惯匹配成功时,对提取后的所述目标文本进行修正条件的判断,根据判断结果对所述目标文本进行标点符号修正,并输出所述目标文本;
当所述标注结果与所述语言表达习惯未匹配成功时,根据所述语言表达习惯对所述目标文本进行标点符号修正,并输出所述目标文本。


2.如权利要求1所述的标点符号添加方法,其特征在于,所述将所述特征词的标注结果与本地预存储的语言表达习惯进行匹配的步骤之前,所述方法还包括:
对所述目标文本进行停顿检测,并根据检测结果和所述语言表达习惯判断所述目标文本是否断句正确;
当判断到所述目标文本断句正确时,则触发所述标注结果与所述语言表达习惯之间的匹配;
当判断到所述目标文本断句未正确时,则直接对所述目标文本进行所述修正条件的判断,并根据判断结果对所述目标文本进行标点符号添加。


3.如权利要求1所述的标点符号添加方法,其特征在于,所述对提取后的所述目标文本进行修正条件的判断的步骤包括:
判断所述目标文本中的文本语句内是否存在停顿;
当判断到所述文本语句内存在停顿时,则在停顿对应位置添加逗号;
判断所述目标文本中相邻所述特征词之间是否存在并列关系;
当判断到相邻所述特征词之间存在并列关系时,则在相邻所述特征词之间添加顿号;
判断相邻所述文本语句的句式之间是否存在并列关系;
当判断到相邻所述文本语句的句式之间存在并列关系时,则在相邻所述文本语句之间添加分号;
判断所述文本语句内是否存在专有词;
当判断到所述文本语句内存在所述专有词时,对所述专有词添加引号。


4.如权利要求3所述的标点符号添加方法,其特征在于,所述对提取后的所述目标文本进行修正条件的判断的步骤还包括:
判断所述文本语句是否为解释说明语句;
当判断到所述文本语句为所述解释说明书语句时,则在所述文本语句的末端添加冒号;
判断所述文本语句是否为疑问句;
当判断到所述文本语句为疑问句时,则在所述文本语句的末端添加问号;
判断所述文本语句是否为感叹句;
当判断到所...

【专利技术属性】
技术研发人员:张广学肖龙源李稀敏蔡振华刘晓葳王静
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1