【技术实现步骤摘要】
标点符号添加方法、系统、移动终端及存储介质
本专利技术属于语音识别
,尤其涉及一种标点符号添加方法、系统、移动终端及存储介质。
技术介绍
近年来,随着语音技术的飞速发展,语音识别技术凭借其智能、高效和人性化的优势,被广泛应用于生产、生活的各个领域,越来越受到大众的欢迎,但目前来说,语音在经过语音识别模型之后,输出的均为无符号文本。这严重影响了语音识别技术在会议记录、语音转文本、操作和应用记录等方面的应用,因此,语音识别过程中标点符号的添加问题越来越受人们所重视。现有的标点符号添加过程中,只是依据3-gram方式对应进行标点的添加,这样往往导致标点符号添加错误,且只能添加逗号等分隔符进行分句,使得标点添加准确率低下,且使得转化后的文本往往需要大量的人工干预以进行标点的校正,导致标点符号添加效率低下。
技术实现思路
本专利技术实施例要解决的技术问题是,由于现有的标点符号添加只是依据3-gram方式对应进行标点的添加,所导致的标点符号添加准确率低下的问题。本专利技术实施例是这样实现的,一种标点符号添加方法,所述方法包括:获取待识别语音,并对所述待识别语音进行语音识别,以得到目标文本;对所述目标文本进行特征词的提取和标注,并将所述特征词的标注结果与本地预存储的语言表达习惯进行匹配,所述特征词包括名词、动词、状态词、程度词和辅助词;当所述标注结果与所述语言表达习惯匹配成功时,对提取后的所述目标文本进行修正条件的判断,根据判断结果对所述目标文本进行标点符号修正,并 ...
【技术保护点】
1.一种标点符号添加方法,其特征在于,所述方法包括:/n获取待识别语音,并对所述待识别语音进行语音识别,以得到目标文本;/n对所述目标文本进行特征词的提取和标注,并将所述特征词的标注结果与本地预存储的语言表达习惯进行匹配,所述特征词包括名词、动词、状态词、程度词和辅助词;/n当所述标注结果与所述语言表达习惯匹配成功时,对提取后的所述目标文本进行修正条件的判断,根据判断结果对所述目标文本进行标点符号修正,并输出所述目标文本;/n当所述标注结果与所述语言表达习惯未匹配成功时,根据所述语言表达习惯对所述目标文本进行标点符号修正,并输出所述目标文本。/n
【技术特征摘要】
1.一种标点符号添加方法,其特征在于,所述方法包括:
获取待识别语音,并对所述待识别语音进行语音识别,以得到目标文本;
对所述目标文本进行特征词的提取和标注,并将所述特征词的标注结果与本地预存储的语言表达习惯进行匹配,所述特征词包括名词、动词、状态词、程度词和辅助词;
当所述标注结果与所述语言表达习惯匹配成功时,对提取后的所述目标文本进行修正条件的判断,根据判断结果对所述目标文本进行标点符号修正,并输出所述目标文本;
当所述标注结果与所述语言表达习惯未匹配成功时,根据所述语言表达习惯对所述目标文本进行标点符号修正,并输出所述目标文本。
2.如权利要求1所述的标点符号添加方法,其特征在于,所述将所述特征词的标注结果与本地预存储的语言表达习惯进行匹配的步骤之前,所述方法还包括:
对所述目标文本进行停顿检测,并根据检测结果和所述语言表达习惯判断所述目标文本是否断句正确;
当判断到所述目标文本断句正确时,则触发所述标注结果与所述语言表达习惯之间的匹配;
当判断到所述目标文本断句未正确时,则直接对所述目标文本进行所述修正条件的判断,并根据判断结果对所述目标文本进行标点符号添加。
3.如权利要求1所述的标点符号添加方法,其特征在于,所述对提取后的所述目标文本进行修正条件的判断的步骤包括:
判断所述目标文本中的文本语句内是否存在停顿;
当判断到所述文本语句内存在停顿时,则在停顿对应位置添加逗号;
判断所述目标文本中相邻所述特征词之间是否存在并列关系;
当判断到相邻所述特征词之间存在并列关系时,则在相邻所述特征词之间添加顿号;
判断相邻所述文本语句的句式之间是否存在并列关系;
当判断到相邻所述文本语句的句式之间存在并列关系时,则在相邻所述文本语句之间添加分号;
判断所述文本语句内是否存在专有词;
当判断到所述文本语句内存在所述专有词时,对所述专有词添加引号。
4.如权利要求3所述的标点符号添加方法,其特征在于,所述对提取后的所述目标文本进行修正条件的判断的步骤还包括:
判断所述文本语句是否为解释说明语句;
当判断到所述文本语句为所述解释说明书语句时,则在所述文本语句的末端添加冒号;
判断所述文本语句是否为疑问句;
当判断到所述文本语句为疑问句时,则在所述文本语句的末端添加问号;
判断所述文本语句是否为感叹句;
当判断到所...
【专利技术属性】
技术研发人员:张广学,肖龙源,李稀敏,蔡振华,刘晓葳,王静,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。