The embodiment of the present invention provides a data processing method, device and electronic device, in which the method includes: acquiring the current speech recognition text; splicing the current speech recognition text and the N output text to obtain the splicing text, in which the N is a positive integer; adding punctuation in the splicing text to extract and divide the splicing text from the splicing text added punctuation. The above N output text data as the current output text and output. The embodiment of the present invention can determine the end punctuation of the text before and after the pause by combining the two texts before and after the pause, so as to solve the problem of incorrect punctuation due to the pause, thereby improving the accuracy of the punctuation.
【技术实现步骤摘要】
一种数据处理方法、装置和电子设备
本专利技术涉及数据处理
,特别是涉及一种数据处理方法、装置和电子设备。
技术介绍
人工智能包括十分广泛的科学,由不同的领域组成,如机器学习,计算机视觉等等。总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作;自人工智能诞生以来,理论和技术日益成熟,应用领域也不断扩大。如机器翻译领域,例如将汉语翻译成英语、将英语翻译成汉语等等。随着机器翻译技术不断的成熟,基于机器的同传翻译应运而生,同传翻译可以包括:语音识别和机器翻译,如图1所示;其中,所述语音识别包括多个阶段:获取语音数据、VAD(VoiceActivityDetection,语音端点检测)断句、语音识别、文本断句;其中,VAD断句是根据静音时间将语音切断为多个语音片段,文本断句是给各语音片段对应的语音识别文本加上标点符号,如语音识别文本“大家好我叫李磊”,然后给这句文本添加标点符号如“大家好,我叫李磊”。用户在说没有标点的一句话的过程中,可能会停顿,例如用户先说一句:“我们热切期待着的”,然后停顿了一会再接着说:“这个新技术”;当停 ...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:获取当前语音识别文本;将所述当前语音识别文本和上N条输出文本进行拼接,得到拼接文本,其中,所述N为正整数;在所述拼接文本中添加标点,从添加标点的拼接文本中提取除所述上N条输出文本之外的数据作为当前输出文本并输出。
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取当前语音识别文本;将所述当前语音识别文本和上N条输出文本进行拼接,得到拼接文本,其中,所述N为正整数;在所述拼接文本中添加标点,从添加标点的拼接文本中提取除所述上N条输出文本之外的数据作为当前输出文本并输出。2.根据权利要求1所述的方法,其特征在于,所述在所述拼接文本中添加标点,包括:对所述拼接文本进行分词处理,得到对应的多个分词片段;依据符号匹配模型,确定各分词片段对应的符号标识;若所述分词片段的符号标识是设定标识,则在所述拼接文本中所述分词片段对应文字之后添加所述符号标识。3.根据权利要求2所述的方法,其特征在于,所述符号匹配模型包括第一符号匹配模型和第二符号匹配模型,所述依据符号匹配模型,确定各分词片段对应的符号标识,包括:依次将各分词片段输入至所述第一符号匹配模型中,得到各分词片段对应各符号标识的第一概率信息;依次将各分词片段输入至所述第二符号匹配模型中,得到各分词片段对应各符号标识的第二概率信息;针对一个分词片段,依据所述分词片段对应各符号标识的第一概率信息和第二概率信息,确定所述分词片段对应的符号标识。4.根据权利要求3所述的方法,其特征在于,所述依据所述分词片段对应各符号标识的第一概率信息和第二概率信息,确定所述分词片段对应的符号标识,包括:依据所述分词片段对应各符号标识的第一概率信息,计算第一方差信息;依据所述分词片段对应各符号标识的第二概率信息,计算第二方差信息;若所述第一方差信息大于第二方差信息,则选取第一概率信息最大的符号标识作为所述分词片段对应的符号标识;若所述第二方差信息大于第一方差信息,则选取第二概率信息最大的符号标识作为所述分词片段对应的符号标识。5.根据权利要求1所述的方法,其特征在于,所述的方...
【专利技术属性】
技术研发人员:郑宏,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。