【技术实现步骤摘要】
一种多文本差异识别方法、装置以及电子设备
[0001]本公开涉及计算机
,尤其涉及文本识别
,具体涉及一种多文本差异识别方法、装置以及电子设备。
技术介绍
[0002]在字幕识别等场景中,通常需要对语音转字幕工具的功能进行分析。
[0003]相关技术中,采用diff算法,将待识别的文本,即通过语音转字幕工具对音频进行处理所得的字幕文本,与音频的标准文本进行差异识别,得到待识别的文本相对于标准文本的差异元素,并对差异元素进行颜色标注,从而体现出待识别的文本与标准文本之间的差异。
技术实现思路
[0004]本公开提供了一种多文本差异识别方法、装置、设备以及存储介质。
[0005]根据本公开的一方面,提供了一种多文本差异识别方法,包括:
[0006]确定针对音频的标准文本,以及待识别差异的多个目标文本;其中,每一目标文本为所述音频的字幕文本;
[0007]针对每一目标文本,识别该目标文本相对于所述标准文本的差异,得到差异元素;
[0008]从该目标文本中,确定所述 ...
【技术保护点】
【技术特征摘要】
1.一种多文本差异识别方法,包括:确定针对音频的标准文本,以及待识别差异的多个目标文本;其中,每一目标文本为所述音频的字幕文本;针对每一目标文本,识别该目标文本相对于所述标准文本的差异,得到差异元素;从该目标文本中,确定所述差异元素所包括的第一元素的上下文信息;其中,所述第一元素为属于更改类型的元素;基于所述第一元素的上下文信息,从所述标准文本和其他文本中,分别确定与所述第一元素位置匹配的目标元素;其中,所述其他文本为多个目标文本中除该目标文本以外的一文本;若所确定的目标元素相同,则在所述其他文本中,对所确定的目标元素进行第一预定标注。2.根据权利要求1所述的方法,所述方法还包括:在该目标文本中,对所述差异元素所包括的各元素进行第二预定标注;其中,所述第二预定标注不同于所述第一预定标注。3.根据权利要求1或2所述的方法,其中,所述基于所述第一元素的上下文信息,从所述标准文本和其他文本中,分别确定与所述第一元素位置匹配的目标元素,包括:从所述标准文本中,检测与所述第一元素的上文信息匹配的元素的第一位置,以及与所述第一元素的下文信息相匹配的元素的第二位置;并确定所述第一位置和第二位置之间的位置上的元素,作为所述标准文本中,与所述第一元素位置匹配的目标元素;从所述其他文本中,检测与所述第一元素的上文信息匹配的元素的第三位置,以及与所述第一元素的下文信息相匹配的元素的第四位置;确定所述第三位置和所述第四位置之间的位置上的元素,作为所述其他文本中,与所述第一元素位置匹配的目标元素。4.根据权利要求1或2所述的方法,其中,所述从该目标文本中,确定所述差异元素所包括的第一元素的上下文信息之前,还包括:对所述差异元素所包括的各元素进行合并处理;其中,所述合并处理包括将位置连续的元素进行合并。5.根据权利要求1或2所述的方法,其中,所述针对每一目标文本,识别该目标文本相对于所述标准文本的差异,得到差异元素之前,所述方法还包括:检测当前的标注模式;其中,所述标注模式为字符标注模式或标点标注模式;针对每一目标文本,识别该目标文本相对于所述标准文本的差异,得到差异元素,包括:针对每一目标文本,若检测到标注模式为字符标注模式,则识别该目标文本相对于所述标准文本的、关于字符的差异,得到差异元素;若检测到标注模式为标点标注模式,则识别该目标文本相对于所述标准文本的、关于标点的差异,得到差异元素。6.根据权利要求1或2所述的方法,还包括:识别所述标准文本中的各个专有名词,以及相对应的索引位置;利用所述各个专有名词相对应的索引位置,查找针对所述各个专有名词的上下文信息;
基于所述各个专有名词的上下文信息,从所述每一目标文本中,分别确定与所述各个专有名词位置匹配的目标专有名词;若所确定的目标专有名词中包括第二预定标注的元素,则判定该目标专有名词属于识别有误的目标专有名词。7.一种多文本差异识别装置,包括:第一确定模块,用于确定针对音频的标准文本,以及待识别差异的多个目标文本;其中,每一目标文本为所述音频的字幕文本;第一识别模块,用于针对每一目标文本,识别该目标文本相对于所述标准文本的差异,得到差异元素;第二确定模块,用于从该目标文本中,确定所述差异元素所包括的第一元素的上下文信息;其中,所述第一元素为属于更改类型的元素;第一匹配...
【专利技术属性】
技术研发人员:王伟杰,王伟,吴越,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。