文本处理方法、装置、设备及可读存储介质制造方法及图纸

技术编号:21952817 阅读:21 留言:0更新日期:2019-08-24 17:51
本申请实施例公开了一种文本处理方法、装置、设备及可读存储介质,获得源语言文本和目标语言内容片段后,根据目标语言内容片段与源语言文本的内容相关的特征信息,在源语言文本中确定与目标语言内容片段对应的源语言文本片段。基于目标语言内容片段与源语言文本片段的对应关系,可以为用户提供优化服务,如在翻译场景下,机器对发言人的语音进行识别得到源语言文本,翻译人员对发言人的语音进行翻译,得到目标语言内容片段,通过本案可以在翻译过程实时给出源语言文本中与目标语音内容片段对应的源语言文本片段,基于此可以对翻译人员给出翻译进度提示,避免遗漏的情况,为用户提供更优化服务。

Text Processing Method, Device, Equipment and Readable Storage Media

【技术实现步骤摘要】
文本处理方法、装置、设备及可读存储介质
本申请涉及自然语言处理
,更具体地说,涉及一种文本处理方法、装置、设备及可读存储介质。
技术介绍
目前,涉及不同语言的文本处理方法均是由机器将一种语言的文本翻译为另一种语言的文本。这种文本处理方式单一,无法为用户提供优化服务。因此,有必要提供一种新的文本处理方法,以弥补现有技术中的文本处理方法的不足。
技术实现思路
有鉴于此,本申请提供了一种文本处理方法、装置、设备及可读存储介质,用于弥补现有技术中的文本处理方法的不足。为了实现上述目的,现提出如下技术方案:一种文本处理方法,包括:获得源语言文本;获得目标语言内容片段;所述目标语言与所述源语言为不同的语言;根据所述目标语言内容片段与所述源语言文本的内容相关的特征信息,在所述源语言文本中确定与所述目标语言内容片段对应的源语言文本片段。优选的,所述根据所述目标语言内容片段与所述源语言文本的内容相关的特征信息,在所述源语言文本中确定与所述目标语言内容片段对应的源语言文本片段,包括:根据第一输入数据和第二输入数据的内容相关的特征信息,确定所述第一输入数据中与所述第二输入数据对应的数据片段;所述第一输入数据为所述源语言文本,或者,由所述源语言文本翻译得到的目标语言文本;所述第二输入数据为所述目标语言内容片段;当所述第一输入数据为所述目标语言文本时,将所述源语言文本中与所述数据片段对应的源语言文本片段确定为与所述目标语言内容片段对应的源语言文本片段。优选的,所述根据第一输入数据和第二输入数据的内容相关的特征信息,确定所述第一输入数据中与所述第二输入数据对应的数据片段,包括:利用预置的定位模型处理所述第一输入数据和所述第二输入数据,得到所述第一输入数据中与所述第二输入数据对应的数据片段;所述定位模型被配置为接收所述第一输入数据和所述第二输入数据,并基于两种输入数据的内容相关的特征信息进行处理,以生成所述第一输入数据中与所述第二输入数据对应的数据片段的内部状态表示。优选的,所述利用预置的定位模型处理所述第一输入数据和所述第二输入数据,得到所述第一输入数据中与所述第二输入数据对应的数据片段,包括:确定所述第一输入数据中的各个数据片段的隐层向量表达,以及所述第二输入数据中各个词的隐层向量表达;对于所述第一输入数据中的每一个数据片段,利用该数据片段的隐层向量表达对所述第二输入数据中的各个词的隐层向量表达进行处理,得到与该数据片段对应的所述第二输入数据的隐层向量表达;基于该数据片段的隐层向量表达,以及该数据片段对应的所述第二输入数据的隐层向量表达,确定该数据片段是否与所述第二输入数据对应。优选的,所述利用该数据片段的隐层向量表达对所述第二输入数据中的各个词的隐层向量表达进行处理,得到与该数据片段对应的所述第二输入数据的隐层向量表达,包括:利用该数据片段的隐层向量表达以及所述第二输入数据中的各个词的隐层向量表达,计算该数据片段与所述第二输入数据中的各个词的相似度系数;以该数据片段与所述第二输入数据中每个词的相似度系数为权重,对所述第二输入数据中的各个词的隐层向量表达进行加权处理,得到与该数据片段对应的所述第二输入数据的隐层向量表达。优选的,在基于该数据片段的隐层向量表达,以及该数据片段对应的所述第二输入数据的隐层向量表达,确定该数据片段是否与所述第二输入数据对应之前,还包括:获得该数据片段与所述第二输入数据的属性匹配度信息;所述基于该数据片段的隐层向量表达,以及该数据片段对应的所述第二输入数据的隐层向量表达,确定该数据片段是否与所述第二输入数据对应包括:利用该数据片段的向量表达,该数据片段对应的所述第二输入数据的隐层向量表达,以及所述属性匹配度信息,确定该数据片段是否与所述第二输入数据对应。优选的,所述根据第一输入数据和第二输入数据的内容相关的特征信息,确定所述第一输入数据中与所述第二输入数据对应的数据片段,包括:对于所述第一输入数据中的每一个数据片段,获得该数据片段与所述第二输入数据的属性匹配度信息;根据所述属性匹配度信息确定所述第一输入数据中与所述第二输入数据对应的数据片段。优选的,获得该数据片段与第二输入数据的属性匹配度信息的过程,包括:获取该数据片段与所述第二输入数据的最长公共子序列;该数据片段属于所述目标语言文本;计算所述最长公共子序列的长度与该数据片段的长度的第一比值,以及所述最长公共子序列的长度与所述第二输入数据的长度的第二比值;将所述第一比值与所述第二比值中的较大者确定为该数据片段与所述第二输入数据的片段匹配程度。优选的,获得该数据片段与第二输入数据的属性匹配度信息的过程,包括:获得对该数据片段进行翻译得到的目标语言数据片段;该数据片段属于所述源语言文本;获取所述目标语言数据片段与所述第二输入数据的最长公共子序列;计算所述最长公共子序列的长度与所述目标语言数据片段的长度的第一比值,以及所述最长公共子序列的长度与所述第二输入数据的长度的第二比值;将所述第一比值与所述第二比值中的较大者确定为该数据片段与所述第二输入数据的片段匹配程度。优选的,获得该数据片段与第二输入数据的属性匹配度信息的过程,包括:对所述第二输入数据进行关键词提取,得到至少一个关键词;该数据片段属于所述目标语言文本;对于每一个关键词:将该关键词与该数据片段进行匹配,得到该关键词与该数据片段的最长公共子序列;计算所述最长公共子序列的长度与该关键词的长度的第三比值;将所有关键词对应的第三比值加权平均,得到该数据片段与所述第二输入数据的关键信息匹配程度。优选的,获得该数据片段与第二输入数据的属性匹配度信息的过程,包括:获得对该数据片段进行翻译得到的目标语言数据片段;该数据片段属于所述源语言文本;对所述第二输入数据进行关键词提取,得到至少一个关键词;对于每一个关键词:将该关键词与所述目标语言数据片段进行匹配,得到该关键词与所述目标语言数据片段的最长公共子序列;计算所述最长公共子序列的长度与该关键词的长度的第三比值;将所有关键词对应的第三比值加权平均,得到该数据片段与所述第二输入数据的关键信息匹配程度。优选的,获得该数据片段与第二输入数据的属性匹配度信息的过程,包括:利用该数据片段中各个词对应的词向量计算该数据片段对应的第一片段向量;利用所述第二输入数据中各个词对应的词向量计算所述第二输入数据对应的第二片段向量;计算所述第一片段向量和所述第二片段向量的距离,得到该数据片段与所述第二输入数据的向量相似度。优选的,获得该数据片段与第二输入数据的属性匹配度信息的过程,包括:获取所述第一输入数据的长度,该数据片段在所述第一输入数据中的第一相对位置,所述第二输入数据在已获得的所有目标语言内容片段中的第二相对位置;根据所述第一输入数据的长度,所述第一相对位置,以及所述第二相对位置,计算该数据片段与所述第二输入数据的相对位置匹配程度。优选的,所述文本处理方法还包括:显示所述源语言文本,其中,所述源语言文本片段的显示效果不同于所述源语言文本中的其它文本片段的显示效果。优选的,所述文本处理方法还包括:显示对所述源语言文本进行翻译得到的目标语言文本;对所述目标语言文本中与所述源语言文本片段对应的目标语言文本片段进行处理,以突出显示所述目标语言文本片段。优选的,所述文本处理方本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:获得源语言文本;获得目标语言内容片段;所述目标语言与所述源语言为不同的语言;根据所述目标语言内容片段与所述源语言文本的内容相关的特征信息,在所述源语言文本中确定与所述目标语言内容片段对应的源语言文本片段。

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获得源语言文本;获得目标语言内容片段;所述目标语言与所述源语言为不同的语言;根据所述目标语言内容片段与所述源语言文本的内容相关的特征信息,在所述源语言文本中确定与所述目标语言内容片段对应的源语言文本片段。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标语言内容片段与所述源语言文本的内容相关的特征信息,在所述源语言文本中确定与所述目标语言内容片段对应的源语言文本片段,包括:根据第一输入数据和第二输入数据的内容相关的特征信息,确定所述第一输入数据中与所述第二输入数据对应的数据片段;所述第一输入数据为所述源语言文本,或者,由所述源语言文本翻译得到的目标语言文本;所述第二输入数据为所述目标语言内容片段;当所述第一输入数据为所述目标语言文本时,将所述源语言文本中与所述数据片段对应的源语言文本片段确定为与所述目标语言内容片段对应的源语言文本片段。3.根据权利要求2所述的方法,其特征在于,所述根据第一输入数据和第二输入数据的内容相关的特征信息,确定所述第一输入数据中与所述第二输入数据对应的数据片段,包括:利用预置的定位模型处理所述第一输入数据和所述第二输入数据,得到所述第一输入数据中与所述第二输入数据对应的数据片段;所述定位模型被配置为接收所述第一输入数据和所述第二输入数据,并基于两种输入数据的内容相关的特征信息进行处理,以生成所述第一输入数据中与所述第二输入数据对应的数据片段的内部状态表示。4.根据权利要求3所述的方法,其特征在于,所述利用预置的定位模型处理所述第一输入数据和所述第二输入数据,得到所述第一输入数据中与所述第二输入数据对应的数据片段,包括:确定所述第一输入数据中的各个数据片段的隐层向量表达,以及所述第二输入数据中各个词的隐层向量表达;对于所述第一输入数据中的每一个数据片段,利用该数据片段的隐层向量表达对所述第二输入数据中的各个词的隐层向量表达进行处理,得到与该数据片段对应的所述第二输入数据的隐层向量表达;基于该数据片段的隐层向量表达,以及该数据片段对应的所述第二输入数据的隐层向量表达,确定该数据片段是否与所述第二输入数据对应。5.根据权利要求4所述的方法,其特征在于,所述利用该数据片段的隐层向量表达对所述第二输入数据中的各个词的隐层向量表达进行处理,得到与该数据片段对应的所述第二输入数据的隐层向量表达,包括:利用该数据片段的隐层向量表达以及所述第二输入数据中的各个词的隐层向量表达,计算该数据片段与所述第二输入数据中的各个词的相似度系数;以该数据片段与所述第二输入数据中每个词的相似度系数为权重,对所述第二输入数据中的各个词的隐层向量表达进行加权处理,得到与该数据片段对应的所述第二输入数据的隐层向量表达。6.根据权利要求4所述的方法,其特征在于,在基于该数据片段的隐层向量表达,以及该数据片段对应的所述第二输入数据的隐层向量表达,确定该数据片段是否与所述第二输入数据对应之前,还包括:获得该数据片段与所述第二输入数据的属性匹配度信息;所述基于该数据片段的隐层向量表...

【专利技术属性】
技术研发人员:孔常青高建清刘俊华胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1