文本处理装置、方法、电子设备及计算机可读存储介质制造方法及图纸

技术编号:26178003 阅读:25 留言:0更新日期:2020-10-31 14:25
本申请实施例提供了一种文本处理装置、方法、电子设备及计算机可读存储介质,该方法包括:获取第一IM消息文本,生成第一IM消息文本的文本风格对应的特征向量,并为第一IM消息文本中的各个词汇分别生成特征向量;将文本风格对应的特征向量和所述各个词汇对应的特征向量输入目标语言风格对应的语言风格转换模型中,得到匹配目标语言风格的第二IM消息文本;基于第二IM消息文本中各个词汇的上下文关系,确定每个词汇出现在其它词汇或词汇组之后的相邻位置的概率,用于语音识别模型进行语音识别。本申请实施例可以提高语音识别模型进行语音识别的识别准确率。

Text processing device, method, electronic equipment and computer-readable storage medium

【技术实现步骤摘要】
文本处理装置、方法、电子设备及计算机可读存储介质
本申请涉及信息
,具体而言,涉及一种文本处理装置、方法、电子设备及计算机可读存储介质。
技术介绍
随着汽车电子技术的持续快速发展,乘坐出租车出行和预约乘坐私家车出行等出行方式得到了长足发展,在人们日常生活出行中起到了不可替代的作用,为广大人民的日常生活、交通出行带来了极大方便。目前,在出行服务平台的保护系统中,一般通过语音识别模型识别司机与乘客之间的通话录音,以便于确定乘客或司机是否存在乘车风险问题,有效帮助司机或乘客规避风险,那么,语音识别模型的识别效果会直接影响语音识别结果,而语音识别模型的识别效果与该模型的训练数据的多少相关。在获取训练数据时,一般是通过人工对录音数据进行文本标注,这种人工标注录音数据对应的文本的方式,效率太低且可获取的样本数据有限,从而导致训练出的语音识别模型的识别准确率低,基于该语音识别模型进行语音识别的准确度也就较低。因此,需要一种能够提高语音识别模型识别准确率的方法。
技术实现思路
有鉴于此,本申请的目的在于提供一种文本处理本文档来自技高网...

【技术保护点】
1.一种文本处理装置,其特征在于,该装置包括:/n获取模块,用于获取服务请求端与服务提供端之间的第一即时通信IM消息文本,并将获取的第一IM消息文本传输至生成模块;/n生成模块,用于生成所述第一IM消息文本的文本风格对应的特征向量,并为所述第一IM消息文本中的各个词汇分别生成特征向量,并将生成的特征向量传输至转换模块;/n转换模块,用于将所述第一IM消息文本的文本风格对应的特征向量和所述生成模块生成的所述各个词汇对应的特征向量输入目标语言风格对应的语言风格转换模型中,得到匹配所述目标语言风格的第二IM消息文本,并将该第二IM消息文本传输至概率确定模块;/n概率确定模块,用于基于所述转换模块得到...

【技术特征摘要】
1.一种文本处理装置,其特征在于,该装置包括:
获取模块,用于获取服务请求端与服务提供端之间的第一即时通信IM消息文本,并将获取的第一IM消息文本传输至生成模块;
生成模块,用于生成所述第一IM消息文本的文本风格对应的特征向量,并为所述第一IM消息文本中的各个词汇分别生成特征向量,并将生成的特征向量传输至转换模块;
转换模块,用于将所述第一IM消息文本的文本风格对应的特征向量和所述生成模块生成的所述各个词汇对应的特征向量输入目标语言风格对应的语言风格转换模型中,得到匹配所述目标语言风格的第二IM消息文本,并将该第二IM消息文本传输至概率确定模块;
概率确定模块,用于基于所述转换模块得到的所述第二IM消息文本中各个词汇的上下文关系,确定每个词汇出现在其它词汇或词汇组之后的相邻位置的概率;所述概率用于语音识别模型进行语音识别。


2.如权利要求1所述的文本处理装置,其特征在于,所述转换模块具体用于:
将所述第一IM消息文本的文本风格对应的特征向量和各个所述词汇对应的特征向量,按照对应的词汇在所述第一IM消息文本中的上下文关系输入到所述语言风格转换模型的编码器中进行语义特征提取,得到所述第一IM消息文本对应的特征提取向量;
将所述第一IM消息文本对应的特征提取向量和所述目标语言风格对应的特征向量输入到所述语言风格转换模型的生成器中,得到匹配所述目标语言风格的第二IM消息文本。


3.如权利要求2所述的文本处理装置,其特征在于,该装置还包括:训练模块,所述训练模块用于:
构建样本训练库,所述样本训练库包括第一样本IM消息文本和对应的人工标注的样本文本风格;
将所述样本文本风格对应的特征向量和所述第一样本IM消息文本中各个样本词汇对应的特征向量,按照对应的样本词汇在所述样本IM消息文本中的上下文关系,输入到初始语言风格转换模型的初始编码器中进行语义特征提取,得到所述第一样本IM消息文本对应的样本特征提取向量;
将所述第一样本IM消息文本对应的样本特征提取向量和所述目标语言风格对应的特征向量输入到所述初始语言风格转换模型的初始生成器中,得到所述目标语言风格的第二样本IM消息文本;
将所述目标语言风格的第二样本IM消息文本中各样本IM文本词汇对应的特征向量,按照对应的样本IM文本词汇在所述目标语言风格的第二样本IM消息文本中的上下文关系,输入到文本风格识别模型中,得到所述目标语言风格的第二样本IM消息文本对应的第一概率值;
按照得到的所述第一概率值以及所述目标语言风格对应的预设阈值之间的差值最小原则,对所述初始语言风格转换模型进行模型参数调整,得到调整后的语言风格转换模型。


4.如权利要求3所述的文本处理装置,其特征在于,所述训练模块还用于:
获取与所述目标语言风格对应的样本目标语言文本;

【专利技术属性】
技术研发人员:龚彩霞查转玲
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1