【技术实现步骤摘要】
文本模型训练方法、文本纠错方法、电子设备及存储介质
本专利技术实施例涉及深度学习领域,特别涉及文本模型训练方法、文本纠错方法、电子设备及存储介质。
技术介绍
目前,随着各自社交网站的发展,语音对话在社交软件中在不断普及。为了使得接收语音方在不方便接收语音时,也能及时接收到对方发送的内容,因此语音对话也开始出现转文字的功能。但是由于语音对话较为口语化,在转文字过程中,容易出现错误句子,最终会导致接收方不明确对方的意图。因此现有技术中为了实现文本纠错的功能,主要是通过利用基于规则的模型或基于统计的模型生成针对待纠正文本的多个候选文本,利用评分函数或者分类器对多个候选文本进行排序,从多个候选文本中筛选出最合理的文本。专利技术人发现现有技术中至少存在如下问题:基于规则的模型或者基于统计的模型进行文本纠错过程中,文本纠错的准确率较低,文本纠错效果并不能满足现阶段用户对文本纠错功能的需求。
技术实现思路
本专利技术实施方式的目的在于提供一种文本模型训练方法、文本纠错方法、电子设备及存储介质,使得提高了文本纠错 ...
【技术保护点】
1.一种文本模型训练方法,其特征在于,包括:/n获取多个文本样本,其中,所述文本样本包括错误文本、所述错误文本对应的正确文本,所述错误文本由语音会话进行文本转换得到的;/n根据预设的热词表对多个所述文本样本进行分词;/n根据预设的词典对分词后的多个所述文本样本进行编码,得到多个训练样本,其中,所述训练样本包括模型训练时作为输入的所述错误文本的编码、以及作为输出的所述正确文本的编码;/n将多个所述训练样本输入至文本深度神经网络中进行训练,得到目标文本模型。/n
【技术特征摘要】
1.一种文本模型训练方法,其特征在于,包括:
获取多个文本样本,其中,所述文本样本包括错误文本、所述错误文本对应的正确文本,所述错误文本由语音会话进行文本转换得到的;
根据预设的热词表对多个所述文本样本进行分词;
根据预设的词典对分词后的多个所述文本样本进行编码,得到多个训练样本,其中,所述训练样本包括模型训练时作为输入的所述错误文本的编码、以及作为输出的所述正确文本的编码;
将多个所述训练样本输入至文本深度神经网络中进行训练,得到目标文本模型。
2.根据权利要求1所述的文本模型训练方法,其特征在于,所述热词表的数量为多个,多个所述热词表分别对应于多种会话角色;
所述根据预设的热词表对多个所述文本样本进行分词,包括:
获取每个所述文本样本所属的会话角色;
根据所述文本样本所属的会话角色对应的热词表对所述文本样本进行分词,得到多个字符。
3.根据权利要求2所述的文本模型训练方法,其特征在于,在所述根据所述目标热词表对所述多个文本样本进行分词,得到多个字符之后,还包括:
若属于同一种会话角色的若干个所述文本样本被划分得到的多个字符中,存在满足预设条件的字符,将所述满足预设条件的字符加入所述会话角色对应的热词表中;
其中,所述预设条件包括,所述会话角色对应的热词表中不包含所述字符,且所述字符在若干个所述文本样本中出现的次数大于预设次数。
4.根据权利要求3所述的文本模型训练方法,其特征在于,所述根据预设的词典对多个分词后的所述文本样本进行编码,得到多个训练样本之后,还包括:
将多个所述训练样本的向量长度进行变换,其中,多个所述训练样本变换后的向量长度相同。
5.根据权利要求1所述的文本模型训练方法,其特征在于,所述文本深度神经网络为双向循环...
【专利技术属性】
技术研发人员:郭晗暄,单彦会,李程坤,郑文彬,罗红,
申请(专利权)人:中移杭州信息技术有限公司,中国移动通信集团有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。