【技术实现步骤摘要】
文本处理方法、装置、计算机可读存储介质和计算机设备相关申请的交叉引用本申请要求于2019年04月17日提交中国专利局、申请号为201910308349.4、专利技术名称为“文本处理方法、装置、计算机可读存储介质和计算机设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及计算机
,特别是涉及一种文本处理方法、装置、计算机可读存储介质和计算机设备。
技术介绍
随着机器学习技术的不断发展,出现了机器翻译技术。目前神经网络机器翻译作为最新一代的翻译技术,在目前的神经机器翻译研究和应用中,一般都是利用注意力机制选择源端句子中的词进行解码翻译。然而,目前的神经机器翻译框架在进行注意力机制挑选合适的单词进行翻译的时候,无法充分地对整个源端句子信息进行考虑,使得翻译出来的文本不够准确。例如,对于某些有歧义的词语,无法充分考虑上下文可能导致翻译出错的情况。
技术实现思路
基于此,有必要针对中无法联系上下文导致翻译错误的技术问题,提供一种文本处理方法、装置、计算机可读存储 ...
【技术保护点】
1.一种文本处理方法,包括:/n获取源文本,将所述源文本转换为源端向量序列;/n基于所述源端向量序列确定每个词的目标端向量;/n获取所述源端向量序列的深层句子向量,将所述每个词的目标端向量和所述深层句子向量进行线性叠加处理,得到每个词对应的目标词;/n根据所述每个词对应的目标词,生成所述源文本对应的目标文本。/n
【技术特征摘要】
1.一种文本处理方法,包括:
获取源文本,将所述源文本转换为源端向量序列;
基于所述源端向量序列确定每个词的目标端向量;
获取所述源端向量序列的深层句子向量,将所述每个词的目标端向量和所述深层句子向量进行线性叠加处理,得到每个词对应的目标词;
根据所述每个词对应的目标词,生成所述源文本对应的目标文本。
2.根据权利要求1所述的方法,其特征在于,所述获取所述源端向量序列的深层句子向量,包括:
获取编码器每层的源端向量序列;
根据所述每层的源端向量序列生成每层的浅层句子向量;
基于所述每层的浅层句子向量生成深层句子向量。
3.根据权利要求2所述的方法,其特征在于,所述基于所述每层的浅层句子向量生成深层句子向量,包括:
将所述每层的浅层句子向量输入循环神经网络,所述循环神经网络的各层网络对应所述编码器的各层网络;
确定所述每层的浅层句子向量中与所述循环神经网络的当前层对应的浅层句子向量;
获取所述当前层的上一层输出的隐含状态向量,根据所述当前层对应的浅层句子向量和所述上一层输出的隐含状态向量,得到所述当前层输出的隐含状态向量;
将所述当前层输出的隐含状态向量和所述当前层的下一层对应的浅层句子向量作为所述当前层的下一层的输入,直到得到所述循环神经网络的最后一层输出的隐含状态向量;
将所述循环神经网络的最后一层输出的隐含状态向量作为深层句子向量。
4.根据权利要求2所述的方法,其特征在于,所述基于所述每层的浅层句子向量生成深层句子向量,包括:
确定所述编码器中当前层的浅层句子向量和所述当前层的上一层目标端向量之间的相似度向量;
根据所述相似度向量确定所述当前层的浅层句子向量和所述当前层的上一层目标端向量之间的权重向量;
根据所述权重向量和所述每层的浅层句子向量,生成深层句子向量。
<...
【专利技术属性】
技术研发人员:王星,涂兆鹏,王龙跃,史树明,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。