用于生成同语言平行文本的方法和装置制造方法及图纸

技术编号:16427945 阅读:38 留言:0更新日期:2017-10-21 22:52
本申请公开了用于生成同语言平行文本的方法和装置。该方法的一具体实施方式包括:获取源切分词序列和预先训练的词向量表;根据词向量表,确定与源切分词序列对应的源词向量序列;将源词向量序列导入预先训练的第一循环神经网络模型,生成用于表征源切分词序列的语义的预设维数的中间向量;将中间向量导入预先训练的第二循环神经网络模型,生成与中间向量对应的目标词向量序列;根据词向量表,确定与目标词向量序列对应的目标切分词序列,并将目标切分词序列确定为与源切分词序列对应的同语言平行文本。该实施方式降低了生成同语言平行文本的算法复杂性,减少了所需存储空间。

Method and device for generating parallel text in the same language

A method and apparatus for generating parallel text in the same language are disclosed. One embodiment of the method includes: obtaining the source segment sequence and advance training according to the word vector table; word vector table source word vector sequence determination and source segment corresponding to the sequence of the first recurrent neural network model; source term vector sequence is introduced into the pre training, the intermediate vector dimension into semantic presupposition for characterizing the source cut the segmentation sequence; second recurrent neural network model middle vector import pre training, the target word vector sequence generation and intermediate vector corresponding to the word vector; according to the table, and determine the target word vector corresponding to the sequence of target segmentation and target sequence segmentation sequence identified as the source segment corresponding to the sequence of the same parallel language text. The implementation reduces the complexity of generating parallel text with the same language and reduces the required storage space.

【技术实现步骤摘要】
用于生成同语言平行文本的方法和装置
本申请涉及计算机
,具体涉及互联网
,尤其涉及用于生成同语言平行文本的方法和装置。
技术介绍
人工智能(ArtificialIntelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能领域中的自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。为一个文本生成与该文本语言相同语义相似的同语言平行文本是自然语言处理中的重要组成部分。同语言平行文本的应用场合很多,作为示例,目前,搜索引擎在对用户输入的查询语句(query)进行检索时,由于用户输入查询语句的随意性,如果使用用户输入的查询语句进行检索,往往效果不好,为了能够获得更好的检索效果,通常都会对查询语句生成同语言平行文本,然后用所生成的同语言平行文本进行检索。然而,目前在生成一个文本的同语言平行文本时,通常是预先采用统计对齐算法或者规则对齐算法,基于平行语料库生成替换词典;然后,根据先验知识和替换词典,生成替换后的同语言平行文本。现有的生成同语言平行文本的方法,对齐算法复杂,需要人工干预较多,所生成的替换词典准确率低,而且需要存储替换词典,通常替换词典的所需存储空间大小都在几千兆字节,从而存在着所需存储空间大的问题。
技术实现思路
本申请的目的在于提出一种改进的用于生成同语言平行文本的方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请实施例提供了一种用于生成同语言平行文本的方法,该方法包括:获取源切分词序列和预先训练的词向量表,其中,上述词向量表用于表征词与词向量之间的对应关系;根据上述词向量表,确定与上述源切分词序列对应的源词向量序列;将上述源词向量序列导入预先训练的第一循环神经网络模型,生成用于表征上述源切分词序列的语义的预设维数的中间向量,其中,上述第一循环神经网络模型用于表征词向量序列与上述预设维数的向量之间的对应关系;将上述中间向量导入预先训练的第二循环神经网络模型,生成与上述中间向量对应的目标词向量序列,其中,上述第二循环神经网络模型用于表征上述预设维数的向量与词向量序列之间的对应关系;根据上述词向量表,确定与上述目标词向量序列对应的目标切分词序列,并将上述目标切分词序列确定为与上述源切分词序列对应的同语言平行文本。在一些实施例中,上述获取源切分词序列和预先训练的词向量表之前,上述方法还包括:接收用户使用终端发来的查询请求,上述查询请求包括查询语句;对上述查询语句进行预处理,得到上述查询语句的切分词序列,上述预处理包括分词处理和去除特殊符号;将所得到的切分词序列确定为源切分词序列。在一些实施例中,上述将上述目标切分词序列确定为与上述源切分词序列对应的同语言平行文本之后,上述方法还包括:根据上述同语言平行文本进行搜索,得到搜索结果;将上述搜索结果发送至上述终端。在一些实施例中,上述获取源切分词序列和预先训练的词向量表之前,上述方法还包括训练步骤,上述训练步骤包括:获取至少一对同语言平行切分词序列,其中,每对同语言平行切分词序列包括语言相同且语义相同的第一切分词序列和第二切分词序列;获取预设的词向量表、预设的第一循环神经网络模型和预设的第二循环神经网络模型;对于上述至少一对同语言平行切分词序列中的每对同语言平行切分词序列,根据上述预设的词向量表,确定该对同语言平行切分词序列的第一切分词序列对应的第一切分词向量序列;将上述第一切分词向量序列导入上述预设的第一循环神经网络模型,得到与上述第一切分词向量序列对应的上述预设维数的向量;将所得到的向量导入上述预设的第二循环神经网络模型,得到与所得到的向量对应的第二切分词向量序列;根据上述预设的词向量表,确定与上述第二切分词向量序列对应的词序列;根据所得到的词序列与该对同语言平行切分词序列的第二切分词序列之间的差异信息,对上述预设的词向量表、上述预设的第一循环神经网络模型和上述预设的第二循环神经网络模型进行调整;将上述预设的词向量表、上述预设的第一循环神经网络模型和上述预设的第二循环神经网络模型分别确定为训练得到的词向量表、第一循环神经网络模型和第二循环神经网络模型。在一些实施例中,上述第一循环神经网络模型和上述第二循环神经网络模型均为时间循环神经网络模型。在一些实施例中,上述根据上述词向量表,确定与上述源切分词序列对应的源词向量序列,包括:对上述源切分词序列中的每个切分词,在上述词向量表中查询与该切分词匹配的词向量,并将查找到的词向量确定为上述源词向量序列中与该切分词在上述源切分词序列中的位置相同的位置对应的源词向量。在一些实施例中,上述根据上述词向量表,确定与上述目标词向量序列对应的目标切分词序列,包括:对于上述目标词向量序列中的每个目标词向量,从上述词向量表中选取与该目标词向量的相似度最高的词向量所对应的词,将所选取的词确定为上述目标切分词序列中与该目标词向量在上述目标词向量序列中的位置相同的位置对应的目标切分词。第二方面,本申请实施例提供了一种用于生成同语言平行文本的装置,该装置包括:获取单元,配置用于获取源切分词序列和预先训练的词向量表,其中,上述词向量表用于表征词与词向量之间的对应关系;第一确定单元,配置用于根据上述词向量表,确定与上述源切分词序列对应的源词向量序列;第一生成单元,配置用于将上述源词向量序列导入预先训练的第一循环神经网络模型,生成用于表征上述源切分词序列的语义的预设维数的中间向量,其中,上述第一循环神经网络模型用于表征词向量序列与上述预设维数的向量之间的对应关系;第二生成单元,配置用于将上述中间向量导入预先训练的第二循环神经网络模型,生成与上述中间向量对应的目标词向量序列,其中,上述第二循环神经网络模型用于表征上述预设维数的向量与词向量序列之间的对应关系;第二确定单元,配置用于根据上述词向量表,确定与上述目标词向量序列对应的目标切分词序列,并将上述目标切分词序列确定为与上述源切分词序列对应的同语言平行文本。在一些实施例中,上述装置还包括:接收单元,配置用于接收用户使用终端发来的查询请求,上述查询请求包括查询语句;预处理单元,配置用于对上述查询语句进行预处理,得到上述查询语句的切分词序列,上述预处理包括分词处理和去除特殊符号;第三确定单元,配置用于将所得到的切分词序列确定为源切分词序列。在一些实施例中,上述装置还包括:搜索单元,配置用于根据上述同语言平行文本进行搜索,得到搜索结果;发送单元,配置用于将上述搜索结果发送至上述终端。在一些实施例中,上述装置还包括训练单元,上述训练单元包括:第一获取模块,配置用于获取至少一对同语言平行切分词序列,其中,每对同语言平行切分词序列包括语言相同且语义相同的第一切分词序列和第二切分词序列;第二获取模块,配置用于获取预设的词向量表、预设的第一循环神经网络模型和预设的第二循环神经网络模型;调整模块,配置用于对于上述至少一对同语言平行切分词序列中的每对同语言平行本文档来自技高网
...
用于生成同语言平行文本的方法和装置

【技术保护点】
一种用于生成同语言平行文本的方法,其特征在于,所述方法包括:获取源切分词序列和预先训练的词向量表,其中,所述词向量表用于表征词与词向量之间的对应关系;根据所述词向量表,确定与所述源切分词序列对应的源词向量序列;将所述源词向量序列导入预先训练的第一循环神经网络模型,生成用于表征所述源切分词序列的语义的预设维数的中间向量,其中,所述第一循环神经网络模型用于表征词向量序列与所述预设维数的向量之间的对应关系;将所述中间向量导入预先训练的第二循环神经网络模型,生成与所述中间向量对应的目标词向量序列,其中,所述第二循环神经网络模型用于表征所述预设维数的向量与词向量序列之间的对应关系;根据所述词向量表,确定与所述目标词向量序列对应的目标切分词序列,并将所述目标切分词序列确定为与所述源切分词序列对应的同语言平行文本。

【技术特征摘要】
1.一种用于生成同语言平行文本的方法,其特征在于,所述方法包括:获取源切分词序列和预先训练的词向量表,其中,所述词向量表用于表征词与词向量之间的对应关系;根据所述词向量表,确定与所述源切分词序列对应的源词向量序列;将所述源词向量序列导入预先训练的第一循环神经网络模型,生成用于表征所述源切分词序列的语义的预设维数的中间向量,其中,所述第一循环神经网络模型用于表征词向量序列与所述预设维数的向量之间的对应关系;将所述中间向量导入预先训练的第二循环神经网络模型,生成与所述中间向量对应的目标词向量序列,其中,所述第二循环神经网络模型用于表征所述预设维数的向量与词向量序列之间的对应关系;根据所述词向量表,确定与所述目标词向量序列对应的目标切分词序列,并将所述目标切分词序列确定为与所述源切分词序列对应的同语言平行文本。2.根据权利要求1所述的方法,其特征在于,所述获取源切分词序列和预先训练的词向量表之前,所述方法还包括:接收用户使用终端发来的查询请求,所述查询请求包括查询语句;对所述查询语句进行预处理,得到所述查询语句的切分词序列,所述预处理包括分词处理和去除特殊符号;将所得到的切分词序列确定为源切分词序列。3.根据权利要求2所述的方法,其特征在于,所述将所述目标切分词序列确定为与所述源切分词序列对应的同语言平行文本之后,所述方法还包括:根据所述同语言平行文本进行搜索,得到搜索结果;将所述搜索结果发送至所述终端。4.根据权利要求1-3中任一所述的方法,其特征在于,所述获取源切分词序列和预先训练的词向量表之前,所述方法还包括训练步骤,所述训练步骤包括:获取至少一对同语言平行切分词序列,其中,每对同语言平行切分词序列包括语言相同且语义相同的第一切分词序列和第二切分词序列;获取预设的词向量表、预设的第一循环神经网络模型和预设的第二循环神经网络模型;对于所述至少一对同语言平行切分词序列中的每对同语言平行切分词序列,根据所述预设的词向量表,确定该对同语言平行切分词序列的第一切分词序列对应的第一切分词向量序列;将所述第一切分词向量序列导入所述预设的第一循环神经网络模型,得到与所述第一切分词向量序列对应的所述预设维数的向量;将所得到的向量导入所述预设的第二循环神经网络模型,得到与所得到的向量对应的第二切分词向量序列;根据所述预设的词向量表,确定与所述第二切分词向量序列对应的词序列;根据所得到的词序列与该对同语言平行切分词序列的第二切分词序列之间的差异信息,对所述预设的词向量表、所述预设的第一循环神经网络模型和所述预设的第二循环神经网络模型进行调整;将所述预设的词向量表、所述预设的第一循环神经网络模型和所述预设的第二循环神经网络模型分别确定为训练得到的词向量表、第一循环神经网络模型和第二循环神经网络模型。5.根据权利要求4所述的方法,其特征在于,所述第一循环神经网络模型和所述第二循环神经网络模型均为时间循环神经网络模型。6.根据权利要求5所述的方法,其特征在于,所述根据所述词向量表,确定与所述源切分词序列对应的源词向量序列,包括:对所述源切分词序列中的每个切分词,在所述词向量表中查询与该切分词匹配的词向量,并将查找到的词向量确定为所述源词向量序列中与该切分词在所述源切分词序列中的位置相同的位置对应的源词向量。7.根据权利要求6所述的方法,其特征在于,所述根据所述词向量表,确定与所述目标词向量序列对应的目标切分词序列,包括:对于所述目标词向量序列中的每个目标词向量,从所述词向量表中选取与该目标词向量的相似度最高的词向量所对应的词,将所选取的词确定为所述目标切分词序列中与该目标词向量在所述目标词向量序列中的位置相同的位置对应的目标切分词。8.一种用于生成同语言平行文本的装置,其特征在于,所述装置包括:获取单元,配置用于获取源切分词序列和预先训练的词向量表,其中,所述词向量表用于表征词与词向量之间的对应关系;第一确定单...

【专利技术属性】
技术研发人员:李朋凯何径舟付志宏信贤卫
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1