A method and apparatus for generating parallel text in the same language are disclosed. One embodiment of the method includes: obtaining the source segment sequence and advance training according to the word vector table; word vector table source word vector sequence determination and source segment corresponding to the sequence of the first recurrent neural network model; source term vector sequence is introduced into the pre training, the intermediate vector dimension into semantic presupposition for characterizing the source cut the segmentation sequence; second recurrent neural network model middle vector import pre training, the target word vector sequence generation and intermediate vector corresponding to the word vector; according to the table, and determine the target word vector corresponding to the sequence of target segmentation and target sequence segmentation sequence identified as the source segment corresponding to the sequence of the same parallel language text. The implementation reduces the complexity of generating parallel text with the same language and reduces the required storage space.
【技术实现步骤摘要】
用于生成同语言平行文本的方法和装置
本申请涉及计算机
,具体涉及互联网
,尤其涉及用于生成同语言平行文本的方法和装置。
技术介绍
人工智能(ArtificialIntelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能领域中的自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。为一个文本生成与该文本语言相同语义相似的同语言平行文本是自然语言处理中的重要组成部分。同语言平行文本的应用场合很多,作为示例,目前,搜索引擎在对用户输入的查询语句(query)进行检索时,由于用户输入查询语句的随意性,如果使用用户输入的查询语句进行检索,往往效果不好,为了能够获得更好的检索效果,通常都会对查询语句生成同语言平行文本,然后用所生成的同语言平行文本进行检索。然而,目前在生成一个文本的同语言平行文本时,通常是预先采用统计对齐算法或者规则对齐算法,基于平行语料库生成替换词典;然后,根据先验知识和替换词典,生成替换后的同语言平行文本。现有的生成同语言平行文本的方法,对齐算法复杂,需要人工干预较多,所生成的替换词典准确率低,而且需要存储替换词典,通常替换词典的所需存储空间大小都在几千兆字节,从而存在着所需存储空间大的问题。
技术实现思路
本申请的目的在 ...
【技术保护点】
一种用于生成同语言平行文本的方法,其特征在于,所述方法包括:获取源切分词序列和预先训练的词向量表,其中,所述词向量表用于表征词与词向量之间的对应关系;根据所述词向量表,确定与所述源切分词序列对应的源词向量序列;将所述源词向量序列导入预先训练的第一循环神经网络模型,生成用于表征所述源切分词序列的语义的预设维数的中间向量,其中,所述第一循环神经网络模型用于表征词向量序列与所述预设维数的向量之间的对应关系;将所述中间向量导入预先训练的第二循环神经网络模型,生成与所述中间向量对应的目标词向量序列,其中,所述第二循环神经网络模型用于表征所述预设维数的向量与词向量序列之间的对应关系;根据所述词向量表,确定与所述目标词向量序列对应的目标切分词序列,并将所述目标切分词序列确定为与所述源切分词序列对应的同语言平行文本。
【技术特征摘要】
1.一种用于生成同语言平行文本的方法,其特征在于,所述方法包括:获取源切分词序列和预先训练的词向量表,其中,所述词向量表用于表征词与词向量之间的对应关系;根据所述词向量表,确定与所述源切分词序列对应的源词向量序列;将所述源词向量序列导入预先训练的第一循环神经网络模型,生成用于表征所述源切分词序列的语义的预设维数的中间向量,其中,所述第一循环神经网络模型用于表征词向量序列与所述预设维数的向量之间的对应关系;将所述中间向量导入预先训练的第二循环神经网络模型,生成与所述中间向量对应的目标词向量序列,其中,所述第二循环神经网络模型用于表征所述预设维数的向量与词向量序列之间的对应关系;根据所述词向量表,确定与所述目标词向量序列对应的目标切分词序列,并将所述目标切分词序列确定为与所述源切分词序列对应的同语言平行文本。2.根据权利要求1所述的方法,其特征在于,所述获取源切分词序列和预先训练的词向量表之前,所述方法还包括:接收用户使用终端发来的查询请求,所述查询请求包括查询语句;对所述查询语句进行预处理,得到所述查询语句的切分词序列,所述预处理包括分词处理和去除特殊符号;将所得到的切分词序列确定为源切分词序列。3.根据权利要求2所述的方法,其特征在于,所述将所述目标切分词序列确定为与所述源切分词序列对应的同语言平行文本之后,所述方法还包括:根据所述同语言平行文本进行搜索,得到搜索结果;将所述搜索结果发送至所述终端。4.根据权利要求1-3中任一所述的方法,其特征在于,所述获取源切分词序列和预先训练的词向量表之前,所述方法还包括训练步骤,所述训练步骤包括:获取至少一对同语言平行切分词序列,其中,每对同语言平行切分词序列包括语言相同且语义相同的第一切分词序列和第二切分词序列;获取预设的词向量表、预设的第一循环神经网络模型和预设的第二循环神经网络模型;对于所述至少一对同语言平行切分词序列中的每对同语言平行切分词序列,根据所述预设的词向量表,确定该对同语言平行切分词序列的第一切分词序列对应的第一切分词向量序列;将所述第一切分词向量序列导入所述预设的第一循环神经网络模型,得到与所述第一切分词向量序列对应的所述预设维数的向量;将所得到的向量导入所述预设的第二循环神经网络模型,得到与所得到的向量对应的第二切分词向量序列;根据所述预设的词向量表,确定与所述第二切分词向量序列对应的词序列;根据所得到的词序列与该对同语言平行切分词序列的第二切分词序列之间的差异信息,对所述预设的词向量表、所述预设的第一循环神经网络模型和所述预设的第二循环神经网络模型进行调整;将所述预设的词向量表、所述预设的第一循环神经网络模型和所述预设的第二循环神经网络模型分别确定为训练得到的词向量表、第一循环神经网络模型和第二循环神经网络模型。5.根据权利要求4所述的方法,其特征在于,所述第一循环神经网络模型和所述第二循环神经网络模型均为时间循环神经网络模型。6.根据权利要求5所述的方法,其特征在于,所述根据所述词向量表,确定与所述源切分词序列对应的源词向量序列,包括:对所述源切分词序列中的每个切分词,在所述词向量表中查询与该切分词匹配的词向量,并将查找到的词向量确定为所述源词向量序列中与该切分词在所述源切分词序列中的位置相同的位置对应的源词向量。7.根据权利要求6所述的方法,其特征在于,所述根据所述词向量表,确定与所述目标词向量序列对应的目标切分词序列,包括:对于所述目标词向量序列中的每个目标词向量,从所述词向量表中选取与该目标词向量的相似度最高的词向量所对应的词,将所选取的词确定为所述目标切分词序列中与该目标词向量在所述目标词向量序列中的位置相同的位置对应的目标切分词。8.一种用于生成同语言平行文本的装置,其特征在于,所述装置包括:获取单元,配置用于获取源切分词序列和预先训练的词向量表,其中,所述词向量表用于表征词与词向量之间的对应关系;第一确定单...
【专利技术属性】
技术研发人员:李朋凯,何径舟,付志宏,信贤卫,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。