融合中文单词内部结构信息的句子表示的构建方法及系统技术方案

技术编号:16700708 阅读:34 留言:0更新日期:2017-12-02 13:03
本发明专利技术涉及自然语言处理技术领域,具体提出一种融合中文单词内部结构信息的句子表示的构建方法及系统,旨在解决单词内部结构信息利用率低的问题;所述构建方法包括:对训练语料中所有的中文复述句对进行分词处理,得到多个单词语料;对各所述单词语料进行预训练,得到预训练字向量和预训练词向量;整合每个单词语料中的所有预训练字向量和预训练词向量,获得对应单词语料的组合词向量;根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量,所述最终词向量表征单词内部结构信息;将待处理句子中的各个单词语料的最终词向量进行整合,得到所述待处理句子的表示向量。本发明专利技术可以提高单词内部结构信息的利用率。

The construction method and system of sentence representation for the fusion of Chinese word internal structure information

The present invention relates to the technical field of Natural Language Processing, the paper presents a fusion of the internal structure of words and sentences Chinese information representation method and system, to solve the problem of low ratio of internal structure information using the word; the construction method includes: the training corpus in all Chinese paraphrase of word segmentation, multiple word corpus; pre training on the word corpus, pre training word vector and pre training vector; integration of each word in the corpus of all pre training and practicing vector pre training word vector, obtain the combined word vector corresponding word corpus; according to the pre training word vector of each word in the corpus and the combination vector to determine the final the word word vector data, the final word vector characterization of the internal structure of word information; each sentence will be processed in a single word The final word vector of the material is integrated to get the expression vector of the sentence to be treated. The invention can improve the utilization rate of the internal structure information of the words.

【技术实现步骤摘要】
融合中文单词内部结构信息的句子表示的构建方法及系统
本专利技术涉及自然语言处理
,是一种融合中文单词内部结构信息的句子表示的构建方法及系统。
技术介绍
句子表示是将一个自然语言的句子映射为一个高维空间中,使得语义相似的句子在这个空间中具有较近的距离。句子表示是自然语言处理的基础任务,直接影响到整个语言处理系统的性能。因此,人们投入了大量精力去研究如何针对特定的任务设计合适的句子表示方法,以提升语言处理系统的性能。传统的句子表示方法用大量手工设计的特征来表示句子的含义,在各种自然语言处理任务中取得了良好的效果。但由于需要大量人力和专业知识,而且往往需要根据不同的任务选择特征,导致模型泛化能力差和特征表示困难的问题。最近几年,人们发现基于神经网络的模型可以从大规模文本中自动抽取句子的语义特征,并且极大的提升了句子语义表示的效果。然而,绝大多数句子表示的研究都是针对英文句子,在单词粒度上设计不同的神经网络结构对句子的语义进行编码。与英文不同的是,中文的单词由字构成,字中包含了丰富的语义信息,可以反映这个单词的含义。事实上,目前已经有研究人员注意到这方面的问题,并利用中文单词中的字来改进词向量的学习,但这些方法并没有充分利用中文单词的内部信息,如字与字之间的关系,而且这些方法都只局限于词向量的学习任务中,并没有在句子表示中进行探索。因此,如何充分利用单词内部结构信息去学习更好的句子表示模型是一个非常值得研究的课题。
技术实现思路
为了解决现有技术中的上述问题,即为了解决单词内部结构信息利用率低的问题,本专利技术提供了一种融合中文单词内部结构信息的句子表示的构建方法及系统。为解决上述技术问题,本专利技术提供了如下方案:一种融合中文单词内部结构信息的句子表示的构建方法,所述构建方法包括:对训练语料中所有的中文复述句对进行分词处理,得到多个单词语料;对各所述单词语料进行预训练,得到预训练字向量和预训练词向量;整合每个单词语料中的所有预训练字向量和预训练词向量,获得对应单词语料的组合词向量;根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量,所述最终词向量表征单词内部结构信息;将待处理句子中的各个单词语料的最终词向量进行整合,得到所述待处理句子的表示向量。可选的,所述对各所述单词语料进行预训练,具体包括:对各所述单词语料按字进行拆分,得到字语料;将单词语料和字语料拼接,得到字向量和词向量;利用开源模型对所述字向量和词向量进行预训练,获得对应的预训练字向量和预训练词向量。可选的,所述整合每个单词语料中的所有预训练字向量和预训练词向量,具体包括:将每个单词语料的预训练字向量和预训练词向量进行拼接,得到对应预训练字向量的拼接向量;将所述拼接向量输入到前馈神经网络中并进行非线性变换,得到对应所述预训练字向量的掩码向量;根据每个单词语料中所有预训练字向量与对应的掩码向量确定所述单词语料的组合词向量。可选的,将所述拼接向量输入到前馈神经网络中并进行非线性变换,具体包括:根据如下公式确定掩码向量vij:vij=tanh(W·[cij;xi])其中,tanh()表示双曲正切函数,W是前馈神经网络的参数,cij是第i个单词语料xi中第j个预训练字向量。可选的,所述根据每个单词语料中所有预训练字向量与对应的掩码向量确定所述单词语料的组合词向量,具体包括:根据如下公式,将每个单词语料中所有预训练字向量与对应的掩码向量内积并求和,得到所述单词语料的组合词向量其中,cij是第i个单词语料xi中第j个预训练字向量,vij为预训练字向量cij对应的掩码向量,m表示第i个单词语料的预训练字向量的全部数量。可选的,所述根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量,具体包括:根据如下公式,基于最大池化方法,对预训练词向量和组合词向量的每一个维度上取最大值作为最终词向量其中,表示第i个单词语料在第k维度的预训练词向量,表示第i个单词语料在第k维度的组合词向量,d表示第i个单词语料全部维度,max()表示取最大值函数。可选的,所述将待处理句子中的各个单词语料的最终词向量进行整合得到所述待处理句子的表示向量,具体包括:通过句子组合函数将各个最终词向量整合为待处理句子的表示向量。可选的,所述句子组合函数包括Average模型函数、Matrix模型函数、Dan模型函数、RNN模型函数及LSTM模型函数中至少一者。可选的,所述训练语料为从百度百科中爬取的中文文本语料。根据本专利技术的实施例,本专利技术公开了以下技术效果:本专利技术融合中文单词内部结构信息的句子表示的构建方法通过对训练语料分词处理、对单词语料进行预训练,对预训练字向量和预训练词向量进行整合、确定最终词向量,从而对多个表征单词内部结构信息最终词向量进行整合以准确确定待处理句子的表示向量,提高单词内部结构信息的利用率。为解决上述技术问题,本专利技术还提供了如下方案:一种融合中文单词内部结构信息的句子表示的构建系统,所述构建系统包括:分词单元,用于对训练语料中所有的中文复述句对进行分词处理,得到多个单词语料;预训练单元,用于对各所述单词语料进行预训练,得到预训练字向量和预训练词向量;第一整合单元,用于整合每个单词语料中的所有预训练字向量和预训练词向量,获得对应单词语料的组合词向量;确定单元,用于根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量,所述最终词向量表征单词内部结构信息;第二整合单元,用于将待处理句子中的各个单词语料的最终词向量进行整合得到所述待处理句子的表示向量。根据本专利技术的实施例,本专利技术公开了以下技术效果:本专利技术融合中文单词内部结构信息的句子表示的构建系统通过设置分词单元、预训练单元、第一整合单元、确定单元及第二整合单元,可对训练语料分词处理、对单词语料进行预训练,对预训练字向量和预训练词向量进行整合、确定最终词向量,从而对多个表征单词内部结构信息最终词向量进行整合以准确确定待处理句子的表示向量,提高单词内部结构信息的利用率。附图说明图1是本专利技术融合中文单词内部结构信息的句子表示的构建方法的流程图;图2是本专利技术融合中文单词内部结构信息的句子表示的构建系统的模块结构示意图。符号说明:分词单元—1,预训练单元—2,第一整合单元—3,确定单元—4,第二整合单元—5。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并非旨在限制本专利技术的保护范围。本专利技术提供一种融合中文单词内部结构信息的句子表示的构建方法,通过对训练语料分词处理、对单词语料进行预训练,对预训练字向量和预训练词向量进行整合、确定最终词向量,从而对多个表征单词内部结构信息最终词向量进行整合以准确确定待处理句子的表示向量,提高单词内部结构信息的利用率。为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。如图1所示,本专利技术融合中文单词内部结构信息的句子表示的构建方法包括:步骤100:对训练语料中所有的中文复述句对进行分词处理,得到多个单词语料;步骤200:对各所述单词语料进行预训练,得到预训练字向量和预训练词向量;步骤300:整合每个单词语料中的所有本文档来自技高网...
融合中文单词内部结构信息的句子表示的构建方法及系统

【技术保护点】
一种融合中文单词内部结构信息的句子表示的构建方法,其特征在于,所述构建方法包括:对训练语料中所有的中文复述句对进行分词处理,得到多个单词语料;对各所述单词语料进行预训练,得到预训练字向量和预训练词向量;整合每个单词语料中的所有预训练字向量和预训练词向量,获得对应单词语料的组合词向量;根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量,所述最终词向量表征单词内部结构信息;将待处理句子中的各个单词语料的最终词向量进行整合,得到所述待处理句子的表示向量。

【技术特征摘要】
1.一种融合中文单词内部结构信息的句子表示的构建方法,其特征在于,所述构建方法包括:对训练语料中所有的中文复述句对进行分词处理,得到多个单词语料;对各所述单词语料进行预训练,得到预训练字向量和预训练词向量;整合每个单词语料中的所有预训练字向量和预训练词向量,获得对应单词语料的组合词向量;根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量,所述最终词向量表征单词内部结构信息;将待处理句子中的各个单词语料的最终词向量进行整合,得到所述待处理句子的表示向量。2.根据权利要求1所述的融合中文单词内部结构信息的句子表示的构建方法,其特征在于,所述对各所述单词语料进行预训练,具体包括:对各所述单词语料按字进行拆分,得到字语料;将单词语料和字语料拼接,得到字向量和词向量;利用开源模型对所述字向量和词向量进行预训练,获得对应的预训练字向量和预训练词向量。3.根据权利要求1所述的融合中文单词内部结构信息的句子表示的构建方法,其特征在于,所述整合每个单词语料中的所有预训练字向量和预训练词向量,具体包括:将每个单词语料的预训练字向量和预训练词向量进行拼接,得到对应预训练字向量的拼接向量;将所述拼接向量输入到前馈神经网络中并进行非线性变换,得到对应所述预训练字向量的掩码向量;根据每个单词语料中所有预训练字向量与对应的掩码向量确定所述单词语料的组合词向量。4.根据权利要求3所述的融合中文单词内部结构信息的句子表示的构建方法,其特征在于,将所述拼接向量输入到前馈神经网络中并进行非线性变换,具体包括:根据如下公式确定掩码向量vij:vij=tanh(W·[cij;xi])其中,tanh()表示双曲正切函数,W是前馈神经网络的参数,cij是第i个单词语料xi中第j个预训练字向量。5.根据权利要求3所述的融合中文单词内部结构信息的句子表示的构建方法,其特征在于,所述根据每个单词语料中所有预训练字向量与对应的掩码向量确定所述单词语料的组合词向量,具体包括:根据如下公式,将每个单词语料中所有预训练字向量与对应的掩码向量内积并求和,得到所述单词语料的组合词向量

【专利技术属性】
技术研发人员:王少楠张家俊宗成庆
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1