融合中文单词内部结构信息的句子表示的构建方法及系统技术方案

技术编号：16700708 阅读：45 留言：0更新日期：2017-12-02 13:03

本发明专利技术涉及自然语言处理技术领域，具体提出一种融合中文单词内部结构信息的句子表示的构建方法及系统，旨在解决单词内部结构信息利用率低的问题；所述构建方法包括：对训练语料中所有的中文复述句对进行分词处理，得到多个单词语料；对各所述单词语料进行预训练，得到预训练字向量和预训练词向量；整合每个单词语料中的所有预训练字向量和预训练词向量，获得对应单词语料的组合词向量；根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量，所述最终词向量表征单词内部结构信息；将待处理句子中的各个单词语料的最终词向量进行整合，得到所述待处理句子的表示向量。本发明专利技术可以提高单词内部结构信息的利用率。

The construction method and system of sentence representation for the fusion of Chinese word internal structure information

The present invention relates to the technical field of Natural Language Processing, the paper presents a fusion of the internal structure of words and sentences Chinese information representation method and system, to solve the problem of low ratio of internal structure information using the word; the construction method includes: the training corpus in all Chinese paraphrase of word segmentation, multiple word corpus; pre training on the word corpus, pre training word vector and pre training vector; integration of each word in the corpus of all pre training and practicing vector pre training word vector, obtain the combined word vector corresponding word corpus; according to the pre training word vector of each word in the corpus and the combination vector to determine the final the word word vector data, the final word vector characterization of the internal structure of word information; each sentence will be processed in a single word The final word vector of the material is integrated to get the expression vector of the sentence to be treated. The invention can improve the utilization rate of the internal structure information of the words.

全部详细技术资料下载

【技术实现步骤摘要】
融合中文单词内部结构信息的句子表示的构建方法及系统
本专利技术涉及自然语言处理
，是一种融合中文单词内部结构信息的句子表示的构建方法及系统。
技术介绍
句子表示是将一个自然语言的句子映射为一个高维空间中，使得语义相似的句子在这个空间中具有较近的距离。句子表示是自然语言处理的基础任务，直接影响到整个语言处理系统的性能。因此，人们投入了大量精力去研究如何针对特定的任务设计合适的句子表示方法，以提升语言处理系统的性能。传统的句子表示方法用大量手工设计的特征来表示句子的含义，在各种自然语言处理任务中取得了良好的效果。但由于需要大量人力和专业知识，而且往往需要根据不同的任务选择特征，导致模型泛化能力差和特征表示困难的问题。最近几年，人们发现基于神经网络的模型可以从大规模文本中自动抽取句子的语义特征，并且极大的提升了句子语义表示的效果。然而，绝大多数句子表示的研究都是针对英文句子，在单词粒度上设计不同的神经网络结构对句子的语义进行编码。与英文不同的是，中文的单词由字构成，字中包含了丰富的语义信息，可以反映这个单词的含义。事实上，目前已经有研究人员注意到这方面的问题，并利...
融合中文单词内部结构信息的句子表示的构建方法及系统

【技术保护点】
一种融合中文单词内部结构信息的句子表示的构建方法，其特征在于，所述构建方法包括：对训练语料中所有的中文复述句对进行分词处理，得到多个单词语料；对各所述单词语料进行预训练，得到预训练字向量和预训练词向量；整合每个单词语料中的所有预训练字向量和预训练词向量，获得对应单词语料的组合词向量；根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量，所述最终词向量表征单词内部结构信息；将待处理句子中的各个单词语料的最终词向量进行整合，得到所述待处理句子的表示向量。

【技术特征摘要】
1.一种融合中文单词内部结构信息的句子表示的构建方法，其特征在于，所述构建方法包括：对训练语料中所有的中文复述句对进行分词处理，得到多个单词语料；对各所述单词语料进行预训练，得到预训练字向量和预训练词向量；整合每个单词语料中的所有预训练字向量和预训练词向量，获得对应单词语料的组合词向量；根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量，所述最终词向量表征单词内部结构信息；将待处理句子中的各个单词语料的最终词向量进行整合，得到所述待处理句子的表示向量。2.根据权利要求1所述的融合中文单词内部结构信息的句子表示的构建方法，其特征在于，所述对各所述单词语料进行预训练，具体包括：对各所述单词语料按字进行拆分，得到字语料；将单词语料和字语料拼接，得到字向量和词向量；利用开源模型对所述字向量和词向量进行预训练，获得对应的预训练字向量和预训练词向量。3.根据权利要求1所述的融合中文单词内部结构信息的句子表示的构建方法，其特征在于，所述整合每个单词语料中的所有预训练字向量和预训练词向量，具体包括：将每个单词语料的预训练字向量和预训练词向量进行拼接，得到对应预训练字向量的拼接向量；将所述拼接向量输入到前馈神经网络中并进行非线性变换，得到对应所述预训练字向量的掩码向量；根据每个单词语料中所有预训练字向量与对应的掩码向量确定所述单词语料的组合词向量。4.根据权利要求3所述的融合中文单词内部结构信息的句子表示的构建方法，其特征在于，将所述拼接向量输入到前馈神经网络中并进行非线性变换，具体包括：根据如下公式确定掩码向量vij：vij＝tanh(W·[cij；xi])其中，tanh()表示双曲正切函数，W是前馈神经网络的参数，cij是第i个单词语料xi中第j个预训练字向量。5.根据权利要求3所述的融合中文单词内部结构信息的句子表示的构建方法，其特征在于，所述根据每个单词语料中所有预训练字向量与对应的掩码向量确定所述单词语料的组合词向量，具体包括：根据如下公式，将每个单词语料中所有预训练字向量与对应的掩码向量内积并求和，得到所述单词语料的组合词向量

【专利技术属性】
技术研发人员：王少楠，张家俊，宗成庆，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人