一种增强语义特征嵌入的文本表示方法技术

技术编号：20363530 阅读：63 留言：0更新日期：2019-02-16 16:49

本发明专利技术公开了一种增强语义特征嵌入的文本表示方法，包括以下步骤：S1、文本预处理；S2、对经预处理后的文本中的每个句子进行语义特征抽取，并根据所抽取的语义特征将文本中各个句子转化为相应的语义特征序列；将语义特征序列作为输入，利用词向量模型对语义特征序列进行训练，获得各个语义特征的向量模型；S3、将各个句子的绝对位置信息依次映射到同一个滑动窗口向量空间内，得到句子的位置向量模型；S4、将各个增强的特征向量模型进行融合，最终获得增强语义特征向量模型。本发明专利技术在自然语言处理任务中，如情感分析、文本摘要等，相比于现有的文本嵌入方法，应用增强语义特征的文本嵌入方法可以显著提高在这些任务上的表现。

全部详细技术资料下载

【技术实现步骤摘要】
一种增强语义特征嵌入的文本表示方法
本专利技术涉及自然语言处理
，特别地，涉及一种增强语义特征嵌入的文本表示方法。
技术介绍
自然语言处理是人工智能领域的尚未被完全攻克的一个方向。提高文本的表达质量，是改进包括自动文摘、情感分析在内的自然语言处理(NaturalLanguageProcessing，NLP)任务效果的一个重要思路。自2013年Mikilov等人提出了次向量模型CBOW和SkipGram，并开源工具包word2vec以后，文本表达方法的研究格局就彻底被改变了。中国专利申请201710569638.0公开了一种基于词袋模型的文本表示的处理，对采集到的文本数据集进行分词，去停顿词，去低频词，特征选择等处理过程；然后运用空间向量表示处理后的文本；同时对对处理后的文本运用神经网络的方法训练词向量；根据词向量的相似性修改词袋模型的特征词的权重，得到新的文本表示模型。但以词袋模型(BagofWords，BOW)为基础的传统自然语言处理方法由于独热编码和稀疏性且忽略了单词的语义信息，在诸多NLP任务已经开始遇到效果的瓶颈。词向量(WordEmbedding)...

【技术保护点】
1.一种增强语义特征嵌入的文本表示方法，其特征在于，包括以下步骤：S1、文本预处理；S2、对经预处理后的文本中的每个句子进行语义特征抽取，并根据所抽取的语义特征将文本中各个句子转化为相应的语义特征序列；将语义特征序列作为输入，利用词向量模型对语义特征序列进行训练，获得各个语义特征的向量模型；S3、将各个句子的绝对位置信息映射到一个滑动窗口向量空间，得到句子的位置向量模型；S4、将步骤S2获得的各个语义特征的向量模型进行融合，最终获得增强语义的句向量表示。

【技术特征摘要】
1.一种增强语义特征嵌入的文本表示方法，其特征在于，包括以下步骤：S1、文本预处理；S2、对经预处理后的文本中的每个句子进行语义特征抽取，并根据所抽取的语义特征将文本中各个句子转化为相应的语义特征序列；将语义特征序列作为输入，利用词向量模型对语义特征序列进行训练，获得各个语义特征的向量模型；S3、将各个句子的绝对位置信息映射到一个滑动窗口向量空间，得到句子的位置向量模型；S4、将步骤S2获得的各个语义特征的向量模型进行融合，最终获得增强语义的句向量表示。2.根据权利要求1所述的文本表示方法，其特征在于，所述文本预处理包括：利用正则表达式对文本进行扫描，去除文本中的标点符号和特殊符号；匹配停用词库，去除文本中无实际语义的停用词；对文本进行分词处理。3.根据权利要求1所述的文本表示方法，其特征在于，所述语义特征包括Word-POS特征、N-grams特征、词干特征和句子位置特征，所述语义特征序列包括Word-POS特征序列、N-grams特征序列、词干特征序列和句子位置特征序列；通过词性标注技术获取文本中单词的词性，并将其与文本中的单词对应拼接组合获取文本的Word-POS特征序列；提取每个单词的词干，将文本转化为词干序列，作为词向量模型的输入。4.根据权利要求1所述的文本表示方法，其特征在于，所述步骤S3具体为：S3.1、将每个句子的位置向量初始化为一个N维零向量zeros(N)；S3.2、将每个句子在文本中的绝对位置ID映射到N维零向量中的一个窗口位置，该窗口长度为S3.3、将N维零向量中长度为的窗口位置的所有0元素替换...

【专利技术属性】
技术研发人员：张祖平，杨康，
申请(专利权)人：中南大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人