文本词向量获取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：21361663 阅读：25 留言：0更新日期：2019-06-15 09:23

本发明专利技术公开了文本词向量获取方法、装置、计算机设备及存储介质。该方法包括：接收待处理文本，将所述待处理文本进行分词及词向量转化，得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量；将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量；以及将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接，得到与所述分词结果中每一分词对应的最终词向量。该方法能够将词的主题信息融入到其向量表征中，进一步丰富其信息量，有助于后续自然语言处理任务准确率的提高。

Text Word Vector Acquisition Method, Device, Computer Equipment and Storage Media

The invention discloses a text word vector acquisition method, a device, a computer device and a storage medium. The method includes: receiving the text to be processed, transforming the text to be processed into word segmentation and word vector, obtaining the word vectors corresponding to each word in the segmentation result obtained from the text to be processed; transforming the word vectors corresponding to each word in the segmentation result into a heat-coded vector according to the potential Dirichlet distribution subject model; and summarizing the words. The unithermal coding vectors corresponding to each word in the segmentation result are joined with the corresponding word vectors, and the final word vectors corresponding to each word in the segmentation result are obtained. This method can integrate the subject information of words into their vector representation, further enrich the amount of information, and help to improve the accuracy of subsequent natural language processing tasks.

全部详细技术资料下载

【技术实现步骤摘要】
文本词向量获取方法、装置、计算机设备及存储介质
本专利技术涉及语义解析
，尤其涉及一种文本词向量获取方法、装置、计算机设备及存储介质。
技术介绍
目前，一般使用深度学习处理文本类数据的时候需要对文本进行分词，进而将词表示为词向量方式作为特征输入；目前已有的词向量表征算法中只考虑到词的相邻词信息，故基于目前已有的词向量表征算法信息量少，识别准确率不高。
技术实现思路
本专利技术实施例提供了一种文本词向量获取方法、装置、计算机设备及存储介质，旨在解决现有技术中使用深度学习处理文本类数据的时对文本进行分词，进而将词表示为词向量方式作为特征输入，词向量表征算法信息量少，识别准确率不高的问题。第一方面，本专利技术实施例提供了一种文本词向量获取方法，其包括：接收待处理文本，将所述待处理文本进行分词及词向量转化，得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量；将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量；以及将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接，得到与所述分词结果中每一分词对应的最终词向量。第二方面，本专利技术实施例提供了一种文本词向量获取装置，其包括：词向量获取单元，用于接收待处理文本，将所述待处理文本进行分词及词向量转化，得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量；独热编码单元，用于将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量；以及最终词向量获取单元，用于将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接，得...

【技术保护点】
1.一种文本词向量获取方法，其特征在于，包括：接收待处理文本，将所述待处理文本进行分词及词向量转化，得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量；将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量；以及将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接，得到与所述分词结果中每一分词对应的最终词向量。

【技术特征摘要】
1.一种文本词向量获取方法，其特征在于，包括：接收待处理文本，将所述待处理文本进行分词及词向量转化，得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量；将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量；以及将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接，得到与所述分词结果中每一分词对应的最终词向量。2.根据权利要求1所述的文本词向量获取方法，其特征在于，所述将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接，得到与所述分词结果中每一分词对应的最终词向量之后，还包括：将所述分词结果中每一分词对应的最终词向量从上至下进行组合得到文本矩阵；将所述文本矩阵输入至已训练的卷积神经网络模型，得到所述待处理文本对应的文本识别向量；将所述文本识别向量作为文本情感分类器的输入以进行分类，得到文本情感识别结果。3.根据权利要求1所述的文本词向量获取方法，其特征在于，所述将所述待处理文本进行分词及词向量转化，得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量，包括：将所述待处理文本通过基于概率统计分词模型进行分词，得到与所述待处理文本对应的分词结果；通过用于将单词转化为向量的Word2Vec模型获取所述分词结果中各分词对应的词向量。4.根据权利要求1所述的文本词向量获取方法，其特征在于，所述将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量，包括：获取所述分词结果，将所述分词结果中每一分词作为根据语料库预先训练所得到的潜在狄利克雷分布主题模型的输入，得到与所述分词结果中每一分词对应的主题；将所述分词结果中每一分词的主题分别进行独热编码，得到与所述分词结果中各分词一一对应的独热编码向量。5.根据权利要求1所述的文本词向量获取方法，其特征在于，所述将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接，得到与所述分词结果中每一分...

【专利技术属性】
技术研发人员：郑立颖，金戈，徐亮，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人