文本词向量获取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:21361663 阅读:25 留言:0更新日期:2019-06-15 09:23
本发明专利技术公开了文本词向量获取方法、装置、计算机设备及存储介质。该方法包括:接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量;将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量;以及将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量。该方法能够将词的主题信息融入到其向量表征中,进一步丰富其信息量,有助于后续自然语言处理任务准确率的提高。

Text Word Vector Acquisition Method, Device, Computer Equipment and Storage Media

The invention discloses a text word vector acquisition method, a device, a computer device and a storage medium. The method includes: receiving the text to be processed, transforming the text to be processed into word segmentation and word vector, obtaining the word vectors corresponding to each word in the segmentation result obtained from the text to be processed; transforming the word vectors corresponding to each word in the segmentation result into a heat-coded vector according to the potential Dirichlet distribution subject model; and summarizing the words. The unithermal coding vectors corresponding to each word in the segmentation result are joined with the corresponding word vectors, and the final word vectors corresponding to each word in the segmentation result are obtained. This method can integrate the subject information of words into their vector representation, further enrich the amount of information, and help to improve the accuracy of subsequent natural language processing tasks.

【技术实现步骤摘要】
文本词向量获取方法、装置、计算机设备及存储介质
本专利技术涉及语义解析
,尤其涉及一种文本词向量获取方法、装置、计算机设备及存储介质。
技术介绍
目前,一般使用深度学习处理文本类数据的时候需要对文本进行分词,进而将词表示为词向量方式作为特征输入;目前已有的词向量表征算法中只考虑到词的相邻词信息,故基于目前已有的词向量表征算法信息量少,识别准确率不高。
技术实现思路
本专利技术实施例提供了一种文本词向量获取方法、装置、计算机设备及存储介质,旨在解决现有技术中使用深度学习处理文本类数据的时对文本进行分词,进而将词表示为词向量方式作为特征输入,词向量表征算法信息量少,识别准确率不高的问题。第一方面,本专利技术实施例提供了一种文本词向量获取方法,其包括:接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量;将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量;以及将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量。第二方面,本专利技术实施例提供了一种文本词向量获取装置,其包括:词向量获取单元,用于接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量;独热编码单元,用于将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量;以及最终词向量获取单元,用于将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量。第三方面,本专利技术实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的文本词向量获取方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的文本词向量获取方法。本专利技术实施例提供了一种文本词向量获取方法、装置、计算机设备及存储介质。该方法包括接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量;将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量;以及将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量。该方法能够将词的主题信息融入到其向量表征中,进一步丰富其信息量,有助于后续自然语言处理任务准确率的提高。附图说明为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的文本词向量获取方法的应用场景示意图;图2为本专利技术实施例提供的文本词向量获取方法的流程示意图;图3为本专利技术实施例提供的文本词向量获取方法的另一流程示意图;图4为本专利技术实施例提供的文本词向量获取方法的子流程示意图;图5为本专利技术实施例提供的文本词向量获取方法的另一子流程示意图;图6为本专利技术实施例提供的文本词向量获取装置的示意性框图;图7为本专利技术实施例提供的文本词向量获取装置的另一示意性框图;图8为本专利技术实施例提供的文本词向量获取装置的子单元示意性框图;图9为本专利技术实施例提供的文本词向量获取装置的另一子单元示意性框图;图10为本专利技术实施例提供的计算机设备的示意性框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。请参阅图1和图2,图1是本专利技术实施例提供的文本词向量获取方法的应用场景示意图,图2是本专利技术实施例提供的文本词向量获取方法的流程示意图,该文本词向量获取方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。如图2所示,该方法包括步骤S110~S130。S110、接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量。在本实施例中,当用户端上传了待处理文本至服务器时,服务器接收所述待处理文本。之后通过服务器获取所述待处理文本所对应的词向量,以便于后续进行语义分析。在一实施例中,如图4所示,步骤S110包括:S111、将所述待处理文本通过基于概率统计分词模型进行分词,得到与所述待处理文本对应的分词结果;S112、通过用于将单词转化为向量的Word2Vec模型获取所述分词结果中各分词对应的词向量。在本实施例中,对所述待处理文本进行分词时,是通过基于概率统计模型的分词方法进行分词。例如,令C=C1C2...Cm,C是待切分的汉字串,令W=W1W2...Wn,W是切分的结果,Wa,Wb,……,Wk是C的所有可能的切分方案。那么,基于概率统计的切分模型就是能够找到目的词串W,使得W满足:P(W|C)=MAX(P(Wa|C),P(Wb|C)...P(Wk|C))的分词模型,上述分词模型得到的词串W即估计概率为最大之词串。即对一个待分词的子串S,按照从左到右的顺序取出全部候选词w1、w2、…、wi、…、wn;在词典中查出每个候选词的概率值P(wi),并记录每个候选词的全部左邻词;计算每个候选词的累积概率,同时比较得到每个候选词的最佳左邻词;如果当前词wn是字串S的尾词,且累积概率P(wn)最大,则wn就是S的终点词;从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即S的分词结果。当获取了与所述待处理文本对应的分词结果,通过用于将词语转化为向量的Word2Vec模型对所述分词结果中每一分词进行转化,得到与每一分词对应的词向量。其中,Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型,能将分词结果中每一词语转化成对应的词向量,具体可将分词结果每一词语都转化为一个k维的行向量。S120、将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量。在本实施例中,潜在狄利克雷分布主题模型(Laten本文档来自技高网...

【技术保护点】
1.一种文本词向量获取方法,其特征在于,包括:接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量;将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量;以及将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量。

【技术特征摘要】
1.一种文本词向量获取方法,其特征在于,包括:接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量;将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量;以及将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量。2.根据权利要求1所述的文本词向量获取方法,其特征在于,所述将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量之后,还包括:将所述分词结果中每一分词对应的最终词向量从上至下进行组合得到文本矩阵;将所述文本矩阵输入至已训练的卷积神经网络模型,得到所述待处理文本对应的文本识别向量;将所述文本识别向量作为文本情感分类器的输入以进行分类,得到文本情感识别结果。3.根据权利要求1所述的文本词向量获取方法,其特征在于,所述将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量,包括:将所述待处理文本通过基于概率统计分词模型进行分词,得到与所述待处理文本对应的分词结果;通过用于将单词转化为向量的Word2Vec模型获取所述分词结果中各分词对应的词向量。4.根据权利要求1所述的文本词向量获取方法,其特征在于,所述将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量,包括:获取所述分词结果,将所述分词结果中每一分词作为根据语料库预先训练所得到的潜在狄利克雷分布主题模型的输入,得到与所述分词结果中每一分词对应的主题;将所述分词结果中每一分词的主题分别进行独热编码,得到与所述分词结果中各分词一一对应的独热编码向量。5.根据权利要求1所述的文本词向量获取方法,其特征在于,所述将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分...

【专利技术属性】
技术研发人员:郑立颖金戈徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1