一种基于Word2Vec的文本标签提取方法及装置制造方法及图纸

技术编号:17596951 阅读:71 留言:0更新日期:2018-03-31 10:10
本发明专利技术公开一种基于Word2Vec的文本标签提取方法及装置,所述方法包括:获取所述文本的文本数据;对所述文本数据进行分词处理;根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量;根据标签库对所述分词结果向量进行匹配识别,将成功匹配的向量的标签加入标签队列;根据标签映射库对所述分词结果向量进行匹配识别,将成功匹配的向量映射到对应的映射标签上,将映射标签加入到标签队列;输出标签队列里的文本标签。本发明专利技术的技术方案通过使用Word2Vec,把词转换为向量,可以对近义词,同义词进行统一标签处理。此外,还可以把归属到同一标签的不同描述通过映射关系归一到同一个标签中。

A method and device for text label extraction based on Word2Vec

The invention discloses a method and a device for extracting text labels based on Word2Vec, the method comprises: acquiring the text data in the text; the text data is processed by word segmentation; vector transformation Word2Vec algorithm based on the results of the word segmentation, word vector according to the results obtained; the word tag library the results of vector matching identification, vector matched label add tag queue; according to the label on the mapping database of segmentation results of vector matching recognition, will be successful, mapping to mapping standard corresponding to the sign, will be added to the label mapping label label label text output queue; the queue. The technical scheme of the invention can be used to label the synonyms and synonyms by using the Word2Vec and converting the words into vectors. In addition, the different descriptions belonging to the same label can be returned to the same label through the mapping relationship.

【技术实现步骤摘要】
一种基于Word2Vec的文本标签提取方法及装置
本专利技术涉及计算机
,尤其涉及一种基于Word2Vec的文本标签提取方法及装置。
技术介绍
当今互联网每天都会产生海量新闻资讯,个人阅读理解新闻资讯的能力是有限的,然而,互联网用户需要了解网络上都发生了哪些事件、讨论了哪些事件,比如金融行业分析师、投资人士需要查阅大量资讯来了解当前行业热点事件,才能了解到与热点事件关联的新闻有哪些。对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但要让计算机也能理解,其处理过程就是分词算法。目前,常见的中文分词项目有word分词,SCWS,FudanNLP,ICTCLAS,HTTPCWS,CC-CEDICT,IK,Paoding,MMSEG4J,盘古分词。Word2Vec是Google在2013年开源的一个将词表转为向量的算法,其利用神经网络,可以通过训练,将词映射到K维度空间向量,甚至对于表示词的向量进行操作还能和语义相对应,由于其简单和高效引起了很多人的关注。现有技术中,通常都是直接进行全文匹配,这样会对一些组合词的识别会出现问题。例如:对“的士”进行全文匹配的时候,会把含有“本文档来自技高网...
一种基于Word2Vec的文本标签提取方法及装置

【技术保护点】
一种基于Word2Vec的文本标签提取方法,其特征在于,所述基于Word2Vec的文本标签提取方法包括如下步骤:S10、获取所述文本的文本数据;S20、对所述文本数据进行分词处理;S30、根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量;S40、根据标签库对所述分词结果向量进行匹配识别,将成功匹配的向量的标签加入标签队列;S50、根据标签映射库对所述分词结果向量进行匹配识别,将成功匹配的向量映射到对应的映射标签上,将映射标签加入到标签队列;S60、输出标签队列里的文本标签。

【技术特征摘要】
1.一种基于Word2Vec的文本标签提取方法,其特征在于,所述基于Word2Vec的文本标签提取方法包括如下步骤:S10、获取所述文本的文本数据;S20、对所述文本数据进行分词处理;S30、根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量;S40、根据标签库对所述分词结果向量进行匹配识别,将成功匹配的向量的标签加入标签队列;S50、根据标签映射库对所述分词结果向量进行匹配识别,将成功匹配的向量映射到对应的映射标签上,将映射标签加入到标签队列;S60、输出标签队列里的文本标签。2.如权利要求1所述的一种基于Word2Vec的文本标签提取方法,其特征在于,所述步骤S20具体包括如下步骤:S202、根据分词计算方法,将文本数据拆分成词组;S204、根据词性,删除副词,助词,标点符号等弱词性的词;S206、将词组与停用词库进行对比,删除停用词库包含的词;S208、输出分词词组。3.如权利要求2所述的一种基于Word2Vec的文本标签提取方法,其特征在于,所述步骤S30具体包括如下步骤:S302、根据互联网信息,获取文本语料;S304、删除停用词,分词;S306、根据Word2Vec算法,使用所述文本语料进行训练,构造出词转换成向量的词向量表;S308、对所述分词词组使用词向量表进行向量转换,得到对应的分词结果向量。4.如权利要求3所述的一种基于Word2Vec的文本标签提取方法,其特征在于,所述步骤S40具体包括如下步骤:S402、按顺序取出一个分词结果向量;S404、将所述分词结果向量与标签库进行对比,若存在有向量完全匹配的标签,或者与标签库向量差异在最小差异值范围内的标签,则把该标签加入标签队列;S406、若分词结果没有处理完,则重复步骤S402。5.如权利要求4所述的一种基于Word2Vec的文本标签提取方法,其特征在于,所述步骤S50具体包括如下步骤:S502、按顺序取出一个分词结果向量;S504、将分词结果向量与映射标签库进行对比,如果有向量完全匹配的标签,或者映射标签库向量差异在最小差异值范围内的,则把映射标签加入标签队列;S506、若分词结果没有处理完,则重复步骤S502。6.一种基于Wor...

【专利技术属性】
技术研发人员:余虎张郭强林伟亮
申请(专利权)人:广东亿迅科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1