一种基于word2vec模型构建词网的方法和装置制造方法及图纸

技术编号:26172175 阅读:35 留言:0更新日期:2020-10-31 13:48
本发明专利技术提供一种基于word2vec模型构建词网的方法和装置,属于词网构建技术领域,本发明专利技术包括词网数据清洗功能、词网模型构建功能与词网数据动态添加功能。通过对科技产出的关键词、摘要、名称数据结合相关停用词进行切词分词处理等数据清洗处理形成基本词库,然后针对基本词库采取word2vec网络模型对数据进行编码以及空间定位操作,通过持续迭代训练将数据收敛,最终形成词网数据库。在已构建词网数据库的基础上,支持动态加入相关词的功能。通过对新词的关联属性与词网中已有词进行对比,并计算新词的空间向量平均值,得到新词在词网空间中的相对位置,最终实现词网数据的更新。

【技术实现步骤摘要】
一种基于word2vec模型构建词网的方法和装置
本专利技术涉及词网构建技术,尤其涉及一种基于word2vec模型构建词网的方法和装置。
技术介绍
现有的词网构建技术及方案有很多种,但大多方案词与词间的关系比较单一,造成整个词网的网络结构较为简单,且当新词加入词网时,需要重新训练,扩展性不足。
技术实现思路
为了解决以上技术问题,本专利技术提供了一种基于word2vec模型构建词网的方法,为基于word2vec模型结合自然语言技术优化词网的准确度、词网的构建效率、词网的扩展性以及丰富词网的网络结构。有效优化及提升基于词网数据实现的相关词云展现、数据标引及数据打标签等应用场景的准确度。本专利技术的技术方案是:一种基于word2vec模型构建词网的方法,基于自然语言处理技术,经过对数据通过停用词、切词、词频统计等一系列操作对数据进行清洗,通过word2vec网络模型对词进行深度挖掘和训练,结合词向量建立词与词间的关联关系,通过持续迭代不断丰富词网的网络结构,并且针对新进词,通过与词网比对更新词网,增强了词网的更新本文档来自技高网...

【技术保护点】
1.一种基于word2vec模型构建词网的方法,其特征在于,/n基于自然语言处理技术,经过对数据通过停用词、切词、词频统计一系列操作对数据进行清洗,通过word2vec网络模型对词进行挖掘和训练,结合词向量建立词与词间的关联关系,通过持续迭代不断丰富词网的网络结构,并且针对新进词,通过与词网比对更新词网。/n

【技术特征摘要】
1.一种基于word2vec模型构建词网的方法,其特征在于,
基于自然语言处理技术,经过对数据通过停用词、切词、词频统计一系列操作对数据进行清洗,通过word2vec网络模型对词进行挖掘和训练,结合词向量建立词与词间的关联关系,通过持续迭代不断丰富词网的网络结构,并且针对新进词,通过与词网比对更新词网。


2.根据权利要求1所述的方法,其特征在于,
通过对科技产出的关键词、摘要、名称数据结合相关停用词进行切词分词处理等数据清洗处理形成基本词库,然后针对基本词库采取word2vec网络模型对数据进行编码以及空间定位操作,通过持续迭代训练将数据收敛,最终形成词网数据库。


3.根据权利要求2所述的方法,其特征在于,
在已构建词网数据库的基础上,支持动态加入相关词的功能;通过对新词的关联属性与词网中已有词进行对比,并计算新词的空间向量平均值,得到新词在词网空间中的相对位置,最终实现词网数据的更新。


4.一种基于word2vec模型构建词网的装置,其特征在于,
包括词网数据清洗组件、词网模型构建组件与词网数据动态添加组件,
(1)词网数据清洗组件,采取数据分词、数据规范化、词频统计的清洗方式将文本数据转化为可训练数据;
(2)词网模型构建组件,采取word2vec网络模型对数据进行编码以及空间定位操作;
(3)词网数据动态添加组件,解决新兴词汇快速加入词网的功能。


5.根据权利要求4所述的装置,其特征在于,
(1)在词网数据清洗组件中,输入数据源采用科技产出数据,选取近十年的文本数据,统一格式后存入数据库进行统一处理,在数据库中对源数据的摘要以及关键词进行提取,利用jieba全模式切词,将摘要中所有的可以成词的词语扫描出来,并使用特定的关键词网进行更加细致的筛选,与数据关键词合并,得到相关联的字符组,引入停用词表对字符组停用词进行初步清洗,将初步清洗后的数据引入深度清洗流程,进行大小写规范,低频词筛除与替换,建立词组索引,清洗无效数据,将数据编码统计词频存入词网数据库,并组成清洗后的有效数据进行关联关系提取形成数组并划分训练集与测试集,将所有集合存入训练数据库。


6.根据...

【专利技术属性】
技术研发人员:张辉杨玺
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1