一种基于word2vec技术的相似度比较方法及装置制造方法及图纸

技术编号：24207915 阅读：19 留言：0更新日期：2020-05-20 15:29

本发明专利技术提出了一种基于word2vec技术的相似度比较方法及装置。包括：获取网络文章以及本地词库，建立word2vec算法，通过word2vec算法对该网络文章进行训练，生成词向量模型文件；获取多个待比较语句，根据词库对多个待比较语句进行查找，将能够在词库中查找到的词语转化为数字编码作为待比较数字编码，记录不能够在词库中查找到的词语为待比较词语；将待比较词语放入词向量模型文件中，获取待比较编码语句的相似度。本发明专利技术通过word2vec算法以及数字编码能够有效对不同设备名称的同一设备进行比对，提高工作效率。

A similarity comparison method and device based on word2vec Technology

全部详细技术资料下载

【技术实现步骤摘要】
一种基于word2vec技术的相似度比较方法及装置
本专利技术涉及计算机软件
，尤其涉及一种基于word2vec技术的相似度比较方法及装置。
技术介绍
电网各职能部门在信息系统建设的初期，主要工作是解决各部门的生产需求，这样就导致了各系统之间并没有实现数据互通。但是从2017年开始，电网启动梳理存量设备清册工作，由于各系统中设备名称为手工录入，叫法各异，有全称、有简称、有带地名、有带设备用途等等，给资产的盘点工作造成了极大的困难，最初的方法主要是导出各系统的数据，要么借助EXCEL、要么纯人工的方式进行比对，工作量巨大、比对周期长、效率低，难以为继。且目前行业内没有一款有效的比对工具解决该痛点。上述内容仅用于辅助理解本专利技术的技术方案，并不代表承认上述内容是现有技术。
技术实现思路
有鉴于此，本专利技术提出了一种基于word2vec技术的相似度比较方法及装置，旨在解决现有技术无法通过word2vec技术确定电网行业中不同名称的设备为同一设备的技术问题。本专利技术的技术方案是这样实现的：一方面，本专利技术提供了一种基于word2vec技术的相似度比较方法，所述基于word2vec技术的相似度比较方法包括以下步骤：S1，获取网络文章以及本地词库，建立word2vec算法，通过word2vec算法对该网络文章进行训练，生成词向量模型文件；S2，获取多个待比较语句，根据词库对多个待比较语句进行查找，将能够在词库中查找到的词语转化为数字编码作为待比较数字编码，...

【技术保护点】
1.一种基于word2vec技术的相似度比较方法，其特征在于：包括以下步骤；/nS1，获取网络文章以及本地词库，建立word2vec算法，通过word2vec算法对该网络文章进行训练，生成词向量模型文件；/nS2，获取多个待比较语句，根据词库对多个待比较语句进行查找，将能够在词库中查找到的词语转化为数字编码作为待比较数字编码，记录不能够在词库中查找到的词语为待比较词语，将待比较数字编码与待比较词语组合成待比较编码语句；/nS3，获取比较编码语句的语句结构，将多个待比较编码语句的语句结构两两进行比较，根据比较结果，将待比较词语放入词向量模型文件中，获取待比较编码语句的相似度。/n

【技术特征摘要】
1.一种基于word2vec技术的相似度比较方法，其特征在于：包括以下步骤；
S1，获取网络文章以及本地词库，建立word2vec算法，通过word2vec算法对该网络文章进行训练，生成词向量模型文件；
S2，获取多个待比较语句，根据词库对多个待比较语句进行查找，将能够在词库中查找到的词语转化为数字编码作为待比较数字编码，记录不能够在词库中查找到的词语为待比较词语，将待比较数字编码与待比较词语组合成待比较编码语句；
S3，获取比较编码语句的语句结构，将多个待比较编码语句的语句结构两两进行比较，根据比较结果，将待比较词语放入词向量模型文件中，获取待比较编码语句的相似度。

2.如权利要求1所述的基于word2vec技术的相似度比较方法，其特征在于：步骤S1中，获取网络文章以及本地词库，建立word2vec算法，通过word2vec算法对该网络文章进行训练，生成词向量模型文件，还包括以下步骤，获取本地历史词语，分配唯一数字编号给每一个历史词语，根据本地历史词语以及对应的数字编码建立本地词库，通过word2vec算法对网络文章进行训练，生成词向量模型文件。

3.如权利要求2所述的基于word2vec技术的相似度比较方法，其特征在于：还包括以下步骤，所述word2vec算法为：

其中，v(w)代表词向量模型文件，C(w)代表包含该词语的网络文章，代表最大对数似然，w代表词语，u代表另一个词语，j代表节点的索引下标，lu代表路径包含的节点个数，路径是指利用Huffman树形成的到各词语的通道。

4.如权利要求2所述的基于word2vec技术的相似度比较方法，其特征在于：步骤S2中，获取多个待比较语句，根据词库对多个待比较语句进行查找，将能够在词库中查找到的词语转化为数字编码作为待比较数字编码，记录不能够在词库中查找到的词语为待比较词语，将待比较数字编码与待比较词语组合成待比较编码语句，还包括以下步骤，获取多个待比较语句，根据词库对多个待比较语句进行查找，当待比较语句中的词语在词库中能够被查找到时，根据词库中词语对应的数字编码对该词语进行转化，获取转化后的数字编码作为待比较数字编码，将多个待比较数字编码按照从小到大的顺序进行排列，获取排列后的数字编码组合；当待比较语句中的词语在词库中不能够被查找到时，记录该词语为待比较词语，将待比较数字编码与待比较词语组合成待比较编码语句。

5.如权利要求4所述的基于word2vec技术的相似度比较方法，其特征在于：步骤S3中，获取比较编码语句的语句结构，将多个待比较编码语句的语句结构两两进行比较，根据比较结果，将待比较词语...

【专利技术属性】
技术研发人员：陈钢，高波，
申请(专利权)人：武汉光谷信息技术股份有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人