一种基于word2vec技术的相似度比较方法及装置制造方法及图纸

技术编号:24207915 阅读:19 留言:0更新日期:2020-05-20 15:29
本发明专利技术提出了一种基于word2vec技术的相似度比较方法及装置。包括:获取网络文章以及本地词库,建立word2vec算法,通过word2vec算法对该网络文章进行训练,生成词向量模型文件;获取多个待比较语句,根据词库对多个待比较语句进行查找,将能够在词库中查找到的词语转化为数字编码作为待比较数字编码,记录不能够在词库中查找到的词语为待比较词语;将待比较词语放入词向量模型文件中,获取待比较编码语句的相似度。本发明专利技术通过word2vec算法以及数字编码能够有效对不同设备名称的同一设备进行比对,提高工作效率。

A similarity comparison method and device based on word2vec Technology

【技术实现步骤摘要】
一种基于word2vec技术的相似度比较方法及装置
本专利技术涉及计算机软件
,尤其涉及一种基于word2vec技术的相似度比较方法及装置。
技术介绍
电网各职能部门在信息系统建设的初期,主要工作是解决各部门的生产需求,这样就导致了各系统之间并没有实现数据互通。但是从2017年开始,电网启动梳理存量设备清册工作,由于各系统中设备名称为手工录入,叫法各异,有全称、有简称、有带地名、有带设备用途等等,给资产的盘点工作造成了极大的困难,最初的方法主要是导出各系统的数据,要么借助EXCEL、要么纯人工的方式进行比对,工作量巨大、比对周期长、效率低,难以为继。且目前行业内没有一款有效的比对工具解决该痛点。上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
有鉴于此,本专利技术提出了一种基于word2vec技术的相似度比较方法及装置,旨在解决现有技术无法通过word2vec技术确定电网行业中不同名称的设备为同一设备的技术问题。本专利技术的技术方案是这样实现的:一方面,本专利技术提供了一种基于word2vec技术的相似度比较方法,所述基于word2vec技术的相似度比较方法包括以下步骤:S1,获取网络文章以及本地词库,建立word2vec算法,通过word2vec算法对该网络文章进行训练,生成词向量模型文件;S2,获取多个待比较语句,根据词库对多个待比较语句进行查找,将能够在词库中查找到的词语转化为数字编码作为待比较数字编码,记录不能够在词库中查找到的词语为待比较词语,将待比较数字编码与待比较词语组合成待比较编码语句;S3,获取比较编码语句的语句结构,将多个待比较编码语句的语句结构两两进行比较,根据比较结果,将待比较词语放入词向量模型文件中,获取待比较编码语句的相似度。在以上技术方案的基础上,优选的,步骤S1中,获取网络文章以及本地词库,获取网络文章以及本地词库,建立word2vec算法,通过word2vec算法对该网络文章进行训练,生成词向量模型文件,还包括以下步骤,获取本地历史词语,分配唯一数字编号给每一个历史词语,根据本地历史词语以及对应的数字编码建立本地词库,通过word2vec算法对网络文章进行训练,生成词向量模型文件。在以上技术方案的基础上,优选的,还包括以下步骤,所述word2vec算法为:其中,v(w)代表词向量模型文件,C(w)代表包含该词语的网络文章,代表最大对数似然,w代表词语,u代表另一个词语,j代表节点的索引下标,lu代表路径包含的节点个数,路径是指利用Huffman树形成的到各词语的通道。在以上技术方案的基础上,优选的,步骤S2中,获取多个待比较语句,根据词库对多个待比较语句进行查找,将能够在词库中查找到的词语转化为数字编码作为待比较数字编码,记录不能够在词库中查找到的词语为待比较词语,将待比较数字编码与待比较词语组合成待比较编码语句,还包括以下步骤,获取多个待比较语句,根据词库对多个待比较语句进行查找,当待比较语句中的词语在词库中能够被查找到时,根据词库中词语对应的数字编码对该词语进行转化,获取转化后的数字编码作为待比较数字编码,将多个待比较数字编码按照从小到大的顺序进行排列,获取排列后的数字编码组合;当待比较语句中的词语在词库中不能够被查找到时,记录该词语为待比较词语,将待比较数字编码与待比较词语组合成待比较编码语句。在以上技术方案的基础上,优选的,步骤S3中,获取比较编码语句的语句结构,将多个待比较编码语句的语句结构两两进行比较,根据比较结果,将待比较词语放入词向量模型文件中,获取待比较编码语句的相似度,还包括以下步骤,获取该待比较编码语句的语句结构,将各待比较编码语句的语句结构两两进行比较,当待比较编码语句的语句结构相同时,将待比较词语放入词向量模型文件中,获取待比较编码语句的相似度。在以上技术方案的基础上,优选的,将待比较词语放入词向量模型文件中,获取待比较编码语句的相似度,还包括以下步骤,将待比较词语放入词向量模型文件中,通过余弦相似度确定待比较词语的相似度,根据待比较编码语句的相似度以及待比较词语的相似度确定待比较编码语句的相似度。在以上技术方案的基础上,优选的,根据待比较编码语句的相似度以及待比较词语的相似度确定待比较编码语句的相似度,还包括以下步骤,设定预设数值,将待比较编码语句的相似度与待比较词语的相似度组合作为最终相似度,将预设数值与最终相似度进行比较,当最终相似度大于预设数值时,表示最终相似度对应的2个待比较编码语句对应的待比较语句之间相似;当最终相似度小于预设数值时,表示匹配度数值对应的2个待比较编码语句对应的待比较语句之间不相似。更进一步优选的,所述基于word2vec技术的相似度比较装置包括:词库建立模块,用于获取网络文章以及本地词库,建立word2vec算法,通过word2vec算法对该网络文章进行训练,生成词向量模型文件;计算模块,用于获取多个待比较语句,根据词库对多个待比较语句进行查找,将能够在词库中查找到的词语转化为数字编码作为待比较数字编码,记录不能够在词库中查找到的词语为待比较词语,将待比较数字编码与待比较词语组合成待比较编码语句;比较模块,用于获取比较编码语句的语句结构,将多个待比较编码语句的语句结构两两进行比较,根据比较结果,将待比较词语放入词向量模型文件中,获取待比较编码语句的相似度。第二方面,所述基于word2vec技术的相似度比较方法还包括一种设备,所述设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于word2vec技术的相似度比较方法程序,所述基于word2vec技术的相似度比较方法程序配置为实现如上文所述的基于word2vec技术的相似度比较方法的步骤。第三方面,所述基于word2vec技术的相似度比较方法还包括一种介质,所述介质为计算机介质,所述计算机介质上存储有基于word2vec技术的相似度比较方法程序,所述基于word2vec技术的相似度比较方法程序被处理器执行时实现如上文所述的基于word2vec技术的相似度比较方法的步骤。本专利技术的一种基于word2vec技术的相似度比较方法相对于现有技术具有以下有益效果:(1)通过word2vec算法,能够计算出每个词的词向量模型文件,通过词向量模型文件的余弦相似度能够精确对2个词之间的相似度进行判断,提高了判断精度,同时也加快了工作效率;(2)通过预先设定好数字编码,对词库中的词语进行数字编码,然后将待比较语句中能够在词库找到的词语转换成数字编码,对不能转化成数字编码进行相似度比较,通过这种方式,能够快速去相似度进行判断,节省了数据运算量,提高了运算效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不本文档来自技高网...

【技术保护点】
1.一种基于word2vec技术的相似度比较方法,其特征在于:包括以下步骤;/nS1,获取网络文章以及本地词库,建立word2vec算法,通过word2vec算法对该网络文章进行训练,生成词向量模型文件;/nS2,获取多个待比较语句,根据词库对多个待比较语句进行查找,将能够在词库中查找到的词语转化为数字编码作为待比较数字编码,记录不能够在词库中查找到的词语为待比较词语,将待比较数字编码与待比较词语组合成待比较编码语句;/nS3,获取比较编码语句的语句结构,将多个待比较编码语句的语句结构两两进行比较,根据比较结果,将待比较词语放入词向量模型文件中,获取待比较编码语句的相似度。/n

【技术特征摘要】
1.一种基于word2vec技术的相似度比较方法,其特征在于:包括以下步骤;
S1,获取网络文章以及本地词库,建立word2vec算法,通过word2vec算法对该网络文章进行训练,生成词向量模型文件;
S2,获取多个待比较语句,根据词库对多个待比较语句进行查找,将能够在词库中查找到的词语转化为数字编码作为待比较数字编码,记录不能够在词库中查找到的词语为待比较词语,将待比较数字编码与待比较词语组合成待比较编码语句;
S3,获取比较编码语句的语句结构,将多个待比较编码语句的语句结构两两进行比较,根据比较结果,将待比较词语放入词向量模型文件中,获取待比较编码语句的相似度。


2.如权利要求1所述的基于word2vec技术的相似度比较方法,其特征在于:步骤S1中,获取网络文章以及本地词库,建立word2vec算法,通过word2vec算法对该网络文章进行训练,生成词向量模型文件,还包括以下步骤,获取本地历史词语,分配唯一数字编号给每一个历史词语,根据本地历史词语以及对应的数字编码建立本地词库,通过word2vec算法对网络文章进行训练,生成词向量模型文件。


3.如权利要求2所述的基于word2vec技术的相似度比较方法,其特征在于:还包括以下步骤,所述word2vec算法为:



其中,v(w)代表词向量模型文件,C(w)代表包含该词语的网络文章,代表最大对数似然,w代表词语,u代表另一个词语,j代表节点的索引下标,lu代表路径包含的节点个数,路径是指利用Huffman树形成的到各词语的通道。


4.如权利要求2所述的基于word2vec技术的相似度比较方法,其特征在于:步骤S2中,获取多个待比较语句,根据词库对多个待比较语句进行查找,将能够在词库中查找到的词语转化为数字编码作为待比较数字编码,记录不能够在词库中查找到的词语为待比较词语,将待比较数字编码与待比较词语组合成待比较编码语句,还包括以下步骤,获取多个待比较语句,根据词库对多个待比较语句进行查找,当待比较语句中的词语在词库中能够被查找到时,根据词库中词语对应的数字编码对该词语进行转化,获取转化后的数字编码作为待比较数字编码,将多个待比较数字编码按照从小到大的顺序进行排列,获取排列后的数字编码组合;当待比较语句中的词语在词库中不能够被查找到时,记录该词语为待比较词语,将待比较数字编码与待比较词语组合成待比较编码语句。


5.如权利要求4所述的基于word2vec技术的相似度比较方法,其特征在于:步骤S3中,获取比较编码语句的语句结构,将多个待比较编码语句的语句结构两两进行比较,根据比较结果,将待比较词语...

【专利技术属性】
技术研发人员:陈钢高波
申请(专利权)人:武汉光谷信息技术股份有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1