【技术实现步骤摘要】
本专利技术涉及一种基于编辑距离以及词频和词向量的实体关系识别方法,它应用于WEB数据挖掘、实体识别,搜索引擎等方面,属于数据挖掘
技术介绍
当今社会,随着科技的迅速发展,特别是互联网技术的发展,人民生活水平的提高,使用互联网的人群越来越多,随之而来的就是搜索引擎的到来,但是以往的搜索体验并不是很好,特别是对于非专业人士,以及娱乐活动不是很多的群众,往往在搜索引擎中搜索的并不是自己想要的东西,但这种东西在广大群体中,是被广为流传的,随之面临的问题便是,搜索引擎对于实体的识别以及关系的建立,其目的就是让系统知道用户检索的实体别名信息,反馈的都是一种其全称信息,增强了系统的健壮性。实体识别以及关系的建立,在一定程度上,提高了系统的效率,并极大的提高了用户的搜索体验,在实际生活中,往往搜索的都是答非所问,其原因大都是因为,系统未能将实体联系起来,本专利技术主要解决根据中文组织机构名对公司名称以及公司所对应的简称进行识别问题,结果表明,本专利技术能获得很好的效果。
技术实现思路
1、目的:为了识别出实体的其他别名、缩略名,在搜索引擎中检索出自己最想要的信息,提出了一种基于编辑距离以及词频和词向量的实体关系识别方法。本专利技术的原理是:首先进行自然语言的处理,获取分词结果并统计词频,就是对每个实体在文本中出现的次数进行统计并记录下来,根据分词的结果,基于词的上下文训练词向量,在得到词向量的基础上,对获取的词向量进行聚合操作,得到词向量上最近的m个实体,基于分词以及词在文本中出现次数的基础上,对m个实体,通过计算给定实体与文本中的其他实体之间的编辑距离以及词频, ...
【技术保护点】
一种基于编辑距离以及词频和词向量的实体关系识别方法,该方法具体步骤如下:步骤一:获取文本数据;步骤二:采用分词软件进行分词,基于分词的基础上,对分词后的文本进行每个词个数的统计,并记录下来;步骤三:采用Google的word2vec模型,调整词向量的维数、窗口大小,进行词向量的训练,窗口大小即在一句话中给定实体词的前后几个词,它是基于词的上下文训练方法;经过word2vec训练后的每个词向量为如下形式:wm(vm1,vm2,vm3,vm4,……,vmn)其中,w表示文本中的词,m表示词的序号,v表示w的词向量,1,2…n:表示词向量的维数,可以根据需要,设置词向量的维数,即设置n的值;步骤四:利用训练好的词向量,对词进行聚合,即获取给定实体词,在词向量上分别计算到其它实体的距离,根据距离,进而得到距离给定实体词关系最近的实体,先获取离给定实体词WE最近的x个实体:实体词WE:WE(vE1,vE2,vE3,vE4,....,vEn)实体词w1:w1(v11,v12,v13,v14,....,v1n)x1=(vE1‑v11),x2=(vE2‑v12),x3=(vE3‑v13),…,xm=( ...
【技术特征摘要】
1.一种基于编辑距离以及词频和词向量的实体关系识别方法,该方法具体步骤如下:步骤一:获取文本数据;步骤二:采用分词软件进行分词,基于分词的基础上,对分词后的文本进行每个词个数的统计,并记录下来;步骤三:采用Google的word2vec模型,调整词向量的维数、窗口大小,进行词向量的训练,窗口大小即在一句话中给定实体词的前后几个词,它是基于词的上下文训练方法;经过word2vec训练后的每个词向量为如下形式:wm(vm1,vm2,vm3,vm4,……,vmn)其中,w表示文本中的词,m表示词的序号,v表示w的词向量,1,2…n:表示词向量的维数,可以根据需要,设置词向量的维数,即设置n的值;步骤四:利用训练好的词向量,对词进行聚合,即获取给定实体词,在词向量上分别计算到其它实体的距离,根据距离,进而得到距离给定实体词关系最近的实体,先获取离给定实体词WE最近的x个实体:实体词WE:WE(vE1,vE2,vE3,vE4,....,vEn)实体词w1:w1(v11,v12,v13,v14,....,v1n)x1=(vE1-v11),x2=(vE2-v12),x3=(vE3-v13),…,xm=(vEn-v1n) (1) d i s = x 1 2 + x 2 2 + x 3 2 + x 4 2 + ... + x m 2 2 - - - ( 2 ) ]]>其中,x1表示词向量在第一维的分量差,dis表示WE与w1在词向量上的距离,依次迭代计算公式(1)与公式(2),获取最近的x个实体,实体词w1:w1(v11,v12,v13,v14,....,v1n)实体词w2:w2(v21,v22,v23,v24,....,v2n)实体词w3:w2(v31,v32,v33,v34,....,v3n)实体词wx:wx(vx1,vx2,vx3,vx4,....,vxn)步骤五:对步骤四中获得的实体进行编辑距离的计算,结合步骤一中得到的词频,进而得到给定实体词的别名或简称,其编辑距离主要公式如下: d [ i , j ] = 0 i = 0 o r j = 0 min ( d [ i - 1 , j ] + 1 , d [ i , j - 1 ] + 1 , d ...
【专利技术属性】
技术研发人员:段大高,赵宁,韩忠明,
申请(专利权)人:北京工商大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。