一种基于编辑距离以及词频和词向量的实体关系识别方法技术

技术编号:13953840 阅读:151 留言:0更新日期:2016-11-02 09:58
本发明专利技术涉及一种基于编辑距离以及词频和词向量的实体关系识别方法:步骤一:获取文本数据;步骤二:采用分词软件进行分词,对分词后的文本进行每个词个数的统计;步骤三:调整词向量的维数、窗口大小,进行词向量的训练;步骤四:利用训练好的词向量,对词进行聚合;步骤五:对步骤四中获得的实体进行编辑距离的计算,结合步骤一中得到的词频,进而得到给定实体词的别名或简称;基于编辑距离,在步骤四的基础上,计算给定实体词到其它实体的d[i,j]值,结合步骤一获取每个实体词的个数;经加权平均得到G(X),即:获取给定实体词的前n个最可能的简称,通过比重可以看出其关系强度,便可得到给定实体词的别名或简称。

【技术实现步骤摘要】

本专利技术涉及一种基于编辑距离以及词频和词向量的实体关系识别方法,它应用于WEB数据挖掘、实体识别,搜索引擎等方面,属于数据挖掘

技术介绍
当今社会,随着科技的迅速发展,特别是互联网技术的发展,人民生活水平的提高,使用互联网的人群越来越多,随之而来的就是搜索引擎的到来,但是以往的搜索体验并不是很好,特别是对于非专业人士,以及娱乐活动不是很多的群众,往往在搜索引擎中搜索的并不是自己想要的东西,但这种东西在广大群体中,是被广为流传的,随之面临的问题便是,搜索引擎对于实体的识别以及关系的建立,其目的就是让系统知道用户检索的实体别名信息,反馈的都是一种其全称信息,增强了系统的健壮性。实体识别以及关系的建立,在一定程度上,提高了系统的效率,并极大的提高了用户的搜索体验,在实际生活中,往往搜索的都是答非所问,其原因大都是因为,系统未能将实体联系起来,本专利技术主要解决根据中文组织机构名对公司名称以及公司所对应的简称进行识别问题,结果表明,本专利技术能获得很好的效果。
技术实现思路
1、目的:为了识别出实体的其他别名、缩略名,在搜索引擎中检索出自己最想要的信息,提出了一种基于编辑距离以及词频和词向量的实体关系识别方法。本专利技术的原理是:首先进行自然语言的处理,获取分词结果并统计词频,就是对每个实体在文本中出现的次数进行统计并记录下来,根据分词的结果,基于词的上下文训练词向量,在得到词向量的基础上,对获取的词向量进行聚合操作,得到词向量上最近的m个实体,基于分词以及词在文本中出现次数的基础上,对m个实体,通过计算给定实体与文本中的其他实体之间的编辑距离以及词频,最终获得与给定实体关系最强的实体即给定实体的别名或简称,以及在得知别名的情况下获取实体的全称信息,随着信息的不断融入,进而得到给定实体的其他信息。2、技术方案:本专利技术提供的技术方案如下:本专利技术是一种基于编辑距离以及词频和词向量的实体关系识别方法,该方法具体步骤如下:步骤一:获取文本数据。步骤二:采用分词软件进行分词,基于分词的基础上,对分词后的文本进行每个词个数的统计,并记录下来。步骤三:采用Google的word2vec模型,调整词向量的维数、窗口大小,进行词向量的训练,窗口大小即在一句话中给定实体词的前后几个词,它是基于词的上下文训练方法。经过word2vec训练后的每个词向量为如下形式:wm(vm1,vm2,vm3,vm4,……,vmn)其中,w表示文本中的词,m表示词的序号,v表示w的词向量,1,2…n:表示词向量的维数,可以根据需要,设置词向量的维数,即设置n的值,本文训练的词向量采用400维,即n=400。步骤四:利用训练好的词向量,对词进行聚合,即获取给定实体词,在词向量上分别计算到其它实体的距离,根据距离,进而得到距离给定实体词关系最近的实体,其目的在于增强了实体关系的抽取,本文采用在获取词向量的基础上,:先获取离给定实体词WE最近的x个实体:实体词WE:WE(vE1,vE2,vE3,vE4,....,vEn)实体词w1:w1(v11,v12,v13,v14,....,v1n)x1=(vE1-v11),x2=(vE2-v12),x3=(vE3-v13),…,xm=(vEn-v1n) (1) d i s = x 1 2 + x 2 2 + x 3 2 + x 4 2 + ... + x m 2 2 - - - ( 2 ) ]]>其中,x1表示词向量在第一维的分量差,dis表示WE与w1在词向量上的距离,依次迭代计算公式(1)与公式(2),获取最近的x个实体,本文x取100:实体词w1:w1(v11,v12,v13,v14,....,v1n)实体词w2:w2(v21,v22,v23,v24,....,v2n)实体词w3:w2(v31,v32,v33,v34,....,v3n)实体词wx:wx(vx1,vx2,vx3,vx4,....,vxn)步骤五:对步骤四中获得的实体进行编辑距离的计算,结合步骤一中得到的词频,进而得到给定实体词的别名或简称,其编辑距离主要公式如下: d [ i , j ] = 0 i = 0 o r j = 0 min ( d [ i - 1 , j ] + 1 , d [ i 本文档来自技高网...

【技术保护点】
一种基于编辑距离以及词频和词向量的实体关系识别方法,该方法具体步骤如下:步骤一:获取文本数据;步骤二:采用分词软件进行分词,基于分词的基础上,对分词后的文本进行每个词个数的统计,并记录下来;步骤三:采用Google的word2vec模型,调整词向量的维数、窗口大小,进行词向量的训练,窗口大小即在一句话中给定实体词的前后几个词,它是基于词的上下文训练方法;经过word2vec训练后的每个词向量为如下形式:wm(vm1,vm2,vm3,vm4,……,vmn)其中,w表示文本中的词,m表示词的序号,v表示w的词向量,1,2…n:表示词向量的维数,可以根据需要,设置词向量的维数,即设置n的值;步骤四:利用训练好的词向量,对词进行聚合,即获取给定实体词,在词向量上分别计算到其它实体的距离,根据距离,进而得到距离给定实体词关系最近的实体,先获取离给定实体词WE最近的x个实体:实体词WE:WE(vE1,vE2,vE3,vE4,....,vEn)实体词w1:w1(v11,v12,v13,v14,....,v1n)x1=(vE1‑v11),x2=(vE2‑v12),x3=(vE3‑v13),…,xm=(vEn‑v1n)      (1)dis=x12+x22+x32+x42+...+xm22---(2)]]>其中,x1表示词向量在第一维的分量差,dis表示WE与w1在词向量上的距离,依次迭代计算公式(1)与公式(2),获取最近的x个实体,实体词w1:w1(v11,v12,v13,v14,....,v1n)实体词w2:w2(v21,v22,v23,v24,....,v2n)实体词w3:w2(v31,v32,v33,v34,....,v3n)实体词wx:wx(vx1,vx2,vx3,vx4,....,vxn)步骤五:对步骤四中获得的实体进行编辑距离的计算,结合步骤一中得到的词频,进而得到给定实体词的别名或简称,其编辑距离主要公式如下:d[i,j]=0i=0or j=0min(d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1])xi=yjmin(d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1]+1)xi≠yj]]>其中d[i‑1,j]+1代表给定实体词插入一个字符,d[i,j‑1]+1代表给定实体词删除一个词,然后当xi=yj时,不需要代价,所以和上一步d[i‑1,j‑1]代价相同,否则+1,接着d[i,j]是以上三者中最小的一项;基于编辑距离,在步骤四的基础上,计算给定实体词到其它实体的d[i,j]值,结合步骤一获取每个实体词的个数;经加权平均得到G(X),即:获取给定实体词的前n个最可能的简称,通过比重可以看出其关系强度,便可得到给定实体词的别名或简称:G(X)=(sort(f(disx1/x1count),f(disx2/x2count),f(disx3/x3count)……f(disxn/xncount)))sort:表示排序,从小到大排序;disx1:表示给定实体词变换到实体x1的编辑距离;xmcount:表示实体xm在文中所出现的次数;f(disx1/x1count):表示给定实体词对实体x1的比重,换句话,就是说实体x1,是给定实体词简称的可能性大小,值越小表示可能性越大。...

【技术特征摘要】
1.一种基于编辑距离以及词频和词向量的实体关系识别方法,该方法具体步骤如下:步骤一:获取文本数据;步骤二:采用分词软件进行分词,基于分词的基础上,对分词后的文本进行每个词个数的统计,并记录下来;步骤三:采用Google的word2vec模型,调整词向量的维数、窗口大小,进行词向量的训练,窗口大小即在一句话中给定实体词的前后几个词,它是基于词的上下文训练方法;经过word2vec训练后的每个词向量为如下形式:wm(vm1,vm2,vm3,vm4,……,vmn)其中,w表示文本中的词,m表示词的序号,v表示w的词向量,1,2…n:表示词向量的维数,可以根据需要,设置词向量的维数,即设置n的值;步骤四:利用训练好的词向量,对词进行聚合,即获取给定实体词,在词向量上分别计算到其它实体的距离,根据距离,进而得到距离给定实体词关系最近的实体,先获取离给定实体词WE最近的x个实体:实体词WE:WE(vE1,vE2,vE3,vE4,....,vEn)实体词w1:w1(v11,v12,v13,v14,....,v1n)x1=(vE1-v11),x2=(vE2-v12),x3=(vE3-v13),…,xm=(vEn-v1n) (1) d i s = x 1 2 + x 2 2 + x 3 2 + x 4 2 + ... + x m 2 2 - - - ( 2 ) ]]>其中,x1表示词向量在第一维的分量差,dis表示WE与w1在词向量上的距离,依次迭代计算公式(1)与公式(2),获取最近的x个实体,实体词w1:w1(v11,v12,v13,v14,....,v1n)实体词w2:w2(v21,v22,v23,v24,....,v2n)实体词w3:w2(v31,v32,v33,v34,....,v3n)实体词wx:wx(vx1,vx2,vx3,vx4,....,vxn)步骤五:对步骤四中获得的实体进行编辑距离的计算,结合步骤一中得到的词频,进而得到给定实体词的别名或简称,其编辑距离主要公式如下: d [ i , j ] = 0 i = 0 o r j = 0 min ( d [ i - 1 , j ] + 1 , d [ i , j - 1 ] + 1 , d ...

【专利技术属性】
技术研发人员:段大高赵宁韩忠明
申请(专利权)人:北京工商大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1