The invention discloses a method and device for calculating the correlation degree of Chinese words based on the Wikipedia concept vector. The method includes: 1. by the Wikipedia Dump service site to obtain raw materials, standardized processing, generation of Wikipedia based corpus; 2. concept annotation expansion, construct the Wikipedia concept corpus; 3. according to the concept of Wikipedia corpus, training concept vector; for more than 4. words, according to Wikipedia, the concept of similarity of words set; the concept of vector corresponding to each set of 5. concepts of Cartesian product calculation concept, take the maximum as compared to the correlation of words. Using this invention, we can fully excavate the concept information contained in Wikipedia, generate the word concept vector, and calculate the degree of correlation more accurately and effectively.
【技术实现步骤摘要】
一种基于Wikipedia概念向量的中文词语相关度计算方法和装置
本专利技术涉及自然语言处理
,具体涉及一种基于Wikipedia概念向量的中文词语相关度计算方法和装置。
技术介绍
词语相关度是指两个词语之间的语义关联程度,其在自然语言处理领域有着广泛的应用,对信息检索、语义理解、词义消歧、文本聚类的效果具有直接影响。现有的词语相关度计算方法可分为两类:一类是基于知识库的方法,通常利用WordNet等语义本体知识库,分析词语的释义的重叠词数量或者词语在本体概念树中的路径长度、概念密度等,来评判词语的相关程度;另一类是基于统计的方法,根据词语在语料库中一定窗口内的共现频次,将词语表示成词语向量,利用词语向量的相似度来评判词语的相关程度。基于知识库的方法的效果依赖于知识库的规模和质量,而知识库的构建需要大量的人工劳动;而且随着社会发展,新词层出不穷,知识库难以全面覆盖,这制约了基于知识库方法的效果和应用范围。基于统计的方法主要依据语料库的共现关系,而对于缺乏对其它关系的考虑;而且,构建的词语向量往往十分稀疏,这导致其计算精度并不理想。随着深度学习技术的发展,词向 ...
【技术保护点】
一种基于Wikipedia概念向量的中文词语相关度计算方法,在特征在于,该方法包括以下步骤:步骤一、由Wikipedia Dump服务站点获取其Dump生语料;并对生语料进行规范化处理,仅保留namespace属性为0的Wikipedia概念文档;对于每个概念文档,只保留其正式文本及概念标注信息;将处理后的概念文档收集起来,作为Wikipedia基础语料库;步骤二、对Wikipedia基础语料库进行概念标注扩充,构建Wikipedia概念语料库;步骤三、根据Wikipedia概念语料库,训练概念向量;步骤四、对于待比较词语对,根据Wikipedia查询由用户指定的不同层次的 ...
【技术特征摘要】
1.一种基于Wikipedia概念向量的中文词语相关度计算方法,在特征在于,该方法包括以下步骤:步骤一、由WikipediaDump服务站点获取其Dump生语料;并对生语料进行规范化处理,仅保留namespace属性为0的Wikipedia概念文档;对于每个概念文档,只保留其正式文本及概念标注信息;将处理后的概念文档收集起来,作为Wikipedia基础语料库;步骤二、对Wikipedia基础语料库进行概念标注扩充,构建Wikipedia概念语料库;步骤三、根据Wikipedia概念语料库,训练概念向量;步骤四、对于待比较词语对,根据Wikipedia查询由用户指定的不同层次的概念集合,获得其词语概念集合;步骤五、取得待比较词语对的概念集合的笛卡尔积,计算其中每个概念对所对应的概念向量的相似度;取最大的概念向量的相似度作为待比较词语对的相关度。2.根据权利要求1所述的基于Wikipedia概念向量的中文词语相关度计算方法,其特征在于,所述步骤一中,构建Wikipedia基础语料库时,具体为:步骤1-1)访问WikipediaDump服务站点,下载最新的zhwiki数据库;步骤1-2)根据zhwiki数据库依次处理<page>节点,提取ns的值为0的<page>节点,提取该节点中的title、redirect、id和text的内容,同时对text做如下处理:删除用户编辑记录和外部链接,替换特殊字符,保留概念标注信息,利用<h#n>标记段落标题;其中,#n={1,2,3...n},代表文档标题的层级,从1到n表示由高到低。3.根据权利要求1所述的基于Wikipedia概念向量的中文词语相关度计算方法,其特征在于,所述步骤二中,构建Wikipedia概念语料库时,具体为:步骤2-1)根据onesenseperdiscourse假设,对基础语料库中的每篇文档进行概念标记扩充;步骤2-2)根据最大频率词义算法,对步骤2-1)处理过的基础语料库做进一步的概念标记扩充。4.根据权利要求1所述的基于Wikipedia概念向量的中文词语相关度计算方法,其特征在于,所述步骤三中,训练概念向量时,具体为:步骤3-1)依次对概念标记进行处理,只保留目标概念并查找目标概念所对应的文档ID,将ID与目标概念之间用“_”连接;去掉概念标记左右两侧的中括号,生成概念语料库;步骤3-2)使用概念语料库训练概念向量。5.根据权利要求1所述的基于Wikipedia概念向量的中文词语相关度计算方法,其特征在于,所述步骤四中,获取待比较词语对的概念集合时,具体为:步骤4-1)获取Normal、Redirect、Disambig、HatenoteLinkItems、HatenoteLinkDisambigItems各个层次的初始概念集合;步骤4-2)由用户指定概念获取层次,构建概念集合;需要说明的是,用户可指定的层次如下所示:g)Normal:只查找正常页面的Title;否则,返回None;h)Normal_Redirect:只查找正常页面的Title或重定向页的RedirectTitle;若查找失败,则返回None;i)Normal_Redirect_Disambig:查找正常页面的Title或重定向页的RedirectTitle,并查找消歧页的DisambigItems;若查找失败,则返回None;j)Normal_Redirect_HatenoteLinkItem:查找正常页面的Title或重定向页的RedirectTitle,并查找页面包含的HatenoteLinkItems;若查找失败,则返回None;k)Normal_Redirect_Disambig_HatenoteLinkItems:查找正常页面的Title或重定向页的RedirectTitle,并查找消歧页的DisambigItems,并查找页面包含的HatenoteLinkItems;若查找失败,则返回None;l)Normal_Redirect_Disambig_HatenoteLinkItems_HatenoteLinkDisambigItems:在Normal_Redirect_Disambig_HatenoteLinkItems的基础上,再增加HatenoteLinkItems所对应的可能DisambigItems;若查找失败,则返回None;其中的符号释义说明如下:Title:当wi所对应的Wikipedia页是一个正常页面(非消歧页,非重定向页)时,其对应概念就是Title;RedirectTitle:当wi所对应的Wikipedia页是一个重定向页时,RedirectTitle是wi所对应的最终重定向页面的Title;DisambigItems:当wi所对应的Wikipedia页是一个消歧页时,DisambigItems是消歧页所包含的所有可能的概念(不计与Title重复的);HatenoteLinkItems:在Title对应的Wikipedia页面的开始部分的...
【专利技术属性】
技术研发人员:鹿文鹏,张玉腾,张甜甜,孟凡擎,
申请(专利权)人:齐鲁工业大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。