一种基于网络知识源的中文概念的词向量表示方法技术

技术编号:16101828 阅读:36 留言:0更新日期:2017-08-29 22:31
本发明专利技术公开一种基于网络知识源的中文概念的词向量表示方法,首先对获取的百科知识源进行预处理得到知识源G,其次根据G构建语义特征词典;最后,根据语义特征词典构建概念的词向量表示。采用本发明专利技术的技术方案,有效降低了一词多义和同义词问题对概念相似性度量的影响。

【技术实现步骤摘要】
一种基于网络知识源的中文概念的词向量表示方法
本专利技术属于文本信息处理领域,具体是涉及一种基于网络知识源的中文概念的词向量表示方法。
技术介绍
相似性是衡量对象之间相似程度的指标,相似性数值越大,相似程度越高,反之相似程度就越低。相似性计算方法用于有效度量对象间的相似程度,发现对象之间的区别和联系。概念本身并没有二义性,它能唯一地、准确地指向现实世界中的实体或对象。但在文本中,概念是由词表示的,这里称为概念词。概念词的相似性计算是自然语言处理的关键技术之一。传统的概念词相似度量方法大多是基于具有层次关系组织的语义词典和基于语料库的方法。概念词相似性度量在自然语言处理、信息检索、文本重复检测、文本聚类、文本分类、问答系统和机器翻译等领域都有着广泛的应用。概念语义通常使用词向量表示,词向量中的词称之为特征词,但是特征词的一词多义和同义词问题会影响概念相似度的度量。也就是说一些特征词在不同的语境下表达不同的含义,即一词多义;有些特征词与其它特征词具有相同的含义,即同义词。必须考虑特征词语义特点,针对传统方法的缺陷,给出一些新的方法,以降低一词多义问题和同义词问题对相似性度量的影响。专利技本文档来自技高网...
一种基于网络知识源的中文概念的词向量表示方法

【技术保护点】
一种基于网络知识源的中文概念的词向量表示方法,其特征在于,包括以下步骤:步骤(1)知识源获取和预处理对获取的百科知识源进行预处理,网络百科知识源中每个概念对应一个文本页面,预处理后的知识源记作G={(c1,d1),(c2,d2),…,(cn,dn)},其中,ci表示一个概念,di表示概念ci对应的预处理后的文本;步骤(2)根据G构建语义特征词典,其包括以下步骤:步骤(2.1)抽取G所有文本中包含词性的词,得到候选特征词词典F1;步骤(2.2)对F1中的每个特征词计算其在文本集合中的逆文本频率,即IDF(Inverse document frequency)值,它是用于衡量特征词权重的指数,公式...

【技术特征摘要】
1.一种基于网络知识源的中文概念的词向量表示方法,其特征在于,包括以下步骤:步骤(1)知识源获取和预处理对获取的百科知识源进行预处理,网络百科知识源中每个概念对应一个文本页面,预处理后的知识源记作G={(c1,d1),(c2,d2),…,(cn,dn)},其中,ci表示一个概念,di表示概念ci对应的预处理后的文本;步骤(2)根据G构建语义特征词典,其包括以下步骤:步骤(2.1)抽取G所有文本中包含词性的词,得到候选特征词词典F1;步骤(2.2)对F1中的每个特征词计算其在文本集合中的逆文本频率,即IDF(Inversedocumentfrequency)值,它是用于衡量特征词权重的指数,公式如下:其中,N为文本总数,n为包含该特征词的文本数;步骤(2.3)从F1中选取满足条件:n>α、IDF>β的特征词构成候选特征词词典F2,α,β为设定的阈值;步骤(2.4)对F2中的所有特征词按词性分组,求各组词性特征词的IDF均值,公式如下:对F2中特征词进行词性过滤,只保留IDFmean>γ的词性特征词构成特征词词典F3,γ为设定的阈值,记作F3={w1,w2,w3,…,wn},w1,w2,w3,…,wn为词性特征词,每个词性特征词由词和词性两部分组成;步骤(2.5)利用有词性标记的同义词词典,将F3中词性和词义相同的特征词合并,特征词典变为FW={Syn(w1),Syn(w2),…,Syn(wk)},其中,Syn(wi)为与特征词wi同义的词的集合;步骤(3)构建概念的词向量表示知识源G中每个概念的词向量用对应文本中出现的特征词构造,其词向量的每一维为特征词的权重,权重因素...

【专利技术属性】
技术研发人员:刘磊常晓飞孙孟涛贾亚璐
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1