当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于语义类的多主题提取方法技术

技术编号:10308367 阅读:142 留言:0更新日期:2014-08-08 15:49
本发明专利技术提供了一种基于语义类的多主题提取方法,包含以下步骤:首先使用传统方法对文档进行预处理后初步得到由特征词组成的向量;其次利用《知网》词义与概念间的对应关系对同义词进行归并,根据语义类与上下文语境的相关性对多义词进行排歧,构造概念向量模型表示该文档;接着根据概念与语义类的一一对应关系,把概念模型转换成语义类模型;再利用《知网》中概念的相关语义信息计算概念相似度进而得到语义类相似度,通过“预设种子”的方法改进K-means算法对语义类进行聚类,形成多个主题语义类簇;最后根据语义类与概念及概念与词的对应关系,逆向得到多个子主题词集。该方法考虑了语义信息,克服K-means算法对初始中心的敏感性和时空开销不稳定等缺陷,提高了提取主题的质量。

【技术实现步骤摘要】

本专利技术涉及文本信息提取
,特别是涉及。
技术介绍
自人类社会进入信息时代以来,各种电子文本大量涌现,这些海量文本中存在着大量多主题文本,包含着多方面丰富的主题信息,例如:一篇关于李克强总理访问欧洲的报道,既属于政治类新闻,又属于经济类新闻。随着科学技术的发展,学科之间融合度越来越高,大多数研究都跨越多个学科领域,许多科技文本内容都从不同侧面包含了多个主题,如一篇关于生物基因信息挖掘的文本,既包含计算机科学方面的主题又包含生物医学领域主题。因此,现实世界中存在大量多主题文本,如何从这些文本中提取有价值的反映不同方面的多个子主题信息,在信息检索、图书情报和信息安全等领域有着非常广泛的应用。国外对文本主题提取研究起于上世纪50年代,目前比较成熟的主题提取方法是基于统计模型的方法,该方法主要是利用词频统计信息提取主题,后来研究人员加入了对标题、位置、句法结构和线索词等要素的考虑,能够从英文文本中提取高质量的主题。国内对主题提取的研究起于上世纪80年代后期,然而,由于汉语言的复杂性,许多成功的英文主题提取方法不适用于中文。目前,国内应用广泛的还是基于统计的方法,该方法在向量空间模型(VSM)下,前提假设是向量之间两两正交,即构成文本的词汇之间毫无联系,这显然与文本中词汇语义与上下文相关的现实不符,又由于中文词汇量很大,在VSM下,必然存在向量高维、稀疏、忽略词汇语义及上下文背景等问题,同时提取过程受到同义词和多义词的干扰,因而在质量和效率上表现欠佳。目前关于主题提取的研究热点集中在如何增加语义信息上,虽然有很多学者提出了各种基于语义的主题提取方法,但仍然没有达到应用级别的突破性进展。另夕卜,提取多主题和单主题提取在算法上有很大差别,从一篇文本中识别多个子主题词,仅使用传统基于词频统计的方法无法实现。廖涛等人提出的复杂网络中的社区划分算法能够提取多主题,但未涉及词的语义信息,是一个纯粹的统计方法,提取的多主题质量不高。因此,针对现有的以词频统计为依据的传统文本处理技术,一篇文本只能提出单个主题的问题,同时考虑了传统文本处理方法面对向量高维、稀疏以及缺乏词义信息、上下文信息所导致的算法效率低和提取主题词质量不高的问题,需要提供。
技术实现思路
本专利技术要解决的技术问题是,为了解决传统文本处理技术以词频统计为依据,一篇文本只能提出单个主题的问题,同时考虑了传统文本处理方法面对向量高维、稀疏以及缺乏词义信息、上下文信息所导致的算法效率低和提取主题词质量不高的问题,提供了,该方法利用《知网》语义知识库,对表示文本的特征词进行映射,把该文本表不成概念模型,并且在映射过程中同义词自动归并到了同一概念中,实现了向量降维;根据语义类与上下文语境的相关性对文中出现的多义词进行排歧。本专利技术的目的在于提供,包括以下步骤: Stepl:向量模型表示:对文本进行预处理,以得到由特征词组成的向量,并通过向量空间模型将所述预处理后的文本表示成特征词组成的向量;Step2:概念模型映射:基于以概念来表达自然语言词汇语义且以树形结构来表示概念间语义关系的语义知识库,利用词义与所述概念之间的对应关系对所述预处理后的组成文本的特征词进行概念映射,在概念映射过程中,文本中的同义词自动进行归并,接着,根据语义类与上下文语境的相关性对文中出现的多义词进行排歧,之后,将所述经过归并和排歧后的文本的向量空间模型映射成概念空间模型;Step3:语义类模型转换:根据语义知识库中概念的表示方式及语义类的定义,二者具有对应关系,以将概念模型表不的文本转换成语义类模型;Step4:多主题词提取:使用改进的K-means算法对所述表示为语义类模型的文本的所有语义类进行聚类,形成多个主题语义类簇,对形成的多个主题语义类簇,根据语义类与概念的对应关系及概念和原文本特征词对应关系,逆向得到多个主题特征词集,以提取单个中文文本中的多主题词。进一步地,所述步骤Stepl可以包括如下步骤:Stepl-1:使用分词系统对待处理文本T进行分词,接着,进行去停、去噪,之后,得到所述文本的初级向量空间模型T = {C1; C2,…,CJ,其中C1, C2,…,Cn表示η个由特征词组成的向量,所述去停是指过滤文本中出现的停用词,所述去噪是指过滤文本中出现的无实际意义的词汇;Stepl-2:从初级向量空间模型中进一步提取特征向量,以得到该文本的高级向量空间模型 T = IC1, C2,..., Cj ,其中 m〈 = η。进一步地,所述步骤Step2可以包括如下步骤:文本中所包含词汇含义分三种情况:单义词、同义词和多义词;概念映射过程通过查询所述语义知识库实现,其中:查询知识库,判断当文本中所包含的词汇是单义词时,直接得到其唯一对应的概念;查询知识库,判断当文本中所包含的词汇是同义词时,直接得到其唯一对应的概念,在这个过程中,通过将该文本中出现的同义词自动归并到同一个概念中,以实现向量降维;查询知识库,判断当文本中所包含的词汇是多义词时,该多义词对应多个概念,概念与语义类一一对应,根据语义类成员词在该文本中的信息量计算语义类权值,选取权值最大的语义类对应概念作为所述多义词适合本文上下文语境的概念,从而实现多义词排歧。进一步地,所述查询知识库,判断当文本中所包含的词汇是多义词时,该多义词对应多个概念,概念与语义类一一对应,根据语义类成员词在该文本中信息量计算语义类权值,选取权值最大的语义类对应概念作为所述多义词适合本文上下文语境的概念,从而实现多义词排歧,包括如下步骤:在所述语义知识库中,概念的语义主要由基本义原集描述,基本义原集又由一组语义相关的词来描述,描述某概念基本义原集的词构成了一个语义类;判断多义词对应多个概念,计算所述概念对应语义类的所有成员词在所述处理文本中的信息量,加权计算得到每一个语义类的权值;选择权值最大的语义类对应的概念作为所述多义词适合本文上下文语境的概念,从而实现多义词排歧。进一步地,所述步骤Step2可以包括如下步骤:St印2-1:对待处理文本T中所有特征词依次查询语义知识库,进行概念映射;Step2-1-1:查询知识库,若T的特征词Cm对应唯一的概念,则Cm为单义词或同义词,直接获取Cm的概念,转至步骤Setp2-2 ;St印2-1-2:查询知识库,若T的特征词(;对应多个概念,则特征词Cm为多义词,则需对多义词Cm进行词义排歧,选择出适合该文上下文语境的概念;St印2-2:得到文本 T 对应概念向量 T = {(Gl, C1),(G2, C2),...(Gq, Cq)};St印2-3:进 一步按照概念进行整理输出文本T对应概念向量T= {(Gl,(C1,...,Ci)), (G2, (C2,...,C j)),…,(Gq, (Cq,...,Ck))},其中(Cq,...,(;)为概念 Gq 在文中对应出现的词。进一步地,所述步骤Step2_l_2可以包括如下步骤:St印2-1-2-1:查询知识库,多义词Cm对应多个概念,描述概念语义的基本义原集够成了一个语义类,因而多义词Cm对应多个语义类,从而可获得描述基本义原集的词组,所述词组成为一组反映语义类语义相关的词组;Step2-1-2-2:计算多义词Cm每一个语义类成员词在该文中的信息本文档来自技高网
...

【技术保护点】
一种基于语义类的多主题提取方法,其特征在于,包括以下步骤: Step1:向量模型表示:对文本进行预处理,以得到由特征词组成的向量,并通过向量空间模型将所述预处理后的文本表示成特征词组成的向量; Step2:概念模型映射:基于以概念来表达自然语言词汇语义且以树形结构来表示概念间语义关系的语义知识库,利用词义与所述概念之间的对应关系对所述预处理后的组成文本的特征词进行概念映射,在概念映射过程中,文本中的同义词自动进行归并,接着,根据语义类与上下文语境的相关性对文中出现的多义词进行排歧,之后,将所述经过归并和排歧后的文本的向量空间模型映射成概念空间模型; Step3:语义类模型转换:根据语义知识库中概念的表示方式及语义类的定义,二者具有一一对应关系,以将概念模型表示的文本转换成语义类模型; Step4:多主题词提取:使用改进的K‑means算法对所述表示为语义类模型的文本的所有语义类进行聚类,形成多个主题语义类簇,对形成的多个主题语义类簇,根据语义类与概念的对应关系及概念和原文本特征词对应关系,逆向得到多个主题特征词集,以提取单个中文文本中的多主题词。

【技术特征摘要】
1.一种基于语义类的多主题提取方法,其特征在于,包括以下步骤: Stepl:向量模型表示:对文本进行预处理,以得到由特征词组成的向量,并通过向量空间模型将所述预处理后的文本表示成特征词组成的向量; Step2:概念模型映射:基于以概念来表达自然语言词汇语义且以树形结构来表示概念间语义关系的语义知识库,利用词义与所述概念之间的对应关系对所述预处理后的组成文本的特征词进行概念映射,在概念映射过程中,文本中的同义词自动进行归并,接着,根据语义类与上下文语境的相关性对文中出现的多义词进行排歧,之后,将所述经过归并和排歧后的文本的向量空间模型映射成概念空间模型; Step3:语义类模型转换:根据语义知识库中概念的表示方式及语义类的定义,二者具有对应关系,以将概念模型表不的文本转换成语义类模型; Step4:多主题词提取:使用改进的K-means算法对所述表示为语义类模型的文本的所有语义类进行聚类,形成多个主题语义类簇,对形成的多个主题语义类簇,根据语义类与概念的对应关系及概念和原文本特征词对应关系,逆向得到多个主题特征词集,以提取单个中文文本中的多主题词。2.根据权利要求1所述的基于语义类的的多主题提取方法,其特征在于,所述步骤Stepl进一步包括如下步骤: Stepl-1:使用分词系统对待处理文本T进行分词,接着,进行去停、去噪,之后,得到所述文本的初级向量空间模型T = IC1, C2,…,CJ,其中C1, C2,…,Cn表示η个由特征词组成的向量,所述去停是指过滤文本中出现的停用词,所述去噪是指过滤文本中出现的无实际意义的词汇; Stepl-2:从初级向量空间模型中进一步提取特征向量,以得到该文本的高级向量空间模型 T =IC1, C2,..., Cj ,其中 m〈 = η。3.根据权利要求1所述的基于语义类的多主题提取方法,其特征在于,所述步骤Step2进一步包括如下步骤: St印2-1:对待处理文本T中所有特征词依次查询语义知识库,进行概念映射;Step2-1-1:查询知识库,若T的特征词Cm对应唯一的概念,则Cm为单义词或同义词,直接获取Cm的概念,转至步骤Setp2-2 ; Step2-1-2:查询知识库,若T的特征词Cm对应多个概念,则特征词Cm为多义词,则需对多义词Cm进行词义排歧,选择出适合该文上下文语境的概念; St印2-2:得到文本 T 对应概念向量 T = {(Gl, C1),(G2, C2),...(Gq, Cq)}; St印2-3:进一步按照概念进行整理输出文本T对应概念向量T = {(Gl,(C1,...,Ci)),(G2, (C2,...,Cj)),…,(Gq, (Cq,...,Ck))},其中(Cq,...,Ck)为概念 Gq 在文中对应出现的ο4.根据权利要求3所述的基于语义类的多主题提取方法,其特征在于,所述步骤St印2-1-2可以包括如下步骤: Step2-1-2-l:查询知识库,多义词Cm对应多个概念,描述概念语义的基本义原集够成了一个语义类,因而多义词Cm对应多个语义类,从而可获得描述基本义原集的词组,所述词组成为一组反映语义类语义相关的词组; Step2-1-2-2:计算多义词Cm每一个语义类成员词在该文中的信息量,所述成员词Wi在该文中所含的信息量H(Wi)计算公式如下: H (Wi) = -TF (Wi, ST) X log [p (Wi)], 其中,TF(WyST)表示词Wi在文本中出现的频率,ST表示文本,P(Wi)为词Wi的概率分布; Step2-1-2-3:计算多义词Cm每一个语义类的权值,它的第i个语义类Li权...

【专利技术属性】
技术研发人员:马甲林王志坚
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1