【技术实现步骤摘要】
本专利技术涉及文本信息提取
,特别是涉及。
技术介绍
自人类社会进入信息时代以来,各种电子文本大量涌现,这些海量文本中存在着大量多主题文本,包含着多方面丰富的主题信息,例如:一篇关于李克强总理访问欧洲的报道,既属于政治类新闻,又属于经济类新闻。随着科学技术的发展,学科之间融合度越来越高,大多数研究都跨越多个学科领域,许多科技文本内容都从不同侧面包含了多个主题,如一篇关于生物基因信息挖掘的文本,既包含计算机科学方面的主题又包含生物医学领域主题。因此,现实世界中存在大量多主题文本,如何从这些文本中提取有价值的反映不同方面的多个子主题信息,在信息检索、图书情报和信息安全等领域有着非常广泛的应用。国外对文本主题提取研究起于上世纪50年代,目前比较成熟的主题提取方法是基于统计模型的方法,该方法主要是利用词频统计信息提取主题,后来研究人员加入了对标题、位置、句法结构和线索词等要素的考虑,能够从英文文本中提取高质量的主题。国内对主题提取的研究起于上世纪80年代后期,然而,由于汉语言的复杂性,许多成功的英文主题提取方法不适用于中文。目前,国内应用广泛的还是基于统计的方法,该方法在向量空间模型(VSM)下,前提假设是向量之间两两正交,即构成文本的词汇之间毫无联系,这显然与文本中词汇语义与上下文相关的现实不符,又由于中文词汇量很大,在VSM下,必然存在向量高维、稀疏、忽略词汇语义及上下文背景等问题,同时提取过程受到同义词和多义词的干扰,因而在质量和效率上表现欠佳。目前关于主题提取的研究热点集中在如何增加语义信息上,虽然有很多学者提出了各种基于语义的主题提取 ...
【技术保护点】
一种基于语义类的多主题提取方法,其特征在于,包括以下步骤: Step1:向量模型表示:对文本进行预处理,以得到由特征词组成的向量,并通过向量空间模型将所述预处理后的文本表示成特征词组成的向量; Step2:概念模型映射:基于以概念来表达自然语言词汇语义且以树形结构来表示概念间语义关系的语义知识库,利用词义与所述概念之间的对应关系对所述预处理后的组成文本的特征词进行概念映射,在概念映射过程中,文本中的同义词自动进行归并,接着,根据语义类与上下文语境的相关性对文中出现的多义词进行排歧,之后,将所述经过归并和排歧后的文本的向量空间模型映射成概念空间模型; Step3:语义类模型转换:根据语义知识库中概念的表示方式及语义类的定义,二者具有一一对应关系,以将概念模型表示的文本转换成语义类模型; Step4:多主题词提取:使用改进的K‑means算法对所述表示为语义类模型的文本的所有语义类进行聚类,形成多个主题语义类簇,对形成的多个主题语义类簇,根据语义类与概念的对应关系及概念和原文本特征词对应关系,逆向得到多个主题特征词集,以提取单个中文文本中的多主题词。
【技术特征摘要】
1.一种基于语义类的多主题提取方法,其特征在于,包括以下步骤: Stepl:向量模型表示:对文本进行预处理,以得到由特征词组成的向量,并通过向量空间模型将所述预处理后的文本表示成特征词组成的向量; Step2:概念模型映射:基于以概念来表达自然语言词汇语义且以树形结构来表示概念间语义关系的语义知识库,利用词义与所述概念之间的对应关系对所述预处理后的组成文本的特征词进行概念映射,在概念映射过程中,文本中的同义词自动进行归并,接着,根据语义类与上下文语境的相关性对文中出现的多义词进行排歧,之后,将所述经过归并和排歧后的文本的向量空间模型映射成概念空间模型; Step3:语义类模型转换:根据语义知识库中概念的表示方式及语义类的定义,二者具有对应关系,以将概念模型表不的文本转换成语义类模型; Step4:多主题词提取:使用改进的K-means算法对所述表示为语义类模型的文本的所有语义类进行聚类,形成多个主题语义类簇,对形成的多个主题语义类簇,根据语义类与概念的对应关系及概念和原文本特征词对应关系,逆向得到多个主题特征词集,以提取单个中文文本中的多主题词。2.根据权利要求1所述的基于语义类的的多主题提取方法,其特征在于,所述步骤Stepl进一步包括如下步骤: Stepl-1:使用分词系统对待处理文本T进行分词,接着,进行去停、去噪,之后,得到所述文本的初级向量空间模型T = IC1, C2,…,CJ,其中C1, C2,…,Cn表示η个由特征词组成的向量,所述去停是指过滤文本中出现的停用词,所述去噪是指过滤文本中出现的无实际意义的词汇; Stepl-2:从初级向量空间模型中进一步提取特征向量,以得到该文本的高级向量空间模型 T =IC1, C2,..., Cj ,其中 m〈 = η。3.根据权利要求1所述的基于语义类的多主题提取方法,其特征在于,所述步骤Step2进一步包括如下步骤: St印2-1:对待处理文本T中所有特征词依次查询语义知识库,进行概念映射;Step2-1-1:查询知识库,若T的特征词Cm对应唯一的概念,则Cm为单义词或同义词,直接获取Cm的概念,转至步骤Setp2-2 ; Step2-1-2:查询知识库,若T的特征词Cm对应多个概念,则特征词Cm为多义词,则需对多义词Cm进行词义排歧,选择出适合该文上下文语境的概念; St印2-2:得到文本 T 对应概念向量 T = {(Gl, C1),(G2, C2),...(Gq, Cq)}; St印2-3:进一步按照概念进行整理输出文本T对应概念向量T = {(Gl,(C1,...,Ci)),(G2, (C2,...,Cj)),…,(Gq, (Cq,...,Ck))},其中(Cq,...,Ck)为概念 Gq 在文中对应出现的ο4.根据权利要求3所述的基于语义类的多主题提取方法,其特征在于,所述步骤St印2-1-2可以包括如下步骤: Step2-1-2-l:查询知识库,多义词Cm对应多个概念,描述概念语义的基本义原集够成了一个语义类,因而多义词Cm对应多个语义类,从而可获得描述基本义原集的词组,所述词组成为一组反映语义类语义相关的词组; Step2-1-2-2:计算多义词Cm每一个语义类成员词在该文中的信息量,所述成员词Wi在该文中所含的信息量H(Wi)计算公式如下: H (Wi) = -TF (Wi, ST) X log [p (Wi)], 其中,TF(WyST)表示词Wi在文本中出现的频率,ST表示文本,P(Wi)为词Wi的概率分布; Step2-1-2-3:计算多义词Cm每一个语义类的权值,它的第i个语义类Li权...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。