主题模型和语义分析相结合的文本标签自动抽取方法技术

技术编号:13925109 阅读:1248 留言:0更新日期:2016-10-28 05:26
本发明专利技术涉及主题模型和语义分析相结合的文本标签自动抽取方法,属于计算机应用技术领域。本发明专利技术包括预处理、LDA建模及上下文分析和标签提取。所述预处理包括去掉低频词、去掉停止词及去掉标记信息所述停止词是几乎不携带任何信息的助词、反映句子语法结构的词语和所有虚词以及标点符号;LDA建模过程为:文件经过LDA模型处理后,得到两个矩阵:一个是N×K的“文档‑主题”矩阵,矩阵的每个元素对应的是每个文档的隐含主题分布;另一个是K×M“主题‑词”矩阵,矩阵的每个元素对应的是每个主题的词分布;相比目前的基于统计的方法,本发明专利技术不仅考虑了文档中词和词的关联,也充分利用了上下文信息中一些关键特征,最终得到文档的标签信息。

【技术实现步骤摘要】

本专利技术涉及主题模型和语义分析相结合的文本标签自动抽取方法,属于计算机应用

技术介绍
在DT(data technology)时代,互联网信息呈现爆炸式增长,各种各样的文本数据层出不穷,如多样化的新闻、海量的自媒体原创文章。面对如此丰富多样的信息,人们迫切需要一些自动化工具来帮助他们从浩瀚的信息汪洋中准确、快速地找到自己需要的关键信息,标签抽取正是在这种背景下产生。标签是快速获取文本关键信息、把握主题的重要方式,在信息检索、自然语言处理、智能推荐等领域中均有重要应用。许多网站向用户提供了为感兴趣的对象(如图片、视频、书籍和电影等)进行标注标签的功能,便于用户分享、管理、收藏和检索对象。如图1(a)和图1(b)所示为豆瓣上对于书籍和电影的标签。LDA(Latent Dirichlet Allocation)模型是一种文档主题生成模型,其是目前应用最广泛的一种概率主题模型,它具有比其他模型更全面的文本生成假设。LDA模型在PLSA的基础上,使用服从Dirichlet分布的K维隐含随机变量表示文档的主题混合比例,以此来模拟文档的产生过程。使用LDA获取的文档表示和隐含语义结构已经非常成功地应用到很多文本处理的相关领域。LDA模型是一个多层的生成式概率模型,包含文档、主题、词三层结构。主题到词服从多项式分布,文档到主题则服从Dirichlet分布。LDA对主题的混合权重θ进行Dirichlet先验,用一个超参数α来产生参数θ,即参数的参数。LDA是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。每一个主题又代表了很多单词所构成的一个概率分布,而每一篇文档代表了一些主题所构成的一个概率分布。目前的标签抽取方法主要有以下两种及存在的缺点:1.基于文本词汇的统计信息来生成标签,如TF-IDF(term frequency-inverse document frequency)、互信息(mutual information)等,然后对它们排序,选取最高的若干个作为关键词,因此也被称为无监督的方法。此方法优点是简单快捷,也不需要人工标注。但是,这种方法无法有效综合利用多种信息对候选关键词排序。另外,没有考虑词和词之间的相关性,也就是一篇文档实际上是由一些潜在主题构成的,每个主题是由一些词构成的。2.基于机器学习的方法来生成标签。也被称为有监督的方法,主要思想是将标签抽取问题转换为判断每个候选关键词是否为标签的二分类问题。首先需要对文档集进行标签标注,然后拆分成训练数据和测试数据,用于生成分类模型。这种方法可以通过训练学习来调节多种维度的信息对于判断关键词的影响程度,所以效果也更好。但是,对于训练集合的标注则非常费时费力,而且文档主题往往随着时间变化剧烈,随时进行训练集合的标注也不现实。
技术实现思路
为了克服上述的不足,本专利技术提供主题模型和语义分析相结合的文本标签自动抽取方法。本专利技术采取的技术方案如下:主题模型和语义分析相结合的文本标签自动抽取方法,包括如下步骤:第一步:预处理;第二步:LDA建模及上下文分析;第三步:标签提取。其中,第一步的预处理的方式为:如果出现低频词、停止词和标记信息,所述预处理包括去掉低频词、去掉停止词及去掉标记信息;所述低频词只在一到两个文本中出现过,所述停止词是几乎不携带任何信息的助词、反映句子语法结构的词语和所有虚词以及标点符号,所述标记信息是网页文本或其他的标记语言文本信息;其他的标记语言文本信息包括html和css;第二步的LDA建模过程为:文件经过LDA模型处理后,得到两个矩阵:一个是N×K的“文档-主题”矩阵,矩阵的每个元素对应的是每个文档的隐含主题分布;另一个是K×M“主题-词”矩阵,矩阵的每个元素对应的是每个主题的词分布;上下文分析包括以下几个维度:(1)词频次,(2)文档频次,(3)词性,(4)词位置,(5)TF-IDF;上下文分析的方法包括如下步骤,①根据文本的html标签信息,获取各段文本所在的位置信息;②对文本进行分词处理和词性标记,得到各个独立的词及词性信息;③使用业界公知的方法计算词频次、文档频次和TF-IDF;经过第一步的预处理后,每个文档都形成了一个特征向量,形成了特征向量的方法为:假定有N篇文档,M个词,K个主题,LDA建模过程为:文件经过LDA模型处理后,得到两个矩阵:一个是N×K的“文档-主题”矩阵,矩阵的每个元素对应的是每个文档的隐含主题分布;另一个是K×M“主题-词”矩阵,矩阵的每个元素对应的是每个主题的词分布。第三步的标签提取的方法如下:结合LDA模型的结果和词上下文分析得到的特征量,得到文本d词w的权重为:Weigh|t(d,w)=α|SorceLDA(d,w)+β|Sorceword(d,w),其中,Score(d,w)表示词w在文档d中的LDA计算得分,表示词w在文档d中的上下文分析后的得分,α和β代表LDA算法和上下文分析方法的权重, S o r c e ( d , w ) = Σ t = 1 k T o p i c ( t , d ) | W o r d ( w , t ) , ]]>K表示LDA模型设置的主题数,Topic(t,d)表示“文档-主题”矩阵中文档d的第t个主题的概率值,Word(w,t)表示“主题-词”矩阵中主题t的词w的概率值,Scoreword(d,w)=ρ|TfIdf(w,d)+γ|f(w,d)+ξ|g(w,d)+μ|ρ(w,d)+σ|γ(w);TfIdf(w,d)表示文档d中词w的TF-IDF值,f(w,d)表示词w在文档d中词频次的权重,g(w,d)表示词w在文档d中文档频次的权重,ρ(w,d)表示词的位置的权重,γ(w)表示词的词性权重,ρ、γ、ξ、μ、σ分别表示TF-IDF、词频次、文档频次、词位置和词性在词上下文分析算法中的权重,为常数,f(w,d)、g(w,d)、ρ(w,d)和γ(w)都是离散函数,分别映射到不同的区间,经过上面的计算,得到文档d中的每个词w的Weigh|t(d,w),按照太小从高到低排序,取最大的若干个词或者短语作为文档的标签。本专利技术有益效果:相比目前的基于统计的方法,本专利技术不仅考虑了文档中词和词的关联,也充分利用了上下文信息中一些关键特征,最终得到文档的标签信息。附图说明图1(a)示例性地示出了豆瓣上对于书籍和电影的标签一;图1(b)示例性地示出了豆瓣上对于书籍和电影的标签二;图2示例性地示出了本专利技术的流程示意图;图3示例性地示出了LDA模型处理流程图。具体实施方式下面结合附图对本专利技术做进一步说明:如图2所示:主题模型和语义分析相结合的本文档来自技高网
...

【技术保护点】
主题模型和语义分析相结合的文本标签自动抽取方法,其特征在于:包括如下步骤:第一步:预处理,如果出现低频词、停止词和标记信息,所述预处理包括去掉低频词、去掉停止词及去掉标记信息;所述低频词只在一到两个文本中出现过,所述停止词是几乎不携带任何信息的助词、反映句子语法结构的词语和所有虚词以及标点符号,所述标记信息是网页文本或其他的标记语言文本信息;其他的标记语言文本信息包括html和css;第二步:LDA建模及上下文分析;LDA建模过程为:文件经过LDA模型处理后,得到两个矩阵:一个是N×K的“文档‑主题”矩阵,矩阵的每个元素对应的是每个文档的隐含主题分布;另一个是K×M“主题‑词”矩阵,矩阵的每个元素对应的是每个主题的词分布;上下文分析包括以下几个维度:(1)词频次,(2)文档频次,(3)词性,(4)词位置,(5)TF‑IDF;上下文分析的方法包括如下步骤,①根据文本的html标签信息,获取各段文本所在的位置信息;②对文本进行分词处理和词性标记,得到各个独立的词及词性信息;③使用业界公知的方法计算词频次、文档频次和TF‑IDF;第三步:标签提取。

【技术特征摘要】
1.主题模型和语义分析相结合的文本标签自动抽取方法,其特征在于:包括如下步骤:第一步:预处理,如果出现低频词、停止词和标记信息,所述预处理包括去掉低频词、去掉停止词及去掉标记信息;所述低频词只在一到两个文本中出现过,所述停止词是几乎不携带任何信息的助词、反映句子语法结构的词语和所有虚词以及标点符号,所述标记信息是网页文本或其他的标记语言文本信息;其他的标记语言文本信息包括html和css;第二步:LDA建模及上下文分析;LDA建模过程为:文件经过LDA模型处理后,得到两个矩阵:一个是N×K的“文档-主题”矩阵,矩阵的每个元素对应的是每个文档的隐含主题分布;另一个是K×M“主题-词”矩阵,矩阵的每个元素对应的是每个主题的词分布;上下文分析包括以下几个维度:(1)词频次,(2)文档频次,(3)词性,(4)词位置,(5)TF-IDF;上下文分析的方法包括如下步骤,①根据文本的html标签信息,获取各段文本所在的位置信息;②对文本进行分词处理和词性标记,得到各个独立的词及词性信息;③使用业界公知的方法计算词频次、文档频次和TF-IDF;第三步:标签提取。2.根据权利要求1所述的主题模型和语义分析相结合的文本标签自动抽取方法,其特征在于:所述第二步中,经过预处理后,每个文档都形成了一个特征向量,假定有N篇文档,M个词,K个主题,LDA建模的过程为:文件经过LDA模型处理后,得到两个矩阵:一个是N×K的“文档-主题”矩阵,矩阵的每个元素对应的是每个文档的隐含主题分布;另一个是K×M“主题-词”矩阵,矩阵的每个元素对应的是每个主题的词分布。3.根据权利要求1所述的主题模型和语义分析相结合的文本标签自动抽取方法,其特征在于:所述第三步中,标签提取的方法如下,结合LDA模型的结果和词上下文分析得到的特征量,得到文本d词w的权重为:Weigh|t(d,w)=α|Sorce...

【专利技术属性】
技术研发人员:于敬
申请(专利权)人:达而观信息科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1