主题模型和语义分析相结合的文本标签自动抽取方法技术

技术编号：13925109 阅读：1248 留言：0更新日期：2016-10-28 05:26

本发明专利技术涉及主题模型和语义分析相结合的文本标签自动抽取方法，属于计算机应用技术领域。本发明专利技术包括预处理、LDA建模及上下文分析和标签提取。所述预处理包括去掉低频词、去掉停止词及去掉标记信息所述停止词是几乎不携带任何信息的助词、反映句子语法结构的词语和所有虚词以及标点符号；LDA建模过程为：文件经过LDA模型处理后，得到两个矩阵：一个是N×K的“文档‑主题”矩阵，矩阵的每个元素对应的是每个文档的隐含主题分布；另一个是K×M“主题‑词”矩阵，矩阵的每个元素对应的是每个主题的词分布；相比目前的基于统计的方法，本发明专利技术不仅考虑了文档中词和词的关联，也充分利用了上下文信息中一些关键特征，最终得到文档的标签信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及主题模型和语义分析相结合的文本标签自动抽取方法，属于计算机应用

技术介绍
在DT(data technology)时代，互联网信息呈现爆炸式增长，各种各样的文本数据层出不穷，如多样化的新闻、海量的自媒体原创文章。面对如此丰富多样的信息，人们迫切需要一些自动化工具来帮助他们从浩瀚的信息汪洋中准确、快速地找到自己需要的关键信息，标签抽取正是在这种背景下产生。标签是快速获取文本关键信息、把握主题的重要方式，在信息检索、自然语言处理、智能推荐等领域中均有重要应用。许多网站向用户提供了为感兴趣的对象(如图片、视频、书籍和电影等)进行标注标签的功能，便于用户分享、管理、收藏和检索对象。如图1(a)和图1(b)所示为豆瓣上对于书籍和电影的标签。LDA(Latent Dirichlet Allocation)模型是一种文档主题生成模型，其是目前应用最广泛的一种概率主题模型，它具有比其他模型更全面的文本生成假设。LDA模型在PLSA的基础上，使用服从Dirichlet分布的K维隐含随机变量表示文档的主题混合比例，以此来模拟文档的产生过程。使用LDA获取的文档表示和隐含语义结构已经非常成功地应用到很多文本处理的相关领域。LDA模型是一个多层的生成式概率模型，包含文档、主题、词三层结构。主题到词服从多项式分布，文档到主题则服从Dirichlet分布。LDA对主题的混合权重θ进行Dirichlet先验，用一个超参数α来产生参数θ，即参数的参数。LDA是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法，这种方法将...

【技术保护点】
主题模型和语义分析相结合的文本标签自动抽取方法，其特征在于：包括如下步骤：第一步：预处理，如果出现低频词、停止词和标记信息，所述预处理包括去掉低频词、去掉停止词及去掉标记信息；所述低频词只在一到两个文本中出现过，所述停止词是几乎不携带任何信息的助词、反映句子语法结构的词语和所有虚词以及标点符号，所述标记信息是网页文本或其他的标记语言文本信息；其他的标记语言文本信息包括html和css；第二步：LDA建模及上下文分析；LDA建模过程为：文件经过LDA模型处理后，得到两个矩阵：一个是N×K的“文档‑主题”矩阵，矩阵的每个元素对应的是每个文档的隐含主题分布；另一个是K×M“主题‑词”矩阵，矩阵的每个元素对应的是每个主题的词分布；上下文分析包括以下几个维度：(1)词频次，(2)文档频次，(3)词性，(4)词位置，(5)TF‑IDF；上下文分析的方法包括如下步骤，①根据文本的html标签信息，获取各段文本所在的位置信息；②对文本进行分词处理和词性标记，得到各个独立的词及词性信息；③使用业界公知的方法计算词频次、文档频次和TF‑IDF；第三步：标签提取。

【技术特征摘要】
1.主题模型和语义分析相结合的文本标签自动抽取方法，其特征在于：包括如下步骤：第一步：预处理，如果出现低频词、停止词和标记信息，所述预处理包括去掉低频词、去掉停止词及去掉标记信息；所述低频词只在一到两个文本中出现过，所述停止词是几乎不携带任何信息的助词、反映句子语法结构的词语和所有虚词以及标点符号，所述标记信息是网页文本或其他的标记语言文本信息；其他的标记语言文本信息包括html和css；第二步：LDA建模及上下文分析；LDA建模过程为：文件经过LDA模型处理后，得到两个矩阵：一个是N×K的“文档-主题”矩阵，矩阵的每个元素对应的是每个文档的隐含主题分布；另一个是K×M“主题-词”矩阵，矩阵的每个元素对应的是每个主题的词分布；上下文分析包括以下几个维度：(1)词频次，(2)文档频次，(3)词性，(4)词位置，(5)TF-IDF；上下文分析的方法包括如下步骤，①根据文本的html标签信息，获取各段文本所在的位置信息；②对文本进行分词处理和词性标记，得到各个独立的词及词性信息；③使用业界公知的方法计算词频次、文档频次和TF-IDF；第三步：标签提取。2.根据权利要求1所述的主题模型和语义分析相结合的文本标签自动抽取方法，其特征在于：所述第二步中，经过预处理后，每个文档都形成了一个特征向量，假定有N篇文档，M个词，K个主题，LDA建模的过程为：文件经过LDA模型处理后，得到两个矩阵：一个是N×K的“文档-主题”矩阵，矩阵的每个元素对应的是每个文档的隐含主题分布；另一个是K×M“主题-词”矩阵，矩阵的每个元素对应的是每个主题的词分布。3.根据权利要求1所述的主题模型和语义分析相结合的文本标签自动抽取方法，其特征在于：所述第三步中，标签提取的方法如下，结合LDA模型的结果和词上下文分析得到的特征量，得到文本d词w的权重为：Weigh|t(d，w)＝α|Sorce...

【专利技术属性】
技术研发人员：于敬，
申请(专利权)人：达而观信息科技上海有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人