【技术实现步骤摘要】
一种基于LDA模型的新闻自动标签方法
本专利技术属于新闻自动标签
,尤其涉及一种基于LDA模型的新闻自动标签方法。
技术介绍
新闻,是指报纸、电台、电视台、互联网等媒体经常使用的记录与传播信息的一种文体,是反映时代的一种文体。新闻概念有广义与狭义之分。广义上:除了发表于报刊、广播、互联网、电视上的评论与专文外的常用文本都属于新闻,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等;狭义上:消息是用概括的叙述方式,以较简明扼要的文字,迅速及时地报道附近新近发生的、有价值的事实,使一定人群了解。新闻一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法以叙述为主兼或有议论、描写、评论等。新闻是包含海量资讯的新闻服务平台,真实反映每时每刻的重要事件。您可以搜索新闻事件、热点话题、人物动态、产品资讯等,快速了解它们的最新进展。然而,现有基于LDA模型的新闻自动标签方法不能直接抽取新闻发布时间等其他关键信息,并存在耗费大量人力且易失效等特点;同时,不能推荐那些从来没有被同类中其他用户访问过的信 ...
【技术保护点】
1.一种基于LDA模型的新闻自动标签方法,其特征在于,所述基于LDA模型的新闻自动标签方法包括以下步骤:/n步骤一,提取新闻数据集中的新闻簇,其中,新闻数据集由多个新闻记录组成,一个新闻簇包括至少两个新闻记录;/n步骤二,提取出的多个新闻簇中的热点新闻簇;提取热点新闻簇中各新闻记录的关键字;/n步骤三,生成由一个新闻记录的至少两个关键字组合的组合词,其中,一个新闻记录对应一个或多个组合词;以及根据组合词的热度值生成新闻热点自动标签;/n步骤四,将需要进行新闻热点自动标签的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词;/n步骤五,利用LDA模型对预处理后的文本进 ...
【技术特征摘要】
1.一种基于LDA模型的新闻自动标签方法,其特征在于,所述基于LDA模型的新闻自动标签方法包括以下步骤:
步骤一,提取新闻数据集中的新闻簇,其中,新闻数据集由多个新闻记录组成,一个新闻簇包括至少两个新闻记录;
步骤二,提取出的多个新闻簇中的热点新闻簇;提取热点新闻簇中各新闻记录的关键字;
步骤三,生成由一个新闻记录的至少两个关键字组合的组合词,其中,一个新闻记录对应一个或多个组合词;以及根据组合词的热度值生成新闻热点自动标签;
步骤四,将需要进行新闻热点自动标签的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词;
步骤五,利用LDA模型对预处理后的文本进行建模,计算文本中每个词项的词项权重;
步骤六,根据计算所得的词项权重,从预处理后的文本中采样每一个主题;在预处理后的文本中,分别计算文档-主题分布和主题-词分布;通过主题-词分布,计算采样得到的每个主题的主题权重;
步骤七,根据每个主题的主题权重计算主题词间权重,选出符合的主题词;获取主题编号,输出新闻主题标签;
步骤八,抽取新闻关键信息;
步骤九,推荐新闻信息。
2.如权利要求1所述的基于LDA模型的新闻自动标签方法,其特征在于,所述新闻抽取方法如下:
(1)输入欲抽取新闻站点栏目的统一资源定位符;
(2)生成目标链接样式正则表达式;
(3)下载新闻站点栏目URL对应的网页源代码;
(4)提取网页中所有链接,通过新闻链接样式正则表达式过滤出得到新闻链接;
所述步骤(4)具体为:新闻链接一般存在于<frame>、<a>标签中,只要在HTML源代码中过滤出这两个标签就可以缩小标签查找的范围,简化链接抽取的网页源代码,所以在链接抽取的代码中定义了链接过滤器LinkFilter;为了更好地在网页源代码中寻找固定标签,在过滤标签之前将源代码解析成节点树(DOM),然后通过链接过滤器过滤出链接标签;具体采用算法getNewsUrls实现;
(5)将步骤(4)得到的新闻链接插入到待抽取的新闻页面URL队列;
(6)下载新闻页面URL对应的网页源代码,抽取网页的新闻关键信息,包括基于标签与分块特征的正文块抽取算法,基于编辑距离的新闻标题抽取,基于分块特征的新闻时间、来源抽取;
设基于标签与分块特征的正文块抽取算法中预处理后的新闻网页W由多个标签块B组...
【专利技术属性】
技术研发人员:徐然婷,刘一鸣,李焱,
申请(专利权)人:山东劳动职业技术学院山东劳动技师学院,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。