一种基于标题高频切分的新闻热点短语提取方法技术

技术编号:17007626 阅读:39 留言:0更新日期:2018-01-11 03:56
本发明专利技术提供一种基于标题高频切分的新闻热点短语提取方法,包括以下步骤:对于每个热点话题类,提取新闻标题;对新闻标题进行分词,统计每个分词的词频,筛选出词频最大的前n个分词作为高频词集;使用高频词集寻找新闻标题的高频切分边界,并根据切分边界对新闻标题进行切分,得到候选短语;由此得到候选短语集;对候选短语集中的各个候选短语进行评价,筛选得到评价指数最高的候选短语,作为最佳短语。优点为:能够对每个热点话题提取出一个精简、准确描述话题内容的热点短语,对当前新闻热点话题内容的快速概括和有效展现提供了解决方案,提高了信息的展现和用户获取信息的效率。

【技术实现步骤摘要】
一种基于标题高频切分的新闻热点短语提取方法
本专利技术属于新闻文本数据挖掘
,具体涉及一种基于标题高频切分的新闻热点短语提取方法。
技术介绍
随着互联网新闻数据量的爆炸性增长,如何识别当前实时的新闻热点并呈现给用户,变得越来越重要。基于此目的,产生了新闻热点话题的检测技术。但检测出的同一热点话题中的新闻量对用户来说可能仍然是庞大的,无法直接呈现给用户,如何根据话题中的新闻对热点话题进行简要准确地概括成为了关键的问题,用户只需要阅读概括后的话题描述,就能快速了解当前实时发生的热点事件。目前,对话题内容进行概括的主要方法大致可以分为:摘要型、标签型、关键词型、短语(Phrase)型。其中,摘要型的做法是提取多文档摘要,具有以下不足:由于多文档摘要本身长度过长,且各文档摘要句的拼接顺序无法确定,同时摘要可能存在语义、指代等不正确的情况,所以该方法无法有效应用于该场景。除摘要型外,其它类型的方法一般都是通过先产生候选集,再进行评价筛选最佳短语的方式。其中,标签型和关键词型的概括方法都是以词为基本单元,使用多个标签或关键词来描述一个话题。具有以下不足:由于词的描述存在局限性,无法像句子短本文档来自技高网...
一种基于标题高频切分的新闻热点短语提取方法

【技术保护点】
一种基于标题高频切分的新闻热点短语提取方法,其特征在于,包括以下步骤:步骤1,获取需要分析处理的w篇新闻文章,对所述w篇新闻文章采用增量聚类方法进行聚类,将属于同一新闻话题的新闻文章聚成一类,由此得到p个新闻话题类;统计每个新闻话题类所包括的新闻文章数量,以每个新闻话题类所包括的新闻文章数量作为新闻话题热度的度量;即:每个新闻话题类所包括的新闻文章数量越多,则对应的新闻话题热度越高;对于p个新闻话题类,按照新闻话题热度由高到低的顺序排列,取前m个新闻话题类作为热点话题类;其中,w、p和m均为自然数,m≤p;步骤2,对于每个所述热点话题类,均执行以下步骤3‑步骤7;步骤3,假设所述热点话题类共包...

【技术特征摘要】
1.一种基于标题高频切分的新闻热点短语提取方法,其特征在于,包括以下步骤:步骤1,获取需要分析处理的w篇新闻文章,对所述w篇新闻文章采用增量聚类方法进行聚类,将属于同一新闻话题的新闻文章聚成一类,由此得到p个新闻话题类;统计每个新闻话题类所包括的新闻文章数量,以每个新闻话题类所包括的新闻文章数量作为新闻话题热度的度量;即:每个新闻话题类所包括的新闻文章数量越多,则对应的新闻话题热度越高;对于p个新闻话题类,按照新闻话题热度由高到低的顺序排列,取前m个新闻话题类作为热点话题类;其中,w、p和m均为自然数,m≤p;步骤2,对于每个所述热点话题类,均执行以下步骤3-步骤7;步骤3,假设所述热点话题类共包括x篇新闻文章,提取每篇新闻文章的新闻标题,则共提取到x个新闻标题;对所述x个新闻标题进行去重处理,得到y个新闻标题;其中,x和y均为自然数,y≤x;步骤4,对于y个新闻标题中的每个新闻标题,进行分词和去停用词处理,得到每个新闻标题所对应的若干个分词;将y个新闻标题得到的所有分词组成集合,记为分词集合;然后,统计每个分词在所述分词集合中的出现次数,即:统计每个分词的词频,筛选出词频最大的前n个分词作为该热点话题类的高频词集;步骤5,设高频词集为F={F1、F2...Fn};其中,n代表高频词集包括的高频词的数量;F1、F2...Fn代表高频词集的元素,即各个高频词;E1、E2...En分别代表F1、F2...Fn的词频;步骤6,对于y个新闻标题中的每个新闻标题,表示为S=s1…st;其中si,i∈[1,t]为新闻标题的分词;S表示新闻标题;t表示新闻标题的分词数量;均采用以下步骤6.1-步骤6.2,得到新闻标题对应的候选短语c:步骤6.1,判断新闻标题S=s1…st包含的高频词的数量,如果小于等于1个,则不提取该新闻标题S=s1…st对应的候选短语;否则,执行步骤6.2;步骤6.2,使用高频词集F寻找新闻标题S=s1…st的高频切分边界,并根据切分边界对新闻标题S=s1…st进行切分,得到候选短语c;本步骤具体为:采用下式寻找高频切分左边界位置L和高频切分右边界位置U:L=min{i:si∈F}U=max{i:si∈F}对于新闻标题S=s1…st,切除高频切分左边界位置L的左侧以及高频切分右边界位置U右侧的分词...

【专利技术属性】
技术研发人员:黄瑞章刘于雷梁山雪
申请(专利权)人:贵州耕云科技有限公司
类型:发明
国别省市:贵州,52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1