The invention provides a real-time hot news providing method and device based on search. The method includes: obtaining the original headlines of news with real-time hot spot attributes, lexical and syntactic analysis of the original headlines of news, obtaining the analysis results; extracting the sentence trunk content in the original headlines of news based on the analysis results, and taking the extracted sentence trunk content as the news candidate headlines; and utilizing the new headlines. The summary quality evaluation strategy of news headlines evaluates the quality of the news candidate headlines, and then determines the headlines of news summaries according to the evaluation results. The headlines of news summaries are provided on the search page. The embodiment of the invention provides news summary title in the search page, improves the user's experience of using the search engine, and improves the click rate of the user.
【技术实现步骤摘要】
基于搜索的实时热点新闻提供方法及装置
本专利技术涉及互联网应用
,特别是一种基于搜索的实时热点新闻提供方法及装置。
技术介绍
在当今信息量巨大的互联网中,网络用户在使用搜索引擎进行新闻搜索时,一般基于新闻标题的内容与描述筛选其需要的内容,进而产生点击行为,因此新闻标题对相应新闻信息的概括性、准确性以及关键信息覆盖能力,很大程度上决定了用户对该搜索引擎的使用体验。目前的搜索引擎产品中,尤其是新闻类搜索,大多直接使用新闻的原始标题作为搜索展现结果的标题,然而新闻原始标题为了博人眼球、增加点击量,往往会充斥大量冗余信息,甚至过多强调某个侧面以偏概全,导致标题不严谨、不准确,还可能会对用户产生错误引导。这样的标题在新闻主动推送产品中,会直接导致用户无法快速获取新闻关键信息,影响用户的体验,降低用户对于推送内容的信息获取欲望,以及降低对推送产品的粘性。因此,针对新闻的原始标题,去除冗余信息,以得到更准确、更严谨的新闻标题成为亟待解决的技术问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于搜索的实时热点新闻提供方法及装置。依据本专利技术的一方面,提供了一种基于搜索的实时热点新闻提供方法,包括:获取具有实时热点属性的新闻的原始标题,对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,提取新闻的原始标题中的句子主干内容,并将提取的句子主干内容作为新闻候选标题;利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,进而根据评估结果确定新闻摘要标题;在搜索页面提供所述新闻摘要标题。可选地,所 ...
【技术保护点】
1.一种基于搜索的实时热点新闻提供方法,包括:获取具有实时热点属性的新闻的原始标题,对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,提取新闻的原始标题中的句子主干内容,并将提取的句子主干内容作为新闻候选标题;利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,进而根据评估结果确定新闻摘要标题;在搜索页面提供所述新闻摘要标题。
【技术特征摘要】
1.一种基于搜索的实时热点新闻提供方法,包括:获取具有实时热点属性的新闻的原始标题,对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,提取新闻的原始标题中的句子主干内容,并将提取的句子主干内容作为新闻候选标题;利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,进而根据评估结果确定新闻摘要标题;在搜索页面提供所述新闻摘要标题。2.根据权利要求1所述的方法,其中,所述获取具有实时热点属性的新闻的原始标题,包括:获取网络爬虫抓取的关于新闻资源的抓取日志;从抓取日志中提取具有实时热点属性的新闻的原始标题。3.根据权利要求1或2所述的方法,其中,所述从抓取日志中提取具有实时热点属性的新闻的原始标题,包括:对于抓取日志中关于新闻资源的各条记录,从中选取具有实时热点属性的记录;提取具有实时热点属性的记录的指定字段的字段值作为新闻的原始标题。4.根据权利要求1-3中任一项所述的方法,其中,所述对新闻的原始标题进行词法句法分析,得到分析结果,包括:对新闻的原始标题进行分词处理,得到多个分词;对所述多个分词中的各分词分别进行词性标注和实体类别标注;基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法分析,识别各分词的依存节点下标和依存类型。5.根据权利要求1-4中任一项所述的方法,其中,所述对新闻的原始标题进行分词处理的方法包括下...
【专利技术属性】
技术研发人员:邬小鹏,余晓龙,张华泉,王浩,张向征,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。