The invention provides a summary method and device for news headlines. The method includes: obtaining the original headlines of news, parsing the original headlines of news and getting the analysis results; extracting the sentence trunk content of the original headlines of news based on the analysis results, and taking the extracted sentence trunk content as news candidate headlines; using the summary quality evaluation of news headlines. The evaluation strategy evaluates the quality of the news candidate headlines, and then determines the news summary headlines according to the evaluation results. The embodiment of the invention uses lexical and syntactic analysis to compress the news headlines, so that the main contents of the news headlines are extracted and the key information in the original news headlines is retained as much as possible, so that the news headlines can be more accurate and more rigorous.
【技术实现步骤摘要】
新闻标题的摘要方法及装置
本专利技术涉及互联网应用
,特别是一种新闻标题的摘要方法及装置。
技术介绍
在当今信息量巨大的互联网中,网络用户在使用搜索引擎进行新闻搜索时,一般基于新闻标题的内容与描述筛选其需要的内容,进而产生点击行为,因此新闻标题对相应新闻信息的概括性、准确性以及关键信息覆盖能力,很大程度上决定了用户对该搜索引擎的使用体验。目前的搜索引擎产品中,尤其是新闻类搜索,大多直接使用新闻的原始标题作为搜索展现结果的标题,然而新闻原始标题为了博人眼球、增加点击量,往往会充斥大量冗余信息,甚至过多强调某个侧面以偏概全,导致标题不严谨、不准确,还可能会对用户产生错误引导。这样的标题在新闻主动推送产品中,会直接导致用户无法快速获取新闻关键信息,影响用户的体验,降低用户对于推送内容的信息获取欲望,以及降低对推送产品的粘性。因此,针对新闻的原始标题,去除冗余信息,以得到更准确、更严谨的新闻标题成为亟待解决的技术问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的新闻标题的摘要方法及装置。依据本专利技术的一方面,提供了一种新闻标题的摘要方法,包括:获取新闻的原始标题,对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,提取新闻的原始标题中的句子主干内容,并将提取的句子主干内容作为新闻候选标题;利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,进而根据评估结果确定新闻摘要标题。可选地,所述获取新闻的原始标题,包括:获取网络爬虫抓取的关于新闻资源的抓取日志;从抓取日志中提取新闻的原始标 ...
【技术保护点】
1.一种新闻标题的摘要方法,包括:获取新闻的原始标题,对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,提取新闻的原始标题中的句子主干内容,并将提取的句子主干内容作为新闻候选标题;利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,进而根据评估结果确定新闻摘要标题。
【技术特征摘要】
1.一种新闻标题的摘要方法,包括:获取新闻的原始标题,对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,提取新闻的原始标题中的句子主干内容,并将提取的句子主干内容作为新闻候选标题;利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,进而根据评估结果确定新闻摘要标题。2.根据权利要求1所述的方法,其中,所述获取新闻的原始标题,包括:获取网络爬虫抓取的关于新闻资源的抓取日志;从抓取日志中提取新闻的原始标题。3.根据权利要求1或2所述的方法,其中,所述从抓取日志中提取新闻的原始标题,包括:对于抓取日志中关于新闻资源的各条记录,提取该条记录的指定字段的字段值作为新闻的原始标题。4.根据权利要求1-3中任一项所述的方法,其中,所述对新闻的原始标题进行词法句法分析,得到分析结果,包括:对新闻的原始标题进行分词处理,得到多个分词;对所述多个分词中的各分词分别进行词性标注和实体类别标注;基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法分析,识别各分词的依存节点下标和依存类型。5.根据权利要求1-4中任一项所述的方法,其中,所述对新闻的原始标题进行分词处理的方法包括下列至少之一:基于字符串匹配的分词...
【专利技术属性】
技术研发人员:邬小鹏,余晓龙,张华泉,王浩,张向征,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。