基于搜索的实时热点新闻提供方法及装置制造方法及图纸

技术编号:18668366 阅读:30 留言:0更新日期:2018-08-14 20:39
本发明专利技术提供了一种基于搜索的实时热点新闻提供方法及装置。该方法包括:获取具有实时热点属性的新闻的原始标题,对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,提取新闻的原始标题中的句子主干内容,并将提取的句子主干内容作为新闻候选标题;利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,进而根据评估结果确定新闻摘要标题;在搜索页面提供所述新闻摘要标题。本发明专利技术实施例在搜索页面提供新闻摘要标题,提升用户使用搜索引擎的体验,提高用户的点击率。

Method and device for providing real-time hot news based on search

The invention provides a real-time hot news providing method and device based on search. The method includes: obtaining the original headlines of news with real-time hot spot attributes, lexical and syntactic analysis of the original headlines of news, obtaining the analysis results; extracting the sentence trunk content in the original headlines of news based on the analysis results, and taking the extracted sentence trunk content as the news candidate headlines; and utilizing the new headlines. The summary quality evaluation strategy of news headlines evaluates the quality of the news candidate headlines, and then determines the headlines of news summaries according to the evaluation results. The headlines of news summaries are provided on the search page. The embodiment of the invention provides news summary title in the search page, improves the user's experience of using the search engine, and improves the click rate of the user.

【技术实现步骤摘要】
基于搜索的实时热点新闻提供方法及装置
本专利技术涉及互联网应用
,特别是一种基于搜索的实时热点新闻提供方法及装置。
技术介绍
在当今信息量巨大的互联网中,网络用户在使用搜索引擎进行新闻搜索时,一般基于新闻标题的内容与描述筛选其需要的内容,进而产生点击行为,因此新闻标题对相应新闻信息的概括性、准确性以及关键信息覆盖能力,很大程度上决定了用户对该搜索引擎的使用体验。目前的搜索引擎产品中,尤其是新闻类搜索,大多直接使用新闻的原始标题作为搜索展现结果的标题,然而新闻原始标题为了博人眼球、增加点击量,往往会充斥大量冗余信息,甚至过多强调某个侧面以偏概全,导致标题不严谨、不准确,还可能会对用户产生错误引导。这样的标题在新闻主动推送产品中,会直接导致用户无法快速获取新闻关键信息,影响用户的体验,降低用户对于推送内容的信息获取欲望,以及降低对推送产品的粘性。因此,针对新闻的原始标题,去除冗余信息,以得到更准确、更严谨的新闻标题成为亟待解决的技术问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于搜索的实时热点新闻提供方法及装置。依据本专利技术的一方面,提供了一种基于搜索的实时热点新闻提供方法,包括:获取具有实时热点属性的新闻的原始标题,对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,提取新闻的原始标题中的句子主干内容,并将提取的句子主干内容作为新闻候选标题;利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,进而根据评估结果确定新闻摘要标题;在搜索页面提供所述新闻摘要标题。可选地,所述获取具有实时热点属性的新闻的原始标题,包括:获取网络爬虫抓取的关于新闻资源的抓取日志;从抓取日志中提取具有实时热点属性的新闻的原始标题。可选地,所述从抓取日志中提取具有实时热点属性的新闻的原始标题,包括:对于抓取日志中关于新闻资源的各条记录,从中选取具有实时热点属性的记录;提取具有实时热点属性的记录的指定字段的字段值作为新闻的原始标题。可选地,所述对新闻的原始标题进行词法句法分析,得到分析结果,包括:对新闻的原始标题进行分词处理,得到多个分词;对所述多个分词中的各分词分别进行词性标注和实体类别标注;基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法分析,识别各分词的依存节点下标和依存类型。可选地,所述对新闻的原始标题进行分词处理的方法包括下列至少之一:基于字符串匹配的分词方法;基于语义理解的分词方法;基于统计的分词方法。可选地,对所述多个分词中的各分词进行实体类别标注,包括:采用序列标注模型,对所述多个分词中的各分词的实体词进行识别,标注实体类别。可选地,所述实体类别包括下列任意之一:人名、地名、机构名、品牌名、软件名。可选地,所述基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法分析,识别各分词的依存节点下标和依存类型,包括:通过各分词的词性标注和实体类别标注,对新闻的原始标题的语法成分进行识别;分析识别出的各语法成分之间的依存关系,得到各分词的依存节点下标和依存类型。可选地,基于所述分析结果,提取新闻的原始标题中的句子主干内容,包括:根据各分词的词性标注、实体类别标注、依存节点下标以及依存类型,生成句法树,进而通过对句法树的筛选与剪枝,生成新闻的原始标题的句子主干内容。可选地,所述根据各分词的词性标注、实体类别标注、依存节点下标以及依存类型,生成句法树,进而通过对句法树的筛选与剪枝,生成新闻的原始标题的句子主干内容,包括:选取依存类型中核心关系对应的head主节点为主干谓语;若主节点分词后词性为名词词性,则对所有特定类比的浅层依存的名词进行归并更新谓语;若主节点分词后词性为动词词性,则设定主节点为谓语动词;对于否定词定语进行识别并归并入谓语。可选地,所述方法还包括:识别主谓关系节点,对于主语周边节点进行归并,对并列关系节点依照主语规则保持名词词性部分,其余进行节点剪枝,并设置主语节点。可选地,所述方法还包括:根据宾语类型,若为名词对宾语进行识别,并列关系节点全部去除,并设置宾语节点。可选地,利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,包括:采用神经机器翻译模型对新闻的原始标题进行压缩式处理,得到新闻衡量标题;对所述新闻衡量标题和所述新闻候选标题,使用语言模型进行句子在该语言模型下的质量得分计算;将计算得到的质量得分结果,作为对所述新闻候选标题的质量进行评估的评估结果。可选地,所述根据评估结果确定新闻摘要标题,包括:在所述新闻衡量标题和所述新闻候选标题中,根据计算得到的质量得分结果,确定质量得分最高的标题作为待选标题;若该候选标题对应的质量得分大于质量分数阈值,则判断该待选标题是否满足预设审核条件,若是,则将该待选标题确定为新闻摘要标题。可选地,所述该待选标题是否满足预设审核条件包括下列至少之一:该待选标题是否是主谓结构语法;该待选标题是否是主谓结构语法,且谓语动词含动词成分;该待选标题与新闻的原始标题的编辑距离是否小于编辑距离阈值;该待选标题与新闻的原始标题的语义距离是否小于语义距离阈值。可选地,所述在搜索页面提供所述新闻摘要标题,包括:当接收到搜索请求时,在搜索请求对应的搜索页面提供所述新闻摘要标题;或者在根据搜索词搜索得到的搜索结果对应的搜索页面,提供所述新闻摘要标题。依据本专利技术的另一方面,还提供了一种基于搜索的实时热点新闻提供装置,包括:获取模块,适于获取具有实时热点属性的新闻的原始标题;分析模块,适于对新闻的原始标题进行词法句法分析,得到分析结果;提取模块,适于基于所述分析结果,提取新闻的原始标题中的句子主干内容,并将提取的句子主干内容作为新闻候选标题;评估模块,适于利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,进而根据评估结果确定新闻摘要标题;提供模块,适于在搜索页面提供所述新闻摘要标题。可选地,所述获取模块还适于:获取网络爬虫抓取的关于新闻资源的抓取日志;从抓取日志中提取具有实时热点属性的新闻的原始标题。可选地,所述获取模块还适于:对于抓取日志中关于新闻资源的各条记录,从中选取具有实时热点属性的记录;提取具有实时热点属性的记录的指定字段的字段值作为新闻的原始标题。可选地,所述分析模块还适于:对新闻的原始标题进行分词处理,得到多个分词;对所述多个分词中的各分词分别进行词性标注和实体类别标注;基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法分析,识别各分词的依存节点下标和依存类型。可选地,所述对新闻的原始标题进行分词处理的方法包括下列至少之一:基于字符串匹配的分词方法;基于语义理解的分词方法;基于统计的分词方法。可选地,所述分析模块还适于:采用序列标注模型,对所述多个分词中的各分词的实体词进行识别,标注实体类别。可选地,所述实体类别包括下列任意之一:人名、地名、机构名、品牌名、软件名。可选地,所述分析模块还适于:通过各分词的词性标注和实体类别标注,对新闻的原始标题的语法成分进行识别;分析识别出的各语法成分之间的依存关系,得到各分词的依存节点下标和依存类型。可选地,所述提取模块还适于:根据各分词的词性标注、实体类别标注、依存节点下标以及依存类型,生成句本文档来自技高网...

【技术保护点】
1.一种基于搜索的实时热点新闻提供方法,包括:获取具有实时热点属性的新闻的原始标题,对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,提取新闻的原始标题中的句子主干内容,并将提取的句子主干内容作为新闻候选标题;利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,进而根据评估结果确定新闻摘要标题;在搜索页面提供所述新闻摘要标题。

【技术特征摘要】
1.一种基于搜索的实时热点新闻提供方法,包括:获取具有实时热点属性的新闻的原始标题,对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,提取新闻的原始标题中的句子主干内容,并将提取的句子主干内容作为新闻候选标题;利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,进而根据评估结果确定新闻摘要标题;在搜索页面提供所述新闻摘要标题。2.根据权利要求1所述的方法,其中,所述获取具有实时热点属性的新闻的原始标题,包括:获取网络爬虫抓取的关于新闻资源的抓取日志;从抓取日志中提取具有实时热点属性的新闻的原始标题。3.根据权利要求1或2所述的方法,其中,所述从抓取日志中提取具有实时热点属性的新闻的原始标题,包括:对于抓取日志中关于新闻资源的各条记录,从中选取具有实时热点属性的记录;提取具有实时热点属性的记录的指定字段的字段值作为新闻的原始标题。4.根据权利要求1-3中任一项所述的方法,其中,所述对新闻的原始标题进行词法句法分析,得到分析结果,包括:对新闻的原始标题进行分词处理,得到多个分词;对所述多个分词中的各分词分别进行词性标注和实体类别标注;基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法分析,识别各分词的依存节点下标和依存类型。5.根据权利要求1-4中任一项所述的方法,其中,所述对新闻的原始标题进行分词处理的方法包括下...

【专利技术属性】
技术研发人员:邬小鹏余晓龙张华泉王浩张向征
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1