The invention provides a method and device for extracting main contents of sentences in news headlines. The method includes: obtaining the original headlines of news, and parsing the original headlines of news to get the analysis results; generating the syntactic tree of the original headlines of news based on the analysis results; extracting the sentence backbone content of the original headlines of news through the selection and pruning of the syntactic tree. The embodiment of the invention uses lexical and syntactic analysis to compress the news headlines, so that the main contents of the news headlines are extracted and the key information in the original news headlines is retained as much as possible, so that the news headlines can be more accurate and more rigorous.
【技术实现步骤摘要】
新闻标题的句子主干内容提取方法及装置
本专利技术涉及互联网应用
,特别是一种新闻标题的句子主干内容提取方法及装置。
技术介绍
在当今信息量巨大的互联网中,网络用户在使用搜索引擎进行新闻搜索时,一般基于新闻标题的内容与描述筛选其需要的内容,进而产生点击行为,因此新闻标题对相应新闻信息的概括性、准确性以及关键信息覆盖能力,很大程度上决定了用户对该搜索引擎的使用体验。目前的搜索引擎产品中,尤其是新闻类搜索,大多直接使用新闻的原始标题作为搜索展现结果的标题,然而新闻原始标题为了博人眼球、增加点击量,往往会充斥大量冗余信息,甚至过多强调某个侧面以偏概全,导致标题不严谨、不准确,还可能会对用户产生错误引导。这样的标题在新闻主动推送产品中,会直接导致用户无法快速获取新闻关键信息,影响用户的体验,降低用户对于推送内容的信息获取欲望,以及降低对推送产品的粘性。因此,针对新闻的原始标题,去除冗余信息,以得到更准确、更严谨的新闻标题成为亟待解决的技术问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的新闻标题的句子主干内容提取方法及装置。依据本专利技术的一方面,提供了一种新闻标题的句子主干内容提取方法,包括:获取新闻的原始标题,并对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,生成新闻的原始标题的句法树;通过对所述句法树的筛选与剪枝,提取新闻的原始标题的句子主干内容。可选地,所述对新闻的原始标题进行词法句法分析,得到分析结果,包括:对新闻的原始标题进行分词处理,得到多个分词;对所述多个分词中的各分词分别进行 ...
【技术保护点】
1.一种新闻标题的句子主干内容提取方法,包括:获取新闻的原始标题,并对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,生成新闻的原始标题的句法树;通过对所述句法树的筛选与剪枝,提取新闻的原始标题的句子主干内容。
【技术特征摘要】
1.一种新闻标题的句子主干内容提取方法,包括:获取新闻的原始标题,并对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,生成新闻的原始标题的句法树;通过对所述句法树的筛选与剪枝,提取新闻的原始标题的句子主干内容。2.根据权利要求1所述的方法,其中,所述对新闻的原始标题进行词法句法分析,得到分析结果,包括:对新闻的原始标题进行分词处理,得到多个分词;对所述多个分词中的各分词分别进行词性标注和实体类别标注;基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法分析,识别各分词的依存节点下标和依存类型。3.根据权利要求1或2所述的方法,其中,所述对新闻的原始标题进行分词处理的方法包括下列至少之一:基于字符串匹配的分词方法;基于语义理解的分词方法;基于统计的分词方法。4.根据权利要求1-3中任一项所述的方法,其中,对所述多个分词中的各分词进行实体类别标注,包括:采用序列标注模型,对所述多个分词中的各分词的实体词进行识别,标注实体类别。5.根据权利要求1-4中任一项所述的方法,其中,所述实体类别包括下列任意之一:人名、地名、机构名、品牌名、软件名。6.根据权利要求1-5中任一项所述的方法,其中,所述基于各分词的词性标注和实体类别标注...
【专利技术属性】
技术研发人员:邬小鹏,余晓龙,张华泉,王浩,张向征,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。