新闻标题的句子主干内容提取方法及装置制造方法及图纸

技术编号:18809892 阅读:39 留言:0更新日期:2018-09-01 09:24
本发明专利技术提供了一种新闻标题的句子主干内容提取方法及装置。该方法包括:获取新闻的原始标题,并对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,生成新闻的原始标题的句法树;通过对所述句法树的筛选与剪枝,提取新闻的原始标题的句子主干内容。本发明专利技术实施例利用词法句法分析对新闻标题进行压缩式摘要,使新闻标题中的主干内容被提取的同时尽可能保留了原新闻标题中的重点信息,能够得到更准确、更严谨的新闻标题。

Method and device for extracting main contents of sentences in news headlines

The invention provides a method and device for extracting main contents of sentences in news headlines. The method includes: obtaining the original headlines of news, and parsing the original headlines of news to get the analysis results; generating the syntactic tree of the original headlines of news based on the analysis results; extracting the sentence backbone content of the original headlines of news through the selection and pruning of the syntactic tree. The embodiment of the invention uses lexical and syntactic analysis to compress the news headlines, so that the main contents of the news headlines are extracted and the key information in the original news headlines is retained as much as possible, so that the news headlines can be more accurate and more rigorous.

【技术实现步骤摘要】
新闻标题的句子主干内容提取方法及装置
本专利技术涉及互联网应用
,特别是一种新闻标题的句子主干内容提取方法及装置。
技术介绍
在当今信息量巨大的互联网中,网络用户在使用搜索引擎进行新闻搜索时,一般基于新闻标题的内容与描述筛选其需要的内容,进而产生点击行为,因此新闻标题对相应新闻信息的概括性、准确性以及关键信息覆盖能力,很大程度上决定了用户对该搜索引擎的使用体验。目前的搜索引擎产品中,尤其是新闻类搜索,大多直接使用新闻的原始标题作为搜索展现结果的标题,然而新闻原始标题为了博人眼球、增加点击量,往往会充斥大量冗余信息,甚至过多强调某个侧面以偏概全,导致标题不严谨、不准确,还可能会对用户产生错误引导。这样的标题在新闻主动推送产品中,会直接导致用户无法快速获取新闻关键信息,影响用户的体验,降低用户对于推送内容的信息获取欲望,以及降低对推送产品的粘性。因此,针对新闻的原始标题,去除冗余信息,以得到更准确、更严谨的新闻标题成为亟待解决的技术问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的新闻标题的句子主干内容提取方法及装置。依据本专利技术的一方面,提供了一种新闻标题的句子主干内容提取方法,包括:获取新闻的原始标题,并对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,生成新闻的原始标题的句法树;通过对所述句法树的筛选与剪枝,提取新闻的原始标题的句子主干内容。可选地,所述对新闻的原始标题进行词法句法分析,得到分析结果,包括:对新闻的原始标题进行分词处理,得到多个分词;对所述多个分词中的各分词分别进行词性标注和实体类别标注;基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法分析,识别各分词的依存节点下标和依存类型。可选地,所述对新闻的原始标题进行分词处理的方法包括下列至少之一:基于字符串匹配的分词方法;基于语义理解的分词方法;基于统计的分词方法。可选地,对所述多个分词中的各分词进行实体类别标注,包括:采用序列标注模型,对所述多个分词中的各分词的实体词进行识别,标注实体类别。可选地,所述实体类别包括下列任意之一:人名、地名、机构名、品牌名、软件名。可选地,所述基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法分析,识别各分词的依存节点下标和依存类型,包括:通过各分词的词性标注和实体类别标注,对新闻的原始标题的语法成分进行识别;分析识别出的各语法成分之间的依存关系,得到各分词的依存节点下标和依存类型。可选地,基于所述分析结果,生成新闻的原始标题的句法树,包括:根据各分词的词性标注、实体类别标注、依存节点下标以及依存类型,生成新闻的原始标题的句法树。可选地,通过对所述句法树的筛选与剪枝,提取新闻的原始标题的句子主干内容,包括:选取依存类型中核心关系对应的head主节点为主干谓语;若主节点分词后词性为名词词性,则对所有特定类比的浅层依存的名词进行归并更新谓语;若主节点分词后词性为动词词性,则设定主节点为谓语动词;对于否定词定语进行识别并归并入谓语。可选地,所述方法还包括:识别主谓关系节点,对于主语周边节点进行归并,对并列关系节点依照主语规则保持名词词性部分,其余进行节点剪枝,并设置主语节点。可选地,所述方法还包括:根据宾语类型,若为名词对宾语进行识别,并列关系节点全部去除,并设置宾语节点。可选地,在通过对所述句法树的筛选与剪枝,提取新闻的原始标题的句子主干内容之后,所述方法还包括:将提取的句子主干内容作为新闻候选标题;利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,进而根据评估结果确定新闻摘要标题。可选地,利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,包括:采用神经机器翻译模型对新闻的原始标题进行压缩式处理,得到新闻衡量标题;对所述新闻衡量标题和所述新闻候选标题,使用语言模型进行句子在该语言模型下的质量得分计算;将计算得到的质量得分结果,作为对所述新闻候选标题的质量进行评估的评估结果。可选地,所述根据评估结果确定新闻摘要标题,包括:在所述新闻衡量标题和所述新闻候选标题中,根据计算得到的质量得分结果,确定质量得分最高的标题作为待选标题;若该候选标题对应的质量得分大于质量分数阈值,则判断该待选标题是否满足预设审核条件,若是,则将该待选标题确定为新闻摘要标题。可选地,所述该待选标题是否满足预设审核条件包括下列至少之一:该待选标题是否是主谓结构语法;该待选标题是否是主谓结构语法,且谓语动词含动词成分;该待选标题与新闻的原始标题的编辑距离是否小于编辑距离阈值;该待选标题与新闻的原始标题的语义距离是否小于语义距离阈值。可选地,在根据评估结果确定新闻摘要标题之后,所述方法还包括:将所述新闻摘要标题提供给实时热点产品模块,从而由实时热点产品模块将所述新闻摘要标题作为实时热点进行展示。依据本专利技术的另一方面,还提供了一种新闻标题的句子主干内容提取装置,包括:分析模块,适于获取新闻的原始标题,并对新闻的原始标题进行词法句法分析,得到分析结果;生成模块,适于基于所述分析结果,生成新闻的原始标题的句法树;提取模块,适于通过对所述句法树的筛选与剪枝,提取新闻的原始标题的句子主干内容。可选地,所述分析模块还适于:对新闻的原始标题进行分词处理,得到多个分词;对所述多个分词中的各分词分别进行词性标注和实体类别标注;基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法分析,识别各分词的依存节点下标和依存类型。可选地,所述对新闻的原始标题进行分词处理的方法包括下列至少之一:基于字符串匹配的分词方法;基于语义理解的分词方法;基于统计的分词方法。可选地,所述分析模块还适于:采用序列标注模型,对所述多个分词中的各分词的实体词进行识别,标注实体类别。可选地,所述实体类别包括下列任意之一:人名、地名、机构名、品牌名、软件名。可选地,所述分析模块还适于:通过各分词的词性标注和实体类别标注,对新闻的原始标题的语法成分进行识别;分析识别出的各语法成分之间的依存关系,得到各分词的依存节点下标和依存类型。可选地,所述生成模块还适于:根据各分词的词性标注、实体类别标注、依存节点下标以及依存类型,生成新闻的原始标题的句法树。可选地,所述提取模块还适于:选取依存类型中核心关系对应的head主节点为主干谓语;若主节点分词后词性为名词词性,则对所有特定类比的浅层依存的名词进行归并更新谓语;若主节点分词后词性为动词词性,则设定主节点为谓语动词;对于否定词定语进行识别并归并入谓语。可选地,所述提取模块还适于:识别主谓关系节点,对于主语周边节点进行归并,对并列关系节点依照主语规则保持名词词性部分,其余进行节点剪枝,并设置主语节点。可选地,所述提取模块还适于:根据宾语类型,若为名词对宾语进行识别,并列关系节点全部去除,并设置宾语节点。可选地,所述装置还包括:标题质量评估模块,适于在所述提取模块通过对所述句法树的筛选与剪枝,提取新闻的原始标题的句子主干内容之后,将提取的句子主干内容作为新闻候选标题;利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,进而根据评估结果确定新闻摘要标题。可选地,所述标题质量评估模块还适于:采用神经机器翻译模型本文档来自技高网...

【技术保护点】
1.一种新闻标题的句子主干内容提取方法,包括:获取新闻的原始标题,并对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,生成新闻的原始标题的句法树;通过对所述句法树的筛选与剪枝,提取新闻的原始标题的句子主干内容。

【技术特征摘要】
1.一种新闻标题的句子主干内容提取方法,包括:获取新闻的原始标题,并对新闻的原始标题进行词法句法分析,得到分析结果;基于所述分析结果,生成新闻的原始标题的句法树;通过对所述句法树的筛选与剪枝,提取新闻的原始标题的句子主干内容。2.根据权利要求1所述的方法,其中,所述对新闻的原始标题进行词法句法分析,得到分析结果,包括:对新闻的原始标题进行分词处理,得到多个分词;对所述多个分词中的各分词分别进行词性标注和实体类别标注;基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法分析,识别各分词的依存节点下标和依存类型。3.根据权利要求1或2所述的方法,其中,所述对新闻的原始标题进行分词处理的方法包括下列至少之一:基于字符串匹配的分词方法;基于语义理解的分词方法;基于统计的分词方法。4.根据权利要求1-3中任一项所述的方法,其中,对所述多个分词中的各分词进行实体类别标注,包括:采用序列标注模型,对所述多个分词中的各分词的实体词进行识别,标注实体类别。5.根据权利要求1-4中任一项所述的方法,其中,所述实体类别包括下列任意之一:人名、地名、机构名、品牌名、软件名。6.根据权利要求1-5中任一项所述的方法,其中,所述基于各分词的词性标注和实体类别标注...

【专利技术属性】
技术研发人员:邬小鹏余晓龙张华泉王浩张向征
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1