新闻标题的处理方法及装置制造方法及图纸

技术编号:18783879 阅读:130 留言:0更新日期:2018-08-29 06:59
本发明专利技术提供了一种新闻标题的处理方法及装置。该方法包括:获取新闻资源,并从新闻资源中提取新闻的原始标题;对新闻的原始标题进行词法分析,得到词法分析结果;根据所述词法分析结果,采用句法分析算法对新闻的原始标题进行句法分析,得到句法分析结果;基于所述词法分析结果和所述句法分析结果,提取新闻的原始标题中的句子主干内容,作为新闻候选标题。本发明专利技术实施例利用词法句法分析对新闻标题进行压缩式摘要,使新闻标题中的主干内容被提取的同时尽可能保留了原新闻标题中的重点信息,能够得到更准确、更严谨的新闻标题。

【技术实现步骤摘要】
新闻标题的处理方法及装置
本专利技术涉及互联网应用
,特别是一种新闻标题的处理方法及装置。
技术介绍
在当今信息量巨大的互联网中,网络用户在使用搜索引擎进行新闻搜索时,一般基于新闻标题的内容与描述筛选其需要的内容,进而产生点击行为,因此新闻标题对相应新闻信息的概括性、准确性以及关键信息覆盖能力,很大程度上决定了用户对该搜索引擎的使用体验。目前的搜索引擎产品中,尤其是新闻类搜索,大多直接使用新闻的原始标题作为搜索展现结果的标题,然而新闻原始标题为了博人眼球、增加点击量,往往会充斥大量冗余信息,甚至过多强调某个侧面以偏概全,导致标题不严谨、不准确,还可能会对用户产生错误引导。这样的标题在新闻主动推送产品中,会直接导致用户无法快速获取新闻关键信息,影响用户的体验,降低用户对于推送内容的信息获取欲望,以及降低对推送产品的粘性。因此,针对新闻的原始标题,去除冗余信息,以得到更准确、更严谨的新闻标题成为亟待解决的技术问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的新闻标题的处理方法及装置。依据本专利技术的一方面,提供了一种新闻标题的处理方法,包括:获取新闻资源,并从新闻资源中提取新闻的原始标题;对新闻的原始标题进行词法分析,得到词法分析结果;根据所述词法分析结果,采用句法分析算法对新闻的原始标题进行句法分析,得到句法分析结果;基于所述词法分析结果和所述句法分析结果,提取新闻的原始标题中的句子主干内容,作为新闻候选标题。可选地,所述获取新闻资源,并从新闻资源中提取新闻的原始标题,包括:获取网络爬虫抓取的关于新闻资源的抓取日志;从抓取日志中提取新闻的原始标题。可选地,所述从抓取日志中提取新闻的原始标题,包括:对于抓取日志中关于新闻资源的各条记录,提取该条记录的指定字段的字段值作为新闻的原始标题。可选地,所述对新闻的原始标题进行词法分析,得到词法分析结果,包括:对新闻的原始标题进行分词处理,得到多个分词;对所述多个分词中的各分词分别进行词性标注和实体类别标注,将词性标注结果和实体类别标注结果作为词法分析结果。可选地,所述对新闻的原始标题进行分词处理的方法包括下列至少之一:基于字符串匹配的分词方法;基于语义理解的分词方法;基于统计的分词方法。可选地,对所述多个分词中的各分词进行实体类别标注,包括:采用序列标注模型,对所述多个分词中的各分词的实体词进行识别,标注实体类别。可选地,所述实体类别包括下列任意之一:人名、地名、机构名、品牌名、软件名。可选地,根据所述词法分析结果,采用句法分析算法对新闻的原始标题进行句法分析,得到句法分析结果,包括:基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法分析,识别各分词的依存节点下标和依存类型。可选地,所述基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法分析,识别各分词的依存节点下标和依存类型,包括:通过各分词的词性标注和实体类别标注,对新闻的原始标题的语法成分进行识别;分析识别出的各语法成分之间的依存关系,得到各分词的依存节点下标和依存类型。可选地,基于所述词法分析结果和所述句法分析结果,提取新闻的原始标题中的句子主干内容,包括:根据各分词的词性标注、实体类别标注、依存节点下标以及依存类型,生成句法树,进而通过对句法树的筛选与剪枝,生成新闻的原始标题的句子主干内容。可选地,所述根据各分词的词性标注、实体类别标注、依存节点下标以及依存类型,生成句法树,进而通过对句法树的筛选与剪枝,生成新闻的原始标题的句子主干内容,包括:选取依存类型中核心关系对应的head主节点为主干谓语;若主节点分词后词性为名词词性,则对所有特定类比的浅层依存的名词进行归并更新谓语;若主节点分词后词性为动词词性,则设定主节点为谓语动词;对于否定词定语进行识别并归并入谓语。可选地,所述方法还包括:识别主谓关系节点,对于主语周边节点进行归并,对并列关系节点依照主语规则保持名词词性部分,其余进行节点剪枝,并设置主语节点。可选地,所述方法还包括:根据宾语类型,若为名词对宾语进行识别,并列关系节点全部去除,并设置宾语节点。可选地,在基于所述词法分析结果和所述句法分析结果,提取新闻的原始标题中的句子主干内容,作为新闻候选标题之后,所述方法还包括:利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,进而根据评估结果确定新闻摘要标题。可选地,利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评估,包括:采用神经机器翻译模型对新闻的原始标题进行压缩式处理,得到新闻衡量标题;对所述新闻衡量标题和所述新闻候选标题,使用语言模型进行句子在该语言模型下的质量得分计算;将计算得到的质量得分结果,作为对所述新闻候选标题的质量进行评估的评估结果。可选地,所述根据评估结果确定新闻摘要标题,包括:在所述新闻衡量标题和所述新闻候选标题中,根据计算得到的质量得分结果,确定质量得分最高的标题作为待选标题;若该候选标题对应的质量得分大于质量分数阈值,则判断该待选标题是否满足预设审核条件,若是,则将该待选标题确定为新闻摘要标题。可选地,所述该待选标题是否满足预设审核条件包括下列至少之一:该待选标题是否是主谓结构语法;该待选标题是否是主谓结构语法,且谓语动词含动词成分;该待选标题与新闻的原始标题的编辑距离是否小于编辑距离阈值;该待选标题与新闻的原始标题的语义距离是否小于语义距离阈值。可选地,在根据评估结果确定新闻摘要标题之后,所述方法还包括:将所述新闻摘要标题提供给实时热点产品模块,从而由实时热点产品模块将所述新闻摘要标题作为实时热点进行展示。依据本专利技术的另一方面,还提供了一种新闻标题的处理装置,包括:原始标题提取模块,适于获取新闻资源,并从新闻资源中提取新闻的原始标题;词法分析模块,适于对新闻的原始标题进行词法分析,得到词法分析结果;句法分析模块,适于根据所述词法分析结果,采用句法分析算法对新闻的原始标题进行句法分析,得到句法分析结果;句子主干提取模块,适于基于所述词法分析结果和所述句法分析结果,提取新闻的原始标题中的句子主干内容,作为新闻候选标题。可选地,所述原始标题提取模块还适于:获取网络爬虫抓取的关于新闻资源的抓取日志;从抓取日志中提取新闻的原始标题。可选地,所述原始标题提取模块还适于:对于抓取日志中关于新闻资源的各条记录,提取该条记录的指定字段的字段值作为新闻的原始标题。可选地,所述词法分析模块还适于:对新闻的原始标题进行分词处理,得到多个分词;对所述多个分词中的各分词分别进行词性标注和实体类别标注,将词性标注结果和实体类别标注结果作为词法分析结果。可选地,所述对新闻的原始标题进行分词处理的方法包括下列至少之一:基于字符串匹配的分词方法;基于语义理解的分词方法;基于统计的分词方法。可选地,所述词法分析模块还适于:采用序列标注模型,对所述多个分词中的各分词的实体词进行识别,标注实体类别。可选地,所述实体类别包括下列任意之一:人名、地名、机构名、品牌名、软件名。可选地,所述句法分析模块还适于:基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法分析,识别各分词的依存节点下标和依存类型。可选地,所述句法分析模块还适于:通过各分词的词性标本文档来自技高网...

【技术保护点】
1.一种新闻标题的处理方法,包括:获取新闻资源,并从新闻资源中提取新闻的原始标题;对新闻的原始标题进行词法分析,得到词法分析结果;根据所述词法分析结果,采用句法分析算法对新闻的原始标题进行句法分析,得到句法分析结果;基于所述词法分析结果和所述句法分析结果,提取新闻的原始标题中的句子主干内容,作为新闻候选标题。

【技术特征摘要】
1.一种新闻标题的处理方法,包括:获取新闻资源,并从新闻资源中提取新闻的原始标题;对新闻的原始标题进行词法分析,得到词法分析结果;根据所述词法分析结果,采用句法分析算法对新闻的原始标题进行句法分析,得到句法分析结果;基于所述词法分析结果和所述句法分析结果,提取新闻的原始标题中的句子主干内容,作为新闻候选标题。2.根据权利要求1所述的方法,其中,所述获取新闻资源,并从新闻资源中提取新闻的原始标题,包括:获取网络爬虫抓取的关于新闻资源的抓取日志;从抓取日志中提取新闻的原始标题。3.根据权利要求1或2所述的方法,其中,所述从抓取日志中提取新闻的原始标题,包括:对于抓取日志中关于新闻资源的各条记录,提取该条记录的指定字段的字段值作为新闻的原始标题。4.根据权利要求1-3中任一项所述的方法,其中,所述对新闻的原始标题进行词法分析,得到词法分析结果,包括:对新闻的原始标题进行分词处理,得到多个分词;对所述多个分词中的各分词分别进行词性标注和实体类别标注,将词性标注结果和实体类别标注结果作为词法分析结果。5.根据权利要求1-4中任一项所述的方法,其中,所述对新闻的原始标题进行分词处理的方法包括下列至少之一:基于字符串匹配的分词方法;基于语义理解的分词方...

【专利技术属性】
技术研发人员:邬小鹏余晓龙张华泉王浩张向征
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1