标题识别方法及装置制造方法及图纸

技术编号:22055710 阅读:23 留言:0更新日期:2019-09-07 15:24
本申请提出一种标题识别方法及装置,其中,该方法包括:将待识别标题的各个词语与各个标题类别的样本特征词表进行匹配,以得到待识别标题在各个标题类别上的样本特征词匹配结果,并根据待识别标题在各个标题类别上的样本特征词匹配结果,计算待识别标题在各个标题类别的评分,以及根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分,以及根据待识别标题的语义特征信息,确定待识别标题在语义特征维度上的第二评分,然后,结合标题在文本特征维度以及语义维度上的评分,准确确定出了标题是否为目标标题。由此,解决了现有标题识别方法中误伤大、泛化能力差以及识别准确率不高的问题,具有准确率高的特点。

Title Recognition Method and Device

【技术实现步骤摘要】
标题识别方法及装置
本申请涉及互联网
,尤其涉及一种标题识别方法及装置。
技术介绍
随着互联网的发展,互联网平台涌现出了很多的在线新闻媒体(内容生产商,包括专业媒体、自媒体等),该类新闻媒体其收入与读者对它们所产生内容的点击量成正比。因此,为了获取高点击量、竞争优势、影响力以及高利润,该类新闻媒体往往会在所生产内容的标题上做文章,生产出与内容完全不符的标题,以吸引读者的注意力,这种标题为具有点击诱饵的标题(clickbaits),即俗称的标题党。引诱性极强的标题短期内能吸引用户点击,但过度的运用此类手段,不但不能引起读者的好奇心,反而降低了平台的整体文章质量,造成使用者黏性下降、优质内容发布者流失,恶性循环,直至毁掉内容发布平台品牌形象。因此,如何准确识别出标题党对内容发布平台是十分重要的。相关技术中,识别标题党的方法,通常是基本为人工分析、观察后设定的特征词典(特征词典包括感情色彩浓重的引诱词、夸张词、引诱片段等)进行对标题过滤。如果候选标题中包含词典中的任何一个特征词典,则该候选标题会被认为是过度引诱性标题。然而,在实现本申请的过程中专利技术人发现上述标题党的识别方法存在误伤大、泛化能力差、识别准确率不高等问题,实际应用的效果并不理想。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种标题识别方法。本申请的第二个目的在于提出一种标题识别装置。本申请的第三个目的在于提出一种电子设备。本申请的第四个目的在于提出一种计算机可读存储介质。为达上述目的,本申请第一方面实施例提出了一种标题识别方法,包括:将待识别标题的各个词语与各个标题类别的样本特征词表进行匹配,以得到待识别标题在各个标题类别上的样本特征词匹配结果;针对各个标题类别,根据待识别标题在当前标题类别上的样本特征词匹配结果,确定待识别标题在所述当前标题类别上匹配到的目标样本特征词,根据所述目标样本特征词的影响因子,计算待识别标题在当前标题类别上的评分,其中,所述影响因子用于指示所述目标样本特征词在所述当前标题类别上对确定目标标题的影响程度;根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分;根据待识别标题的语义特征信息,确定待识别标题在语义特征维度上的第二评分;根据所述第一评分和所述第二评分,确定待识别标题是否为目标标题。本申请实施例提供的标题识别方法,将待识别标题的各个词语与各个标题类别的样本特征词表进行匹配,以得到待识别标题在各个标题类别上的样本特征词匹配结果,并根据待识别标题在各个标题类别上的样本特征词匹配结果,计算待识别标题在各个标题类别的评分,以及根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分,以及根据待识别标题的语义特征信息,确定待识别标题在语义特征维度上的第二评分,然后,结合标题在文本特征维度以及语义维度上的评分,准确确定出了标题是否为目标标题。由此,解决了现有标题识别方法中误伤大、泛化能力差以及识别准确率不高的问题,具有准确率高的特点。在本申请的一个实施例中,所述根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分,包括:获取待识别标题在各个标题类别上的概率值;根据待识别标题在各个标题类别上的概率值和评分,确定待识别标题在文本特征维度上的第一评分。在本申请的一个实施例中,所述获取待识别标题在各个标题类别上的概率值,包括:根据与待识别标题对应的待发布内容,确定待识别标题在各个标题类别上的概率值。在本申请的一个实施例中,所述根据待识别标题的语义特征信息,确定待识别标题在语义特征维度上的第二评分,包括:将待识别标题的语义特征信息输入到预先训练的语义分析模型,以通过所述语义分析模型,确定待识别标题在语义特征维度上的第二评分。在本申请的一个实施例中,在所述根据所述目标样本特征词的影响因子,计算待识别标题在当前标题类别上的评分之前,还包括:根据所述当前标题类别的样本特征词表,获取所述目标样本特征词的影响因子。在本申请的一个实施例中,所述根据所述第一评分和所述第二评分,确定待识别标题是否为目标标题,包括:判断所述第一评分是否超过第一评分阈值,并判断所述第二评分是否超过第二评分阈值;如果所述第一评分超过第一评分阈值,和/或所述第二评分超过第二评分阈值,则确定待识别标题为目标标题。为达上述目的,本申请第二方面实施例提出了一种标题识别装置,包括:匹配模块,用于将待识别标题的各个词语与各个标题类别的样本特征词表进行匹配,以得到待识别标题在各个标题类别上的样本特征词匹配结果;处理模块,用于针对各个标题类别,根据待识别标题在当前标题类别上的样本特征词匹配结果,确定待识别标题在所述当前标题类别上匹配到的目标样本特征词,根据所述目标样本特征词的影响因子,计算待识别标题在当前标题类别上的评分,其中,所述影响因子用于指示所述目标样本特征词在所述当前标题类别上对确定目标标题的影响程度;第一确定模块,用于根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分;第二确定模块,用于根据待识别标题的语义特征信息,确定待识别标题在语义特征维度上的第二评分;第三确定模块,用于根据所述第一评分和所述第二评分,确定待识别标题是否为目标标题。在本申请的一个实施例中,所述第一确定模块,包括:获取单元,用于获取待识别标题在各个标题类别上的概率值;确定单元,用于根据待识别标题在各个标题类别上的概率值和评分,确定待识别标题在文本特征维度上的第一评分。在本申请的一个实施例中,所述获取单元,具体用于:根据与待识别标题对应的待发布内容,确定待识别标题在各个标题类别上的概率值。在本申请的一个实施例中,所述第二确定模块,具体用于:将待识别标题的语义特征信息输入到预先训练的语义分析模型,以通过所述语义分析模型,确定待识别标题在语义特征维度上的第二评分。在本申请的一个实施例中,还包括:获取模块,用于根据所述当前标题类别的样本特征词表,获取所述目标样本特征词的影响因子。在本申请的一个实施例中,所述第三确定模块,具体用于:判断所述第一评分是否超过第一评分阈值,并判断所述第二评分是否超过第二评分阈值;如果所述第一评分超过第一评分阈值,和/或所述第二评分超过第二评分阈值,则确定待识别标题为目标标题。本申请实施例提供的标题识别装置,将待识别标题的各个词语与各个标题类别的样本特征词表进行匹配,以得到待识别标题在各个标题类别上的样本特征词匹配结果,并根据待识别标题在各个标题类别上的样本特征词匹配结果,计算待识别标题在各个标题类别的评分,以及根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分,以及根据待识别标题的语义特征信息,确定待识别标题在语义特征维度上的第二评分,然后,结合标题在文本特征维度以及语义维度上的评分,准确确定出了标题是否为目标标题。由此,解决了现有标题识别方法中误伤大、泛化能力差以及识别准确率不高的问题,具有准确率高的特点。为达上述目的,本申请第三方面实施例提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的标题识别方法。为了实现上本文档来自技高网...

【技术保护点】
1.一种标题识别方法,其特征在于,包括:将待识别标题中的各个词语与各个标题类别的样本特征词表进行匹配,以得到所述待识别标题在各个标题类别上的样本特征词匹配结果;针对各个标题类别,根据所述待识别标题在当前标题类别上的样本特征词匹配结果,确定所述待识别标题在所述当前标题类别上匹配到的目标样本特征词,根据所述目标样本特征词的影响因子,计算所述待识别标题在当前标题类别上的评分,其中,所述影响因子用于指示所述目标样本特征词在所述当前标题类别上对确定目标标题的影响程度;根据所述待识别标题在各个标题类别上的评分,确定所述待识别标题在文本特征维度上的第一评分;根据所述待识别标题的语义特征信息,确定所述待识别标题在语义特征维度上的第二评分;根据所述第一评分和所述第二评分,确定所述待识别标题是否为目标标题。

【技术特征摘要】
1.一种标题识别方法,其特征在于,包括:将待识别标题中的各个词语与各个标题类别的样本特征词表进行匹配,以得到所述待识别标题在各个标题类别上的样本特征词匹配结果;针对各个标题类别,根据所述待识别标题在当前标题类别上的样本特征词匹配结果,确定所述待识别标题在所述当前标题类别上匹配到的目标样本特征词,根据所述目标样本特征词的影响因子,计算所述待识别标题在当前标题类别上的评分,其中,所述影响因子用于指示所述目标样本特征词在所述当前标题类别上对确定目标标题的影响程度;根据所述待识别标题在各个标题类别上的评分,确定所述待识别标题在文本特征维度上的第一评分;根据所述待识别标题的语义特征信息,确定所述待识别标题在语义特征维度上的第二评分;根据所述第一评分和所述第二评分,确定所述待识别标题是否为目标标题。2.如权利要求1所述的方法,其特征在于,所述根据所述待识别标题在各个标题类别上的评分,确定所述待识别标题在文本特征维度上的第一评分,包括:获取所述待识别标题在各个标题类别上的概率值;根据所述待识别标题在各个标题类别上的概率值和评分,确定所述待识别标题在文本特征维度上的第一评分。3.如权利要求2所述的方法,其特征在于,所述获取所述待识别标题在各个标题类别上的概率值,包括:根据与所述待识别标题对应的待发布内容,确定所述待识别标题在各个标题类别上的概率值。4.如权利要求1所述的方法,其特征在于,所述根据所述待识别标题的语义特征信息,确定所述待识别标题在语义特征维度上的第二评分,包括:将所述待识别标题的语义特征信息输入到预先训练的语义分析模型,以通过所述语义分析模型,确定所述待识别标题在语义特征维度上的第二评分。5.如权利要求1所述的方法,其特征在于,在所述根据所述目标样本特征词的影响因子,计算所述待识别标题在当前标题类别上的评分之前,还包括:根据所述当前标题类别的样本特征词表,获取所述目标样本特征词的影响因子。6.如权利要求1-5任一项所述的方法,其特征在于,所述根据所述第一评分和所述第二评分,确定所述待识别标题是否为目标标题,包括:判断所述第一评分是否超过第一评分阈值,并判断所述第二评分是否超过第二评分阈值;如果所述第一评分超过第一评分阈值,和/或所述第二评分超过第二评分阈值,则确定所述待识别标题为目标标题。7.一种标题识别装置,其特征在于,包括:匹配模块,用于将待识别标题中的各...

【专利技术属性】
技术研发人员:徐梦笛杨宇鸿付志宏何径舟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1