一种标题党识别方法和装置、服务器、存储介质制造方法及图纸

技术编号:16837373 阅读:42 留言:0更新日期:2017-12-19 19:54
本发明专利技术实施例公开了一种标题党识别方法和装置、服务器、存储介质。其中,标题党识别方法包括:提取标题的文本统计特征和语义特征,利用预先训练好的决策模型,将提取到的文本统计特征和语义特征作为决策模型的输入,输出标题的决策分值,并将决策分值与第一预设阈值进行比较,根据比较结果确定标题是否为标题党。本发明专利技术实施例通过多层次、多粒度、多角度的提取标题的文本统计特征和语义特征,并利用决策模型对文本统计特征和语义特征进行决策评分,最终确定标题是否为标题党,解决了现有标题党识别方法中误伤大、泛化能力差以及识别准确率不高的问题,具有准确率高、召回高的特点。

A title party identification method and device, server, storage medium

The embodiment of the invention discloses a title party identification method and device, a server and a storage medium. Among them, including the title of the party identification method: extract the title text statistical features and semantic features, and using pre decision model trained to extract the text, statistical features and semantic features as the input output decision model, the title of the decision points, and compare the value with the first preset threshold, according to the comparison results to determine the title is the title of the party. Extract the title the embodiment of the invention through multi-level, multi granularity and multi angle statistical features and semantic features of the text, and the text of decision Score statistical features and semantic features using decision model, and ultimately determine whether the title is the title of the party, the title of the party to solve the existing identification methods in accidental injury, poor generalization ability and recognition accuracy is not high, has the advantages of high accuracy, high recall.

【技术实现步骤摘要】
一种标题党识别方法和装置、服务器、存储介质
本专利技术实施例涉及互联网
,尤其涉及一种标题党识别方法和装置、服务器、存储介质。
技术介绍
随着互联网的发展,互联网平台涌现出了很多的在线新闻媒体(内容生产商,包括专业媒体、自媒体等),该类新闻媒体其收入与读者对它们所产生内容的点击量成正比。因此,为了获取高点击量、竞争优势、影响力以及高利润,该类新闻媒体往往会在所生产内容的标题上做文章,生产出与内容完全不符的标题,以吸引读者的注意力,这种标题为具有点击诱饵的标题(clickbaits),即俗称的标题党。现有的标题党识别方法主要是基于统计的方法,例如通过统计标题中表示强烈情感的词语个数、停用词个数、副词个数、代词个数、标题长度以及标题句法树高度等特征,来确定标题是否属于标题党。但是,现有的基于统计的标题党识别方法存在误伤大、泛化能力差、识别准确率不高等问题,实际应用的效果并不理想。
技术实现思路
本专利技术实施例提供一种标题党识别方法和装置、服务器、存储介质,以解决现有的标题党识别方法中误伤大、泛化能力差、识别准确率不高的问题。第一方面,本专利技术实施例提供了一种标题党识别方法,该方法包括:提取标题的文本统计特征和语义特征;利用预先训练好的决策模型,将所述文本统计特征和语义特征作为决策模型的输入,输出所述标题的决策分值;将所述决策分值与第一预设阈值进行比较,根据比较结果确定所述标题是否为标题党。第二方面,本专利技术实施例还提供了一种标题党识别装置,该装置包括:特征提取模块,用于提取标题的文本统计特征和语义特征;决策评分模块,用于利用预先训练好的决策模型,将所述文本统计特征和语义特征作为决策模型的输入,输出所述标题的决策分值;分值比较模块,用于将所述决策分值与第一预设阈值进行比较,根据比较结果确定所述标题是否为标题党。第三方面,本专利技术实施例还提供了一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的标题党识别方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的标题党识别方法。本专利技术实施例通过多层次、多粒度、多角度的提取标题的文本统计特征和语义特征,利用预先训练好的决策模型,将文本统计特征和语义特征作为决策模型的输入,进行决策评分,并将决策分值与设定阈值进行比较以确定标题是否为标题党,解决了现有标题党识别方法中误伤大、泛化能力差以及识别准确率不高的问题,具有准确率高、召回高的特点。附图说明图1是本专利技术实施例一中的标题党识别方法的流程图;图2是本专利技术实施例二中的标题党识别方法的流程图;图3是本专利技术实施例三中的标题党识别装置的结构示意图;图4是本专利技术实施例四中的服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的标题党识别方法的流程图,本实施例可适用于需要对标题党进行识别的情况,该方法可以由标题党识别装置来执行,该装置可以采用软件和/或硬件的方式实现。如图1所示,该方法具体包括:步骤110、提取标题的文本统计特征和语义特征。标题党是具有点击诱饵的一类标题,该类标题通常使用一些夸张、与现实存在较大差距的短语或短句等具有显著特点的文本特征来吸引读者的注意力,此外,该类标题也具有其独特的语义特征。因此,可以利用标题的文本特征、语义特征或二者相结合来判断标题是否是标题党。本实施例中,为了准确判断标题是否是标题党,将标题中的文本统计特征和语义特征同时提取出来,以判断所提取出的文本统计特征和语义特征是否具有标题党所固有的特点,从而确定标题是否是标题党。本实施例中,标题的文本统计特征优选可以是标点符号个数、停用词个数、地域词个数、引诱词个数、代词个数或引诱片段个数中的至少一个。其中,停用词是指检索中的虚词和非检索用词,主要分为两类,一类是使用十分广泛的单词,具体可以是“我”、“的”等,另一类是出现频率很高,但无实际意义的语气助词、副词、介词或连词等,具体可以是“在”、“和”、“接着”等;引诱词是指标题中具有点击诱饵作用的词语,具体可以是“惊呆了”、“崩溃了”等;引诱片段是指标题中用标点符号隔开的,并且具有点击诱饵作用的短句,具体可以是“这文章据说没几个人可以看懂”、“99%的人都不知道”等。本实施例中,标题的文本统计特征中的标点符号个数、停用词个数、地域词个数、引诱词个数和代词个数优选可以利用统计的方法从标题中提取出来;标题的文本统计特征中的引诱片段个数以及标题的语义特征优选可以利用神经网络算法从标题中提取出来。步骤120、利用预先训练好的决策模型,将文本统计特征和语义特征作为决策模型的输入,输出标题的决策分值。本实施例中,在得到标题中的文本统计特征和语义特征之后,可以利用上述特征确定目标标题是否是标题党。具体的,优选可以采用基于迭代的决策树算法训练决策模型,以确定决策模型对应的各个参数值。在确定各个参数值之后,即可将文本统计特征和语义特征输入到该决策模型中,经决策模型处理后最终输出与标题相对应的决策分值。本实施例中,如果目标标题属于标题党,则最终通过决策模型输出的决策分值会相对较高,如果目标标题不属于标题党,则最终输出的决策分值会相对较低。该决策分值是由决策模型综合考虑文本统计特征和语义特征后得到的,其准确性较高,利用该决策分值即可确定目标标题是否是标题党。步骤130、将所述决策分值与第一预设阈值进行比较,根据比较结果确定所述标题是否为标题党。示例性的,当决策模型输出的决策分值大于等于第一预设阈值时,则确定与该决策分值相对应的标题是标题党,当决策模型输出的决策分值小于第一预设阈值时,则确定与该决策分值相对应的标题不是标题党。其中,第一预设阈值可以根据实际需要进行设定,本专利技术实施例对此不做任何限定。本专利技术实施例提供的标题党识别方法,通过多层次、多粒度、多角度的提取标题的文本统计特征和语义特征,利用预先训练好的决策模型,将文本统计特征和语义特征作为决策模型的输入,进行决策评分,并将决策分值与设定阈值进行比较以确定标题是否为标题党,解决了现有标题党识别方法中误伤大、泛化能力差以及识别准确率不高的问题,具有准确率高、召回高的特点。优选的,决策模型可以是GBDT模型。其中,GBDT(GradientBoostingDecisionTree,梯度提升决策树)模型由GBDT算法训练得到,该算法是一种基于迭代的决策树算法,由多棵决策树构成,利用由该算法训练得到的决策模型进行预测时,把所有决策树的预测结果叠加作为最终的预测结果。进一步的,GBDT模型的训练过程包括:获取带有标注的训练数据,标注表示训练数据是否为标题党数据;获取标注训练数据的文本统计特征和语义特征;根据标注训练数据中的文本统计特征和语义特征训练得到GBDT模型。其中,带有标注的训练数据优选可以从各类新闻客户端中获取到,具体的,可以从新闻客户端用户的评论中获取到相应的标题是否是标题党,如果相应标题是标题本文档来自技高网...
一种标题党识别方法和装置、服务器、存储介质

【技术保护点】
一种标题党识别方法,其特征在于,包括:提取标题的文本统计特征和语义特征;利用预先训练好的决策模型,将所述文本统计特征和语义特征作为决策模型的输入,输出所述标题的决策分值;将所述决策分值与第一预设阈值进行比较,根据比较结果确定所述标题是否为标题党。

【技术特征摘要】
1.一种标题党识别方法,其特征在于,包括:提取标题的文本统计特征和语义特征;利用预先训练好的决策模型,将所述文本统计特征和语义特征作为决策模型的输入,输出所述标题的决策分值;将所述决策分值与第一预设阈值进行比较,根据比较结果确定所述标题是否为标题党。2.根据权利要求1所述的方法,其特征在于,所述文本统计特征包括:标点符号个数、停用词个数、地域词个数、引诱词个数、代词个数或引诱片段个数中的至少一个。3.根据权利要求2所述的方法,其特征在于,提取标题的文本统计特征中的所述引诱片段个数,包括:根据所述标题中的标点符号对所述标题进行分割,得到至少一个分割短句;利用预先训练好的第一神经网络模型,计算每一个分割短句与引诱片段表中每个引诱片段的相似度分值,其中,所述引诱片段表中包含预先根据历史数据统计得到的多个引诱片段;比较所述相似度分值与第二预设阈值,根据比较结果确定每一个分割短句是否为引诱片段,并统计所述标题中引诱片段个数。4.根据权利要求3所述的方法,其特征在于,所述第一神经网络模型为RNN模型,所述RNN模型的训练过程包括:从搜索引擎的用户点击日志中,将用户有点击搜索结果作为正样本,将用户无点击搜索结果作为负样本;将一个所述正样本和一个所述负样本组成样本对,得到多个样本对;将所述多个样本对作为训练数据进行训练,并得到所述RNN模型参数。5.根据权利要求1所述的方法,其特征在于,所述提取标题的语义特征包括:利用预先训练好的第二神经网络模型,计算所述标题的语义分值作为所述语义特征,其中,所述语义分值表示所述标题是否为标题党的二分类计算得分。6.根据权利要求5所述的方法,其特征在于,所述第二神经网络模型为CNN模型,所述CNN模型的训练过程包括:获取带有标注的训练数据,所述标注表示训练数据是否为标题党数据;根据所述标注训练数据对CNN模型进行训练。7.根据权利要求1所述的方法,其特征在于,所述决策模型为GBDT模型,所述GBDT模型的训练过程包括:获取带有标注的训练数据,所述标注表示训练数据是否为标题党数据;获取所述标注训练数据的文本统计特征和语义特征;根据所述标注训练数据中的文本统计特征和语义特征训练得到GBDT模型。8.一种标题党识别装置,其特征在于,包括:特征提取模块,用于提取标题的文本统计特征和语义特征;决策评分模块,用于利用预先训练好的决策模型,将所述文本统计特征和语义特征作为决策模型的输入,输出所述标题的决策分值;分值比较模块,用于将所述决策分值与第一预设阈值进行比较,根据比较结果确定所述标题是否为标题党。9.根据权利要求8所述的装置,其特征在于,所述文本统计特征,包括:标点符号个数、停用词...

【专利技术属性】
技术研发人员:朱曼瑜董大祥李大任
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1