一种标题党识别方法和装置、服务器、存储介质制造方法及图纸

技术编号：16837373 阅读：42 留言：0更新日期：2017-12-19 19:54

本发明专利技术实施例公开了一种标题党识别方法和装置、服务器、存储介质。其中，标题党识别方法包括：提取标题的文本统计特征和语义特征，利用预先训练好的决策模型，将提取到的文本统计特征和语义特征作为决策模型的输入，输出标题的决策分值，并将决策分值与第一预设阈值进行比较，根据比较结果确定标题是否为标题党。本发明专利技术实施例通过多层次、多粒度、多角度的提取标题的文本统计特征和语义特征，并利用决策模型对文本统计特征和语义特征进行决策评分，最终确定标题是否为标题党，解决了现有标题党识别方法中误伤大、泛化能力差以及识别准确率不高的问题，具有准确率高、召回高的特点。

A title party identification method and device, server, storage medium

The embodiment of the invention discloses a title party identification method and device, a server and a storage medium. Among them, including the title of the party identification method: extract the title text statistical features and semantic features, and using pre decision model trained to extract the text, statistical features and semantic features as the input output decision model, the title of the decision points, and compare the value with the first preset threshold, according to the comparison results to determine the title is the title of the party. Extract the title the embodiment of the invention through multi-level, multi granularity and multi angle statistical features and semantic features of the text, and the text of decision Score statistical features and semantic features using decision model, and ultimately determine whether the title is the title of the party, the title of the party to solve the existing identification methods in accidental injury, poor generalization ability and recognition accuracy is not high, has the advantages of high accuracy, high recall.

全部详细技术资料下载

【技术实现步骤摘要】
一种标题党识别方法和装置、服务器、存储介质
本专利技术实施例涉及互联网
，尤其涉及一种标题党识别方法和装置、服务器、存储介质。
技术介绍
随着互联网的发展，互联网平台涌现出了很多的在线新闻媒体(内容生产商，包括专业媒体、自媒体等)，该类新闻媒体其收入与读者对它们所产生内容的点击量成正比。因此，为了获取高点击量、竞争优势、影响力以及高利润，该类新闻媒体往往会在所生产内容的标题上做文章，生产出与内容完全不符的标题，以吸引读者的注意力，这种标题为具有点击诱饵的标题(clickbaits)，即俗称的标题党。现有的标题党识别方法主要是基于统计的方法，例如通过统计标题中表示强烈情感的词语个数、停用词个数、副词个数、代词个数、标题长度以及标题句法树高度等特征，来确定标题是否属于标题党。但是，现有的基于统计的标题党识别方法存在误伤大、泛化能力差、识别准确率不高等问题，实际应用的效果并不理想。
技术实现思路
本专利技术实施例提供一种标题党识别方法和装置、服务器、存储介质，以解决现有的标题党识别方法中误伤大、泛化能力差、识别准确率不高的问题。第一方面，本专利技术实施例提供了一种标题党识别方法，该方法包括：提取标题的文本统计特征和语义特征；利用预先训练好的决策模型，将所述文本统计特征和语义特征作为决策模型的输入，输出所述标题的决策分值；将所述决策分值与第一预设阈值进行比较，根据比较结果确定所述标题是否为标题党。第二方面，本专利技术实施例还提供了一种标题党识别装置，该装置包括：特征提取模块，用于提取标题的文本统计特征和语义特征；决策评分模块，用于利用预先训练好的决策模型，将所述...
一种标题党识别方法和装置、服务器、存储介质

【技术保护点】
一种标题党识别方法，其特征在于，包括：提取标题的文本统计特征和语义特征；利用预先训练好的决策模型，将所述文本统计特征和语义特征作为决策模型的输入，输出所述标题的决策分值；将所述决策分值与第一预设阈值进行比较，根据比较结果确定所述标题是否为标题党。

【技术特征摘要】
1.一种标题党识别方法，其特征在于，包括：提取标题的文本统计特征和语义特征；利用预先训练好的决策模型，将所述文本统计特征和语义特征作为决策模型的输入，输出所述标题的决策分值；将所述决策分值与第一预设阈值进行比较，根据比较结果确定所述标题是否为标题党。2.根据权利要求1所述的方法，其特征在于，所述文本统计特征包括：标点符号个数、停用词个数、地域词个数、引诱词个数、代词个数或引诱片段个数中的至少一个。3.根据权利要求2所述的方法，其特征在于，提取标题的文本统计特征中的所述引诱片段个数，包括：根据所述标题中的标点符号对所述标题进行分割，得到至少一个分割短句；利用预先训练好的第一神经网络模型，计算每一个分割短句与引诱片段表中每个引诱片段的相似度分值，其中，所述引诱片段表中包含预先根据历史数据统计得到的多个引诱片段；比较所述相似度分值与第二预设阈值，根据比较结果确定每一个分割短句是否为引诱片段，并统计所述标题中引诱片段个数。4.根据权利要求3所述的方法，其特征在于，所述第一神经网络模型为RNN模型，所述RNN模型的训练过程包括：从搜索引擎的用户点击日志中，将用户有点击搜索结果作为正样本，将用户无点击搜索结果作为负样本；将一个所述正样本和一个所述负样本组成样本对，得到多个样本对；将所述多个样本对作为训练数据进行训练，并得到所述RNN模型参数。5.根据权利要求1所述的方法，其特征在于，所述提取标题的语义特征包括：利用预先训练好的第二神经网络模型，计算所述标题的语义分值作为所述语义特征，其中，所述语义分值表示所述标题是否为标题党的二分类计算得分。6.根据权利要求5所述的方法，其特征在于，所述第二神经网络模型为CNN模型，所述CNN模型的训练过程包括：获取带有标注的训练数据，所述标注表示训练数据是否为标题党数据；根据所述标注训练数据对CNN模型进行训练。7.根据权利要求1所述的方法，其特征在于，所述决策模型为GBDT模型，所述GBDT模型的训练过程包括：获取带有标注的训练数据，所述标注表示训练数据是否为标题党数据；获取所述标注训练数据的文本统计特征和语义特征；根据所述标注训练数据中的文本统计特征和语义特征训练得到GBDT模型。8.一种标题党识别装置，其特征在于，包括：特征提取模块，用于提取标题的文本统计特征和语义特征；决策评分模块，用于利用预先训练好的决策模型，将所述文本统计特征和语义特征作为决策模型的输入，输出所述标题的决策分值；分值比较模块，用于将所述决策分值与第一预设阈值进行比较，根据比较结果确定所述标题是否为标题党。9.根据权利要求8所述的装置，其特征在于，所述文本统计特征，包括：标点符号个数、停用词...

【专利技术属性】
技术研发人员：朱曼瑜，董大祥，李大任，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人