一种文章属性识别方法以及电子设备技术

技术编号:21115962 阅读:22 留言:0更新日期:2019-05-16 09:03
本发明专利技术实施例公开了一种文章属性识别方法以及电子设备,所述方法包括将待识别文章进行向量化处理以转换为词袋向量,所述词袋向量所包括的任一数值为词语在所述待识别文章中的词频逆向文件频率TF‑IDF值,通过第一模型对所述词袋向量进行处理,获取所述第一预设模型输出的第一预测值,通过第二模型获取第二预测值或通过第三模型获取第三预测值,所述第二预测值和所述第三预测值用于指示所述待识别文章的属性。采用本实施例所示的方法,能够提升对文章属性识别的准确率以及效率。

【技术实现步骤摘要】
一种文章属性识别方法以及电子设备
本专利技术涉及通信
,尤其涉及的是一种文章属性识别方法以及电子设备。
技术介绍
随着互联网技术的发展,网络上的文章的数目越来越多,处于安全等多种考虑,需要识别出互联网上的垃圾文章。现有技术中,一般采用基于语义的深度学习方法来进行文章的识别,以确定出文章是否为垃圾文章,其中,深度学习方法会首先将文章转换为文本向量,即可根据所述文本向量对所述文章进行识别,基于语义的方法在构建文本向量时,将所有文本表示为固定长度的数值向量,如word2vec、sentence2vec方法等。Word2vec可以求得词语的向量,文本向量可以用核心词的向量变换得到;sentence2vec可以求得句子的向量,文本向量可以有文本中句子的向量组合得到。深度学习方法主要有循环神经网络(RecurrentNeuralNetworks,RNN),卷积神经网络(ConvolutionalNeuralNetwork,CNN)以及长短期记忆网络(LongShort-TermMemory,LSTM)等。采用现有技术所示的文章识别的缺陷在于,现有的基于深度学习方法的的文章识别方法训练所需资源多、耗时长,另外由于接口、语言兼容等原因,比较难达到实时性的要求。
技术实现思路
本专利技术实施例提供了一种文章属性识别方法以及电子设备,其能够提升对垃圾文章进行识别的效率和准确率。本专利技术实施例第一方面提供了一种文章属性识别方法,包括:将待识别文章进行向量化处理以转换为词袋向量,所述词袋向量所包括的任一数值为词语在所述待识别文章中的词频逆向文件频率TF-IDF值;通过第一模型对所述词袋向量进行处理,获取所述第一预设模型输出的第一预测值;通过第二模型对所述第一预测值以及所述待识别文章的文本特征进行处理,获取所述第二预设模型输出的第二预测值,或通过第三模型对所述第一预测值以及所述待识别文章的页面特征进行处理,获取所述第三预设模型输出的第三预测值,所述第二预测值和所述第三预测值用于指示所述待识别文章的属性。本专利技术实施例第二方面提供了一种电子设备,包括:第一处理单元,用于将待识别文章进行向量化处理以转换为词袋向量,所述词袋向量所包括的任一数值为词语在所述待识别文章中的词频逆向文件频率TF-IDF值;第二处理单元,用于通过第一模型对所述词袋向量进行处理,获取所述第一预设模型输出的第一预测值;第三处理单元,用于通过第二模型对所述第一预测值以及所述待识别文章的文本特征进行处理,获取所述第二预设模型输出的第二预测值,或通过第三模型对所述第一预测值以及所述待识别文章的页面特征进行处理,获取所述第三预设模型输出的第三预测值,所述第二预测值和所述第三预测值用于指示所述待识别文章的属性。本专利技术实施例第三方面提供了一种电子设备,包括:一个或多个中央处理器、存储器、总线系统、以及一个或多个程序,所述中央处理器和所述存储器通过所述总线系统相连;其中所述一个或多个程序被存储在所述存储器中,所述一个或多个程序包括指令,所述指令当被所述电子设备执行时使所述电子设备执行如本专利技术实施例第一方面所示的方法。本专利技术实施例第四方面提供了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当被电子设备执行时使所述电子设备执行如本专利技术实施例第一方面所示的方法。从以上技术方案可以看出,本专利技术实施例具有以下优点:本实施例所示在将待识别文章进行向量化处理以转换为词袋向量,通过第一模型对所述词袋向量进行处理,获取所述第一预设模型输出的第一预测值,且能够通过第二模型对所述第一预测值以及所述待识别文章的文本特征进行处理,获取所述第二预设模型输出的第二预测值,或通过第三模型对所述第一预测值以及所述待识别文章的页面特征进行处理,获取所述第三预设模型输出的第三预测值,所述第二预测值和所述第三预测值用于指示所述待识别文章的属性,其中,所述第二预测值和所述第三预测值可指示出所述待识别文章是垃圾文章还是正常文章,且能够提升对待识别文章识别的准确率以及效率,避免了检索到垃圾文章的可能性。附图说明图1为本专利技术所提供的电子设备的一种实施例结构示意图;图2为本专利技术所提供的文章属性识别方法的一种实施例步骤流程图;图3为本专利技术所提供的电子设备的显示界面的一种实施例示意图;图4为本专利技术所提供的文章属性识别方法的另一种实施例步骤流程图;图5为本专利技术所提供的电子设备的一种实施例结构示意图。具体实施方式本申请提供了一种文章属性识别方法,本申请所示的所述文章属性识别方法应用至电子设备上,即由所述电子设备执行所述文章属性识别方法,从而使得电子设备能够识别出文章的属性。具体的,所述属性为所述文章是正常文章,或所述属性为所述文章为垃圾文章。本申请所示的垃圾文章可为涉及黄赌毒、垃圾广告、恶意营销等的文章。以下首先结合图1所示对能够执行所述文章属性识别方法的所述电子设备的具体结构进行详细说明:本实施例所提供的电子设备100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央中央处理器(centralprocessingunits,CPU)122(例如,一个或一个以上中央处理器)和存储器132,一个或一个以上存储应用程序142或数据144的存储介质130(例如一个或一个以上海量存储设备)。其中,存储器132和存储介质130可以是短暂存储或持久存储。存储在存储介质130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对电子设备中的一系列指令操作。更进一步地,中央中央处理器122可以设置为与存储介质130通信,在电子设备100上执行存储介质130中的一系列指令操作。电子设备100还可以包括一个或一个以上电源126,一个或一个以上有线或无线网络接口150,一个或一个以上输入输出接口158,和/或,一个或一个以上操作系统141,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM等等。基于图1所示的电子设备,以下对电子设备执行本实施例所示的文章属性识别方法的具体执行流程进行说明:本实施例所示的本章属性识别方法,具体包括两个执行流程,第一个执行流程用于进行模型训练,第二执行流程基于已训练完成的模型进行文章属性的识别,从而判断出文章是否为垃圾文章。以下首先结合图2所示对所述电子设备如何进行模型训练的进行详细说明:其中,图2为本专利技术所提供的文章属性识别方法的一种实施例步骤流程图。步骤201、所述电子设备接收第一待测试数据集S1。以下对所述第一待测试数据集S1进行详细说明:本实施例所示的所述第一待测试数据集S1包括有多篇文章,且所述第一待测试数据集S1所包括的任一文章所包括的文本为长文本,即所述第一待测试数据集所包括的任一文章的文本量大于或等于目标数值。本实施例所示的文本量可为如下所示的至少一项:字数,词汇数,分词数,短语数以及短句数等。本实施例以所述文本量为字数为例进行示例性说明,需明确的是,本实施例对所述文本量的说明为可选的示例,不做限定,只要所述文本量能够度量出文章是否为长文本即可。本实施例对所述目标数值做限定,例如,所述目标数值为大于或等于150,即本实施例所示的所述第一待测试数据集所包括的任一文章的字数大于或等于150个字。本本文档来自技高网...

【技术保护点】
1.一种文章属性识别方法,其特征在于,包括:将待识别文章进行向量化处理以转换为词袋向量,所述词袋向量所包括的任一数值为词语在所述待识别文章中的词频逆向文件频率TF‑IDF值;通过第一模型对所述词袋向量进行处理,获取所述第一预设模型输出的第一预测值;通过第二模型对所述第一预测值以及所述待识别文章的文本特征进行处理,获取所述第二预设模型输出的第二预测值,或通过第三模型对所述第一预测值以及所述待识别文章的页面特征进行处理,获取所述第三预设模型输出的第三预测值,所述第二预测值和所述第三预测值用于指示所述待识别文章的属性。

【技术特征摘要】
1.一种文章属性识别方法,其特征在于,包括:将待识别文章进行向量化处理以转换为词袋向量,所述词袋向量所包括的任一数值为词语在所述待识别文章中的词频逆向文件频率TF-IDF值;通过第一模型对所述词袋向量进行处理,获取所述第一预设模型输出的第一预测值;通过第二模型对所述第一预测值以及所述待识别文章的文本特征进行处理,获取所述第二预设模型输出的第二预测值,或通过第三模型对所述第一预测值以及所述待识别文章的页面特征进行处理,获取所述第三预设模型输出的第三预测值,所述第二预测值和所述第三预测值用于指示所述待识别文章的属性。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:判断所述待识别文章的文本量是否大于或等于目标数值;若是,则触发执行通过第二模型对所述第一预测值以及所述待识别文章的文本特征进行处理的步骤;若否,则触发执行通过第三模型对所述第一预测值以及所述待识别文章的页面特征进行处理的步骤。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:接收第一待测试数据集,所述第一待测试数据集所包括的任一文章的文本量大于或等于所述目标数值,所述第一待测试数据集包括M个正类属性的文章以及N个负类属性的文章,所述M以及所述N为大于1的正整数;获取分词处理后的所述第一待测试数据集;计算分词处理后的所述第一待测试数据集所包括的任一词语的所述TF-IDF值;将所述M个正类属性的文章所包括的词语与所述N个负类属性的文章所包括的词语去重后得到第一测试词袋向量,所述第一测试词袋向量所包括的任一数值为词语在所述第一待测试数据集中的所述TF-IDF值;通过逻辑回归LR模型对所述第一测试词袋向量进行处理,得到所述第一预设模型。4.根据权利要求3所述的方法,其特征在于,所述将所述M个正类属性的文章所包括的词语与所述N个负类属性的文章所包括的词语去重后得到第一测试词袋向量包括:确定第一排序列表,所述第一排序列表包括所述M个正类属性的文章所包括的词语,且所述第一排序列表按照词语的所述TF-IDF值由大到小的顺序进行排序;确定第二排序列表,所述第二排序列表包括所述N个负类属性的文章所包括的词语,且所述第二排序列表按照词语的所述TF-IDF值由大到小的顺序进行排序;将所述第一排序列表中排序在前A位的词语与所述第二排序列表中排序在前B位的词语去重后得到第一测试词袋向量,所述A以及所述B为大于1的正整数。5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:抽取所述第一待测试数据集的文本特征;通过逻辑回归LR模型对所述第一待测试数据集的文本特征和所述第一测试词袋向量的预测值进行处理,获取所述第二预设模型。6.根据权利要求2所述的方法,其特征在于,所述方法还包括:接收第二待测试数据集,所述第二待测试数据集所包括的任一文章的文本量小于所述目标数值,所述第二待测试数据集包括M个正类属性的文章以及N个负类属性的文章;获取分词处理后的所述第二待测试数据集;计算分词处理后的所述第二待测试数据集所包括的任一词语的所述TF-IDF值;将所述M个正类属性的文章所包括的词语与所述N个负类属性的文章所包括的词语去重后得到第二测试词袋向量,所述第二测试词袋向量所包括的任一数值为词语在所述第二待测试数据集中的所述TF-IDF值;抽取所述第二待测试数据集的页面特征;通...

【专利技术属性】
技术研发人员:许鸿黄明辉卓居超
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1