【技术实现步骤摘要】
一种文章属性识别方法以及电子设备
本专利技术涉及通信
,尤其涉及的是一种文章属性识别方法以及电子设备。
技术介绍
随着互联网技术的发展,网络上的文章的数目越来越多,处于安全等多种考虑,需要识别出互联网上的垃圾文章。现有技术中,一般采用基于语义的深度学习方法来进行文章的识别,以确定出文章是否为垃圾文章,其中,深度学习方法会首先将文章转换为文本向量,即可根据所述文本向量对所述文章进行识别,基于语义的方法在构建文本向量时,将所有文本表示为固定长度的数值向量,如word2vec、sentence2vec方法等。Word2vec可以求得词语的向量,文本向量可以用核心词的向量变换得到;sentence2vec可以求得句子的向量,文本向量可以有文本中句子的向量组合得到。深度学习方法主要有循环神经网络(RecurrentNeuralNetworks,RNN),卷积神经网络(ConvolutionalNeuralNetwork,CNN)以及长短期记忆网络(LongShort-TermMemory,LSTM)等。采用现有技术所示的文章识别的缺陷在于,现有的基于深度学习方法的的文章识别方法训练所需资源多、耗时长,另外由于接口、语言兼容等原因,比较难达到实时性的要求。
技术实现思路
本专利技术实施例提供了一种文章属性识别方法以及电子设备,其能够提升对垃圾文章进行识别的效率和准确率。本专利技术实施例第一方面提供了一种文章属性识别方法,包括:将待识别文章进行向量化处理以转换为词袋向量,所述词袋向量所包括的任一数值为词语在所述待识别文章中的词频逆向文件频率TF-IDF值;通过第一模型 ...
【技术保护点】
1.一种文章属性识别方法,其特征在于,包括:将待识别文章进行向量化处理以转换为词袋向量,所述词袋向量所包括的任一数值为词语在所述待识别文章中的词频逆向文件频率TF‑IDF值;通过第一模型对所述词袋向量进行处理,获取所述第一预设模型输出的第一预测值;通过第二模型对所述第一预测值以及所述待识别文章的文本特征进行处理,获取所述第二预设模型输出的第二预测值,或通过第三模型对所述第一预测值以及所述待识别文章的页面特征进行处理,获取所述第三预设模型输出的第三预测值,所述第二预测值和所述第三预测值用于指示所述待识别文章的属性。
【技术特征摘要】
1.一种文章属性识别方法,其特征在于,包括:将待识别文章进行向量化处理以转换为词袋向量,所述词袋向量所包括的任一数值为词语在所述待识别文章中的词频逆向文件频率TF-IDF值;通过第一模型对所述词袋向量进行处理,获取所述第一预设模型输出的第一预测值;通过第二模型对所述第一预测值以及所述待识别文章的文本特征进行处理,获取所述第二预设模型输出的第二预测值,或通过第三模型对所述第一预测值以及所述待识别文章的页面特征进行处理,获取所述第三预设模型输出的第三预测值,所述第二预测值和所述第三预测值用于指示所述待识别文章的属性。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:判断所述待识别文章的文本量是否大于或等于目标数值;若是,则触发执行通过第二模型对所述第一预测值以及所述待识别文章的文本特征进行处理的步骤;若否,则触发执行通过第三模型对所述第一预测值以及所述待识别文章的页面特征进行处理的步骤。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:接收第一待测试数据集,所述第一待测试数据集所包括的任一文章的文本量大于或等于所述目标数值,所述第一待测试数据集包括M个正类属性的文章以及N个负类属性的文章,所述M以及所述N为大于1的正整数;获取分词处理后的所述第一待测试数据集;计算分词处理后的所述第一待测试数据集所包括的任一词语的所述TF-IDF值;将所述M个正类属性的文章所包括的词语与所述N个负类属性的文章所包括的词语去重后得到第一测试词袋向量,所述第一测试词袋向量所包括的任一数值为词语在所述第一待测试数据集中的所述TF-IDF值;通过逻辑回归LR模型对所述第一测试词袋向量进行处理,得到所述第一预设模型。4.根据权利要求3所述的方法,其特征在于,所述将所述M个正类属性的文章所包括的词语与所述N个负类属性的文章所包括的词语去重后得到第一测试词袋向量包括:确定第一排序列表,所述第一排序列表包括所述M个正类属性的文章所包括的词语,且所述第一排序列表按照词语的所述TF-IDF值由大到小的顺序进行排序;确定第二排序列表,所述第二排序列表包括所述N个负类属性的文章所包括的词语,且所述第二排序列表按照词语的所述TF-IDF值由大到小的顺序进行排序;将所述第一排序列表中排序在前A位的词语与所述第二排序列表中排序在前B位的词语去重后得到第一测试词袋向量,所述A以及所述B为大于1的正整数。5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:抽取所述第一待测试数据集的文本特征;通过逻辑回归LR模型对所述第一待测试数据集的文本特征和所述第一测试词袋向量的预测值进行处理,获取所述第二预设模型。6.根据权利要求2所述的方法,其特征在于,所述方法还包括:接收第二待测试数据集,所述第二待测试数据集所包括的任一文章的文本量小于所述目标数值,所述第二待测试数据集包括M个正类属性的文章以及N个负类属性的文章;获取分词处理后的所述第二待测试数据集;计算分词处理后的所述第二待测试数据集所包括的任一词语的所述TF-IDF值;将所述M个正类属性的文章所包括的词语与所述N个负类属性的文章所包括的词语去重后得到第二测试词袋向量,所述第二测试词袋向量所包括的任一数值为词语在所述第二待测试数据集中的所述TF-IDF值;抽取所述第二待测试数据集的页面特征;通...
【专利技术属性】
技术研发人员:许鸿,黄明辉,卓居超,
申请(专利权)人:深圳市腾讯计算机系统有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。