基于神经网络识别互联网网站所属业态的方法、装置以及计算机可读存储介质制造方法及图纸

技术编号:26891369 阅读:47 留言:0更新日期:2020-12-29 16:09
本发明专利技术提供一种基于神经网络识别互联网网站所属业态的方法、装置以及计算机可读存储介质。该方法包括:获取互联网网站业态的文本数据集,从所述文本数据集中提取文本特征词;基于所述文本特征词对所述文本特征词进行词向量化以获取词向量序列;将所述词向量序列分别输入递归神经网络及卷积神经网络模型,分别得到所述递归神经网络及卷积神经网络模型输出的目标特征向量,并将所述目标特征向量进行并联拼接;将已拼接的所述目标特征向量输入全连接神经网络,最后输出概率预测向量;查找所述概率预测向量中的最大值,并以所述最大值对应的业态作为所述互联网网站的所属业态。通过本发明专利技术,实现了高精度识别互联网网站的所属业态。

【技术实现步骤摘要】
基于神经网络识别互联网网站所属业态的方法、装置以及计算机可读存储介质
本专利技术涉及深度学习
,尤其涉及一种基于神经网络识别互联网网站所属业态的方法、装置以及计算机可读存储介质。
技术介绍
依托互联网的发展,近些年互联网平台和运营的网站数量暴增,给国家相关管理机构的有效监督管理带来了极大困难和挑战。发现新增互联网网站,成为监管的核心前提工作。对于传统的发现互联网平台网站的方法,一是通过企业主动上报,二是通过搜索引擎进行人工搜索这两种手段实现,其具有以下不足:一是,企业主动上报备案是基于企业相对规模较大且运营正规,但对于一大部分非法集资形式、网络诈骗形式、色情资源形式、暴力传销形式等违法犯罪平台,都不会主动上报备案,但这些平台恰恰是管理部门重点关注的对象。二是,通过搜索引擎搜索发现平台网站的手段,需要投入大量的人力,效率低下,且发现平台数量及其有限。如此一来,识别互联网网站的细分业态对于互联网监管而言尤为重要。现有技术中通常是基于机器学习的方法利用词袋模型对互联网网站的文本信息进行表示,从而识别互联网网站的所属业态,又或者是通过简单的卷积神经网络或循环神经网络识别互联网网站的所属业态。但这几种方式的前提默认了网站源码首页Head部分信息与Body部分信息的权重相同,但一般来说网站源码Head部分信息为精炼、上下文语义通顺的描述,Body信息为碎片化、上下文语义不通顺的文本描述且Body部分信息很容易导致信息冗余、信息的噪声,因此,Head信息与Body信息两者间的重要程度也需要有一个衡量标准,默认两者信息同等重要,在不分别对两部分信息进行处理且直接接入模型进行预测势必会导致识别准确率较低。
技术实现思路
本专利技术的主要目的在于提供一种基于神经网络识别互联网网站所属业态的方法及、装置以及计算机可读存储介质,旨在解决现有技术中对识别互联网网站所属业态进行识别的准确率较低的技术问题。为实现上述目的,本专利技术实施例提供一种基于神经网络识别互联网网站所属业态的方法,所述基于神经网络识别互联网网站所属业态的方法包括:获取互联网网站业态的文本数据集,从所述文本数据集中提取文本特征词;基于所述文本特征词对所述文本特征词进行词向量化以获取词向量序列;将所述词向量序列分别输入递归神经网络及卷积神经网络模型,分别得到所述递归神经网络及卷积神经网络模型输出的目标特征向量,并将所述目标特征向量进行并联拼接;将已拼接的所述目标特征向量输入全连接神经网络,最后输出概率预测向量;查找所述概率预测向量中的最大值,并以所述最大值对应的业态作为所述互联网网站的所属业态。可选的,所述获取互联网网站业态的文本数据集,从所述文本数据集中提取文本特征词包括:获取互联网网站的HTML源码;对所述互联网网站的HTML源码进行解析,得到互联网网站的首页源码数据作为互联网网站的文本数据集;对所述文本数据集进行预处理,所述预处理包括剔除网站的源码Body部分所述文本数据集中的无用字符、停用词,通过中文分词及关键词提取技术提取第一文本特征词和/或剔除网站的源码Head部分所述文本数据集中的无用字符、停用词,通过中文分词技术提取第二文本特征词。可选的,所述基于所述文本特征词对所述文本特征词进行词向量化以获取词向量序列包括:对所述文本特征词分别进行文本的向量化,生成与所述互联网网站对应的词向量序列可选地,所述基于所述文本特征词对所述文本特征词进行词向量化以获取词向量序列进一步包括:对所述第一文本特征词进行文本的向量化,得到第一词向量序列;对所述第二文本特征词进行文本的向量化,得到第二词向量序列。可选地,所述将所述词向量序列分别输入递归神经网络及卷积神经网络模型,分别得到所述递归神经网络及卷积神经网络模型输出的目标特征向量,并将所述目标特征向量进行并联拼接包括:将与所述互联网网站对应的词向量序列分别输入所述卷积神经网络模型及递归神经网络模型;对所述卷积神经网络及递归神经网络模型输出结果进行并联拼接。可选的,所述将所述词向量序列分别输入递归神经网络及卷积神经网络模型,分别得到所述递归神经网络及卷积神经网络模型输出的目标特征向量,并将所述目标特征向量进行并联拼接进一步包括:将所述第一词向量序列输入所述卷积神经网络模型,以供所述卷积神经网络模型对所述第一词向量序列进行运算,得到所述卷积神经网络模型输出的第一特征向量;将所述第二词向量序列输入所述递归神经网络模型,以供所述递归神经网络模型对所述第二词向量序列进行运算,得到所述递归神经网络模型输出的第二特征向量;将所述第一特征向量与所述第二特征向量进行拼接,得到第三特征向量。可选地,所述将已拼接的所述目标特征向量输入全连接神经网络,最后输出概率预测向量包括:对所述递归神经网络及卷积神经网络模型输出的拼接向量接入全连接神经网络层,最后输出目标特征向量,即概率预测向量。可选的,所述将已拼接的所述目标特征向量输入全连接神经网络,最后输出概率预测向量进一步包括:将所述第三特征向量接入随机失活层,得到第四特征向量。将所述第四特征向量接入全连接神经网络层,全连接神经网络层通过连接卷积神经网络及递归神经网络模型的输出结果,通过构造交叉熵构造损失函数及反向传播算法算法计算,实现了卷积神经网络和递归神经网络两部分内容的自主找权功能,自动对网站的Body及Head两部分内容赋予不同的权重,从而更好地表示文本的语义信息及语义信息的重要性程度,实现了高精度识别互联网网站的所属业态。最后输出维数为n的目标特征向量,即概率预测向量。此外,为实现上述目的,本专利技术实施例还提供一种识别互联网网站所属业态的装置,所述基于神经网络识别互联网网站所属业态的装置包括:预处理模块,用于获取互联网网站的文本数据集,从所述文本数据集中提取文本特征词;向量化模块,用于基于所述文本特征词对所述文本特征词进行词向量化以获取词向量序列;第一输入模块,用于将所述词向量序列分别输入递归神经网络及卷积神经网络模型,分别得到所述递归神经网络及卷积神经网络模型输出的目标特征向量,并将并将所述目标特征向量进行并联拼接;第二输入模块,用于将已拼接的所述目标特征向量输入全连接神经网络,最后输出概率预测向量;查找模块,用于查找所述概率预测向量中的最大值,并以所述最大值对应的业态作为所述互联网网站的所属业态。可选的,所述预处理模块用于:获取互联网网站的HTML源码;对所述互联网网站的HTML源码进行解析,得到互联网网站的首页源码数据作为互联网网站的文本数据集;对所述文本数据集进行预处理,所述预处理包括剔除网站的源码Body部分所述文本数据集中的无用字符、停用词,通过中文分词及关键词提取技术提取第一文本特征词和/或剔除网站的源码Head部分所述文本数据集中的无用字符、停用词,通过中文分词技术提取第二文本特征词。可选的,所述向量本文档来自技高网
...

【技术保护点】
1.一种基于神经网络识别互联网网站所属业态的方法,其特征在于,所述基于神经网络识别互联网网站所属业态的方法包括:/n获取互联网网站业态的文本数据集,从所述文本数据集中提取文本特征词;/n基于所述文本特征词对所述文本特征词进行词向量化以获取词向量序列;/n将所述词向量序列分别输入递归神经网络及卷积神经网络模型,分别得到所述递归神经网络及卷积神经网络模型输出的目标特征向量,并将所述目标特征向量进行并联拼接;/n将已拼接的所述目标特征向量输入全连接神经网络,最后输出概率预测向量;/n查找所述概率预测向量中的最大值,并以所述最大值对应的业态作为所述互联网网站的所属业态。/n

【技术特征摘要】
1.一种基于神经网络识别互联网网站所属业态的方法,其特征在于,所述基于神经网络识别互联网网站所属业态的方法包括:
获取互联网网站业态的文本数据集,从所述文本数据集中提取文本特征词;
基于所述文本特征词对所述文本特征词进行词向量化以获取词向量序列;
将所述词向量序列分别输入递归神经网络及卷积神经网络模型,分别得到所述递归神经网络及卷积神经网络模型输出的目标特征向量,并将所述目标特征向量进行并联拼接;
将已拼接的所述目标特征向量输入全连接神经网络,最后输出概率预测向量;
查找所述概率预测向量中的最大值,并以所述最大值对应的业态作为所述互联网网站的所属业态。


2.如权利要求1所述的基于神经网络识别互联网网站所属业态的方法,其特征在于,所述获取互联网网站业态的文本数据集,从所述文本数据集中提取文本特征词包括:
获取互联网网站的HTML源码;
对所述互联网网站的HTML源码进行解析,得到互联网网站的首页源码数据作为互联网网站的文本数据集;
对所述文本数据集进行预处理,所述预处理包括剔除网站的源码Body部分所述文本数据集中的无用字符、停用词,通过中文分词及关键词提取技术提取第一文本特征词和/或剔除网站的源码Head部分所述文本数据集中的无用字符、停用词,通过中文分词技术提取第二文本特征词。


3.如权利要求2所述的基于神经网络识别互联网网站所属业态的方法,其特征在于,所述基于所述文本特征词对所述文本特征词进行词向量化以获取词向量序列包括:
对所述文本特征词分别进行文本的向量化,生成与所述互联网网站对应的词向量序列。


4.如权利要求3所述的识别互联网网站所属业态的方法,其特征在于,所述将所述词向量序列分别输入递归神经网络及卷积神经网络模型,分别得到所述递归神经网络及卷积神经网络模型输出的目标特征向量,并将所述目标特征向量进行并联拼接包括:
将与所述互联网网站对应的词向量序列分别输入所述卷积神经网络模型及递归神经网络模型;
对所述卷积神经网络及递归神经网络模型输出结果进行并联拼接。


5.如权利要求2至4中任一项所述的基于神经网络识别互联网网站所属业态的方法,其特征在于,所述将已拼接的所述目标特征向量输入全连接神经网络,最后输出概率预测向量包括:
对所述递归神经网络及卷积神经网络模型输出的拼接向量接入全连接神经...

【专利技术属性】
技术研发人员:杨菁林吴震贺敏唐积强张露晨林绅文董琳马秀娟施力张林波陈梓瑄潘晓刘刚胡晓光周洋
申请(专利权)人:国家计算机网络与信息安全管理中心深圳市任子行科技开发有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1