基于神经网络识别互联网网站所属业态的方法、装置以及计算机可读存储介质制造方法及图纸

技术编号：26891369 阅读：47 留言：0更新日期：2020-12-29 16:09

本发明专利技术提供一种基于神经网络识别互联网网站所属业态的方法、装置以及计算机可读存储介质。该方法包括：获取互联网网站业态的文本数据集，从所述文本数据集中提取文本特征词；基于所述文本特征词对所述文本特征词进行词向量化以获取词向量序列；将所述词向量序列分别输入递归神经网络及卷积神经网络模型，分别得到所述递归神经网络及卷积神经网络模型输出的目标特征向量，并将所述目标特征向量进行并联拼接；将已拼接的所述目标特征向量输入全连接神经网络，最后输出概率预测向量；查找所述概率预测向量中的最大值，并以所述最大值对应的业态作为所述互联网网站的所属业态。通过本发明专利技术，实现了高精度识别互联网网站的所属业态。

全部详细技术资料下载

【技术实现步骤摘要】
基于神经网络识别互联网网站所属业态的方法、装置以及计算机可读存储介质
本专利技术涉及深度学习
，尤其涉及一种基于神经网络识别互联网网站所属业态的方法、装置以及计算机可读存储介质。
技术介绍
依托互联网的发展，近些年互联网平台和运营的网站数量暴增，给国家相关管理机构的有效监督管理带来了极大困难和挑战。发现新增互联网网站，成为监管的核心前提工作。对于传统的发现互联网平台网站的方法，一是通过企业主动上报，二是通过搜索引擎进行人工搜索这两种手段实现，其具有以下不足：一是，企业主动上报备案是基于企业相对规模较大且运营正规，但对于一大部分非法集资形式、网络诈骗形式、色情资源形式、暴力传销形式等违法犯罪平台，都不会主动上报备案，但这些平台恰恰是管理部门重点关注的对象。二是，通过搜索引擎搜索发现平台网站的手段，需要投入大量的人力，效率低下，且发现平台数量及其有限。如此一来，识别互联网网站的细分业态对于互联网监管而言尤为重要。现有技术中通常是基于机器学习的方法利用词袋模型对互联网网站的文本信息进行表示，从而识别互联网网站的所属业态，又或者是通过简单的卷积神经网络或循环神经网络识别互联网网站的所属业态。但这几种方式的前提默认了网站源码首页Head部分信息与Body部分信息的权重相同，但一般来说网站源码Head部分信息为精炼、上下文语义通顺的描述，Body信息为碎片化、上下文语义不通顺的文本描述且Body部分信息很容易导致信息冗余、信息的噪声，因此，Head信息与Body信息两者间的重要程度也需要有一个衡量标准，默认...

【技术保护点】
1.一种基于神经网络识别互联网网站所属业态的方法，其特征在于，所述基于神经网络识别互联网网站所属业态的方法包括：/n获取互联网网站业态的文本数据集，从所述文本数据集中提取文本特征词；/n基于所述文本特征词对所述文本特征词进行词向量化以获取词向量序列；/n将所述词向量序列分别输入递归神经网络及卷积神经网络模型，分别得到所述递归神经网络及卷积神经网络模型输出的目标特征向量，并将所述目标特征向量进行并联拼接；/n将已拼接的所述目标特征向量输入全连接神经网络，最后输出概率预测向量；/n查找所述概率预测向量中的最大值，并以所述最大值对应的业态作为所述互联网网站的所属业态。/n

【技术特征摘要】
1.一种基于神经网络识别互联网网站所属业态的方法，其特征在于，所述基于神经网络识别互联网网站所属业态的方法包括：
获取互联网网站业态的文本数据集，从所述文本数据集中提取文本特征词；
基于所述文本特征词对所述文本特征词进行词向量化以获取词向量序列；
将所述词向量序列分别输入递归神经网络及卷积神经网络模型，分别得到所述递归神经网络及卷积神经网络模型输出的目标特征向量，并将所述目标特征向量进行并联拼接；
将已拼接的所述目标特征向量输入全连接神经网络，最后输出概率预测向量；
查找所述概率预测向量中的最大值，并以所述最大值对应的业态作为所述互联网网站的所属业态。

2.如权利要求1所述的基于神经网络识别互联网网站所属业态的方法，其特征在于，所述获取互联网网站业态的文本数据集，从所述文本数据集中提取文本特征词包括：
获取互联网网站的HTML源码；
对所述互联网网站的HTML源码进行解析，得到互联网网站的首页源码数据作为互联网网站的文本数据集；
对所述文本数据集进行预处理，所述预处理包括剔除网站的源码Body部分所述文本数据集中的无用字符、停用词，通过中文分词及关键词提取技术提取第一文本特征词和/或剔除网站的源码Head部分所述文本数据集中的无用字符、停用词，通过中文分词技术提取第二文本特征词。

3.如权利要求2所述的基于神经网络识别互联网网站所属业态的方法，其特征在于，所述基于所述文本特征词对所述文本特征词进行词向量化以获取词向量序列包括：
对所述文本特征词分别进行文本的向量化，生成与所述互联网网站对应的词向量序列。

4.如权利要求3所述的识别互联网网站所属业态的方法，其特征在于，所述将所述词向量序列分别输入递归神经网络及卷积神经网络模型，分别得到所述递归神经网络及卷积神经网络模型输出的目标特征向量，并将所述目标特征向量进行并联拼接包括：
将与所述互联网网站对应的词向量序列分别输入所述卷积神经网络模型及递归神经网络模型；
对所述卷积神经网络及递归神经网络模型输出结果进行并联拼接。

5.如权利要求2至4中任一项所述的基于神经网络识别互联网网站所属业态的方法，其特征在于，所述将已拼接的所述目标特征向量输入全连接神经网络，最后输出概率预测向量包括：
对所述递归神经网络及卷积神经网络模型输出的拼接向量接入全连接神经...

【专利技术属性】
技术研发人员：杨菁林，吴震，贺敏，唐积强，张露晨，林绅文，董琳，马秀娟，施力，张林波，陈梓瑄，潘晓，刘刚，胡晓光，周洋，
申请(专利权)人：国家计算机网络与信息安全管理中心，深圳市任子行科技开发有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人