【技术实现步骤摘要】
一种基于多语言的数据挖掘方法
本专利技术涉及用于处理跨域的大数据网站的挖掘技术。
技术介绍
截止到2016年9月,全球互联网网站数量已超过11.6亿,并且这个数字目前还在不断增加,另外互联网网民的数量也将突破40亿大关。2016年我们每天在互联网产生至少4EB的数据。针对如此庞大的数据资源,通过人工方式获取已不能满足需求。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于多语言的数据挖掘方法,能够提高数据识别效率和准确性,解决
技术介绍
中的问题。本专利技术解决上述技术问题所采用的技术方案是:一种基于多语言的数据挖掘方法,包括以下步骤:(1)登入载有数据资料的网站;(2)识别网站语言;(3)采集网站数据资料;(4)利用分类器对数据资料进行分类;(5)将分类后的数据按照类别不同分别存放。进一步地,上述步骤中使用到的分类器,需要预先经过训练,训练的步骤具体包括:收集数据,将数据按照一定的比例分为训练集和测试集,利用训练集对分类器进行分类,然后再用测试集对训练结果进行评估,当分类误差和精度达到一定阈值时,判断为训练结束。进一步地,采集网站数据资料具体包括以下步骤:(3.1)识别数据源;(3.2)判断该数据源是否已被采集,如果已被采集,则直接存入已采集数据库,如果未被采集,进入下一步;(3.3)利用Scrapy框架对数据进行采集,并将采集到的数据存入已采集数据库;(3.4)根据Scrapy框架中的Response数据判断该数据来源的网站是否属于目标类型网站。本专利技术的有益效果是:本专利技术能够自动识别语种,然后进行对应的采集,将采集的内容按照语种的不同进行存入库 ...
【技术保护点】
一种基于多语言的数据挖掘方法,其特征是,包括以下步骤:(1)登入载有数据资料的网站;(2)识别网站语言;(3)采集网站数据资料;(4)利用分类器对数据资料进行分类;(5)将分类后的数据按照类别不同分别存放。
【技术特征摘要】
1.一种基于多语言的数据挖掘方法,其特征是,包括以下步骤:(1)登入载有数据资料的网站;(2)识别网站语言;(3)采集网站数据资料;(4)利用分类器对数据资料进行分类;(5)将分类后的数据按照类别不同分别存放。2.根据权利要求1所述的一种基于多语言的数据挖掘方法,其特征是,该方法还包括对分类器进行训练的步骤,具体包括:收集数据,将数据按照一定的比例分为训练集和测试集,利用训练集对分类器进行分类,然后再用测试集对训练结果进行评估,当分类...
【专利技术属性】
技术研发人员:王晓东,
申请(专利权)人:中译语通科技青岛有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。