【技术实现步骤摘要】
基于机器学习的文本分类方法及终端设备
本专利技术属于计算机
,尤其涉及一种基于机器学习的文本分类方法及终端设备。
技术介绍
随着互联网技术的发展,web(万维网)信息急速膨胀,给人们提供了非常丰富的网络资源,与此同时,由于web数据存在多样复杂性、动态性强等特点,使得人们无法快速找到有效的信息并加以利用。通过web信息采集技术可以帮助人们迅速获取互联网上的资源,它是通过网络爬虫程序来分析网页的HTML(HyperTextMark-upLanguage,超文本标记语言)代码,获取网页的超级链接信息,使用广度优先搜索算法和增量存储算法,实现自动的连续分析链接和抓取文件。对网络爬虫爬取到的文档进行分类具有诸多好处,例如可通过网络爬虫为某一特定行业提供系统收集服务,根据爬虫爬取到的页面进行归类于统计分析,及时向用户推送分类后的有效信息等。然而,现有技术没有针对网络爬虫爬取到的文档进行有效分类的方法。
技术实现思路
有鉴于此,本专利技术实施例提供了一种基于机器学习的文本分类方法及终端设备,以解决现有技术中无法对爬虫爬取到的文档进行精准分类的问题。本专利技术实施例的第一方面提供了一种基于机器学习的文本分类方法,包括:通过网络爬虫抓取多个网页;针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本;对所述网页的URL和锚文本进行处理,获得第一词组集合;根据所述第一词组集合和预设置的第二词组集合,计算所述网页与预设类别的相关度,其中,所述第二词组集合中的词组用于标识所述预设类别;若所述网页与预设类别的相关度大于第一预设值,则对所述网页进行处理得到网页文 ...
【技术保护点】
1.一种基于机器学习的文本分类方法,其特征在于,该方法包括:通过网络爬虫抓取多个网页;针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本;对所述网页的URL和锚文本进行处理,获得第一词组集合;根据所述第一词组集合和预设置的第二词组集合,计算所述网页与预设类别的相关度,其中,所述第二词组集合中的词组用于标识所述预设类别;若所述网页与预设类别的相关度大于第一预设值,则对所述网页进行处理得到网页文本;获取预设训练集,针对所述训练集中的任一文本,所述文本为经过人工分类的文本,所述文本标注有对应的子类别,所述子类别为预设子类别列表中的一种子类别,所述预设子类别列表中的所有子类别构成所述预设类别;通过所述训练集对预设置的深度神经网络文本分类模型进行训练,直至达到预设的训练终止条件,通过所述深度神经网络文本分类模型对所述网页文本进行文本分类处理,得到所述网页的子类别。
【技术特征摘要】
1.一种基于机器学习的文本分类方法,其特征在于,该方法包括:通过网络爬虫抓取多个网页;针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本;对所述网页的URL和锚文本进行处理,获得第一词组集合;根据所述第一词组集合和预设置的第二词组集合,计算所述网页与预设类别的相关度,其中,所述第二词组集合中的词组用于标识所述预设类别;若所述网页与预设类别的相关度大于第一预设值,则对所述网页进行处理得到网页文本;获取预设训练集,针对所述训练集中的任一文本,所述文本为经过人工分类的文本,所述文本标注有对应的子类别,所述子类别为预设子类别列表中的一种子类别,所述预设子类别列表中的所有子类别构成所述预设类别;通过所述训练集对预设置的深度神经网络文本分类模型进行训练,直至达到预设的训练终止条件,通过所述深度神经网络文本分类模型对所述网页文本进行文本分类处理,得到所述网页的子类别。2.根据权利要求1所述的文本分类方法,其特征在于,所述第二词组包括m个词组,所述根据所述第一词组集合和预设置的第二词组集合,计算所述网页与所述预设类别的相关度包括:获取第一词组集合中属于第二词组集合的词组的个数n;根据n与m的比值,计算所述网页与所述预设类别的相关度。3.根据权利要求1所述的文本分类方法,其特征在于,在将所述网页文本进行文本分类处理之后,该方法还包括:将所述网页的URL放入预设数据库;通过所述网络爬虫按照预设时间间隔抓取所述预设类别的网页;针对所述网络爬虫抓取到的任一网页,根据所述网页的URL判断所述网页的URL是否属于预设数据库中的URL;若所述网页的URL属于预设数据库中的URL,则丢弃所述网页。4.根据权利要求3所述的文本分类方法,其特征在于,在丢弃所述网页之前,该方法还包括:在所述预设数据库中为所述网页的URL、所述网页所对应的网页文本的子类别和抓取所述网页的时间建立唯一映射关系;判断预设数据库中存储的抓取所述网页的时间和此次抓取所述网页的时间之间,所述网页是否存在更新;若所述网页存在更新,则通过所述深度神经网络文本分类模型对所述网页的网页文本进行分类处理,并在所述预设数据库中更新所述网页的URL、所述网页所对应的子类别和抓取所述网页的时间的唯一映射关系;若所述网页不存在更新,则丢弃所述网页。5.根据权利要求1-4任一项所述的文本分类方法,其特征在于,所述深度神经网络文本分类模型包括4层,分别为输入层、第一隐藏层、第二隐藏层和输出层,所述输入层的输入为所述网页文本所对应的特征向量,所述第一隐藏层包括第一预设数目的节...
【专利技术属性】
技术研发人员:吴壮伟,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。