基于机器学习的文本分类方法及终端设备技术

技术编号:20242387 阅读:33 留言:0更新日期:2019-01-29 23:21
本发明专利技术提供了一种基于机器学习的文本分类方法及终端设备,通过网络爬虫抓取多个网页;针对多个网页中的任一网页,获取网页的统一资源定位符URL和锚文本;对网页的URL和锚文本进行处理,获得第一词组集合;根据第一词组集合和预设置的第二词组集合,计算网页与预设类别的相关度;对与预设类别的相关度大于第一预设值的网页进行处理得到网页文本;通过预设训练集对预设置的深度神经网络文本分类模型进行训练,并通过深度神经网络文本分类模型对网页文本进行文本分类处理,得到网页的子类别。本发明专利技术通过与预设类别相对应的文本分类模型,对与该预设类别相关度大于第一预设值的网页文本进行分类,得到该网页文本的子类别,提高了网页文本的分类精度。

【技术实现步骤摘要】
基于机器学习的文本分类方法及终端设备
本专利技术属于计算机
,尤其涉及一种基于机器学习的文本分类方法及终端设备。
技术介绍
随着互联网技术的发展,web(万维网)信息急速膨胀,给人们提供了非常丰富的网络资源,与此同时,由于web数据存在多样复杂性、动态性强等特点,使得人们无法快速找到有效的信息并加以利用。通过web信息采集技术可以帮助人们迅速获取互联网上的资源,它是通过网络爬虫程序来分析网页的HTML(HyperTextMark-upLanguage,超文本标记语言)代码,获取网页的超级链接信息,使用广度优先搜索算法和增量存储算法,实现自动的连续分析链接和抓取文件。对网络爬虫爬取到的文档进行分类具有诸多好处,例如可通过网络爬虫为某一特定行业提供系统收集服务,根据爬虫爬取到的页面进行归类于统计分析,及时向用户推送分类后的有效信息等。然而,现有技术没有针对网络爬虫爬取到的文档进行有效分类的方法。
技术实现思路
有鉴于此,本专利技术实施例提供了一种基于机器学习的文本分类方法及终端设备,以解决现有技术中无法对爬虫爬取到的文档进行精准分类的问题。本专利技术实施例的第一方面提供了一种基于机器学习的文本分类方法,包括:通过网络爬虫抓取多个网页;针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本;对所述网页的URL和锚文本进行处理,获得第一词组集合;根据所述第一词组集合和预设置的第二词组集合,计算所述网页与预设类别的相关度,其中,所述第二词组集合中的词组用于标识所述预设类别;若所述网页与预设类别的相关度大于第一预设值,则对所述网页进行处理得到网页文本;获取预设训练集,针对所述训练集中的任一文本,所述文本为经过人工分类的文本,所述文本标注有对应的子类别,所述子类别为预设子类别列表中的一种子类别,所述预设子类别列表中的所有子类别构成所述预设类别;通过所述训练集对预设置的深度神经网络文本分类模型进行训练,直至达到预设的训练终止条件,通过所述深度神经网络文本分类模型对所述网页文本进行文本分类处理,得到所述网页的子类别。本专利技术实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:通过网络爬虫抓取多个网页;针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本;对所述网页的URL和锚文本进行处理,获得第一词组集合;根据所述第一词组集合和预设置的第二词组集合,计算所述网页与预设类别的相关度,其中,所述第二词组集合中的词组用于标识所述预设类别;若所述网页与预设类别的相关度大于第一预设值,则对所述网页进行处理得到网页文本;获取预设训练集,针对所述训练集中的任一文本,所述文本为经过人工分类的文本,所述文本标注有对应的子类别,所述子类别为预设子类别列表中的一种子类别,所述预设子类别列表中的所有子类别构成所述预设类别;通过所述训练集对预设置的深度神经网络文本分类模型进行训练,直至达到预设的训练终止条件,通过所述深度神经网络文本分类模型对所述网页文本进行文本分类处理,得到所述网页的子类别。本专利技术实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:通过网络爬虫抓取多个网页;针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本;对所述网页的URL和锚文本进行处理,获得第一词组集合;根据所述第一词组集合和预设置的第二词组集合,计算所述网页与预设类别的相关度,其中,所述第二词组集合中的词组用于标识所述预设类别;若所述网页与预设类别的相关度大于第一预设值,则对所述网页进行处理得到网页文本;获取预设训练集,针对所述训练集中的任一文本,所述文本为经过人工分类的文本,所述文本标注有对应的子类别,所述子类别为预设子类别列表中的一种子类别,所述预设子类别列表中的所有子类别构成所述预设类别;通过所述训练集对预设置的深度神经网络文本分类模型进行训练,直至达到预设的训练终止条件,通过所述深度神经网络文本分类模型对所述网页文本进行文本分类处理,得到所述网页的子类别。本专利技术提供了一种基于机器学习的文本分类方法及终端设备,本专利技术建立与预设类别相对应的文本分类模型,并通过该文本分类模型对与该预设类别相关度大于第一预设值的网页文本进行分类,得到该网页文本的子类别,该网页文本的子类别是预设类别的一种子类别,从而提高了网页文本的分类精度。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种基于机器学习的文本分类方法的流程示意图;图2为本专利技术实施例提供的另一种基于机器学习的文本分类方法的流程示意图;图3为本专利技术实施例提供的又一种基于机器学习的文本分类方法的流程示意图;图4为本专利技术实施例提供的一种基于机器学习的文本分类装置的结构框图;图5为本专利技术实施例提供的一种终端设备示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。本专利技术实施例提供了一种基于机器学习的文本分类方法。结合图1,该方法包括:S101,通过网络爬虫抓取多个网页。可选的,可通过类别爬行系统抓取预设类别的网页,类别爬行系统是基于类别信息驱动的web数据采集系统,通过基于类别的网络爬虫,可爬取与类别相关的网页。在本专利技术实施例中,可预设类别,将预设类别作为输入,编写对应的爬虫程序,并将爬虫代码封装到docker容器中,上传到云服务器。当需要一个子服务器对该预设类别的内容进行爬取时,子服务器在云服务器下载该docker容器,实现对该预设类别网页的爬取。S102,针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本。网络爬虫爬取到的每一个网页都对应有一个URL(UniformResourceLocator,统一资源定位符)和锚文本,该网页的URL和锚文本中包含有用来描述该网页的文本信息。S103,对所述网页的URL和锚文本进行处理,获得第一词组集合。对网页的URL和锚文本进行处理的过程至少包括:进行分词处理,去除预设停用词,如“的”“了”以及其他与网页关联度较小的词,去除标点符号,进一步的,还可以进行词频分析,按照词频降序排序,去除排在后预设比例,如排除后10%的词汇,得到第一词组集合。具体的,本专利技术实施例对获得第一词组集合的方法不做限定。S104,根据所述第一词组集合和预设置的第二词组集合,计算所述网页与所述预设类别的相关度。其中,所述第二词组集合中的词组用于标识所述预设类别。对于一个特定的类别,如农业,该预设类别包含很本文档来自技高网...

【技术保护点】
1.一种基于机器学习的文本分类方法,其特征在于,该方法包括:通过网络爬虫抓取多个网页;针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本;对所述网页的URL和锚文本进行处理,获得第一词组集合;根据所述第一词组集合和预设置的第二词组集合,计算所述网页与预设类别的相关度,其中,所述第二词组集合中的词组用于标识所述预设类别;若所述网页与预设类别的相关度大于第一预设值,则对所述网页进行处理得到网页文本;获取预设训练集,针对所述训练集中的任一文本,所述文本为经过人工分类的文本,所述文本标注有对应的子类别,所述子类别为预设子类别列表中的一种子类别,所述预设子类别列表中的所有子类别构成所述预设类别;通过所述训练集对预设置的深度神经网络文本分类模型进行训练,直至达到预设的训练终止条件,通过所述深度神经网络文本分类模型对所述网页文本进行文本分类处理,得到所述网页的子类别。

【技术特征摘要】
1.一种基于机器学习的文本分类方法,其特征在于,该方法包括:通过网络爬虫抓取多个网页;针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本;对所述网页的URL和锚文本进行处理,获得第一词组集合;根据所述第一词组集合和预设置的第二词组集合,计算所述网页与预设类别的相关度,其中,所述第二词组集合中的词组用于标识所述预设类别;若所述网页与预设类别的相关度大于第一预设值,则对所述网页进行处理得到网页文本;获取预设训练集,针对所述训练集中的任一文本,所述文本为经过人工分类的文本,所述文本标注有对应的子类别,所述子类别为预设子类别列表中的一种子类别,所述预设子类别列表中的所有子类别构成所述预设类别;通过所述训练集对预设置的深度神经网络文本分类模型进行训练,直至达到预设的训练终止条件,通过所述深度神经网络文本分类模型对所述网页文本进行文本分类处理,得到所述网页的子类别。2.根据权利要求1所述的文本分类方法,其特征在于,所述第二词组包括m个词组,所述根据所述第一词组集合和预设置的第二词组集合,计算所述网页与所述预设类别的相关度包括:获取第一词组集合中属于第二词组集合的词组的个数n;根据n与m的比值,计算所述网页与所述预设类别的相关度。3.根据权利要求1所述的文本分类方法,其特征在于,在将所述网页文本进行文本分类处理之后,该方法还包括:将所述网页的URL放入预设数据库;通过所述网络爬虫按照预设时间间隔抓取所述预设类别的网页;针对所述网络爬虫抓取到的任一网页,根据所述网页的URL判断所述网页的URL是否属于预设数据库中的URL;若所述网页的URL属于预设数据库中的URL,则丢弃所述网页。4.根据权利要求3所述的文本分类方法,其特征在于,在丢弃所述网页之前,该方法还包括:在所述预设数据库中为所述网页的URL、所述网页所对应的网页文本的子类别和抓取所述网页的时间建立唯一映射关系;判断预设数据库中存储的抓取所述网页的时间和此次抓取所述网页的时间之间,所述网页是否存在更新;若所述网页存在更新,则通过所述深度神经网络文本分类模型对所述网页的网页文本进行分类处理,并在所述预设数据库中更新所述网页的URL、所述网页所对应的子类别和抓取所述网页的时间的唯一映射关系;若所述网页不存在更新,则丢弃所述网页。5.根据权利要求1-4任一项所述的文本分类方法,其特征在于,所述深度神经网络文本分类模型包括4层,分别为输入层、第一隐藏层、第二隐藏层和输出层,所述输入层的输入为所述网页文本所对应的特征向量,所述第一隐藏层包括第一预设数目的节...

【专利技术属性】
技术研发人员:吴壮伟
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1