新闻分类方法、计算机可读存储介质技术

技术编号:26845644 阅读:26 留言:0更新日期:2020-12-25 13:07
本发明专利技术公开了一种新闻分类方法以及计算机可读存储介质,其包括:获取原始数据,其中,所述原始数据包括新闻文本以及新闻类别;确定各个所述新闻类别下的新闻文本的总体数量;当某个所述新闻类别下的新闻文本的总体数量少于预设阈值,则对该新闻类别下的新闻文本进行数据增强处理从而使得处理后的该新闻类别下的新闻文本的总体数量不低于所述预设阈值;分别从每个所述新闻类别下的所有新闻文本中筛选出与所述预设阈值相同数量的新闻文本作为训练数据输入BERT模型中进行训练。该新闻分类方法以及计算机可读存储介质能够提高分类的准确度。

【技术实现步骤摘要】
新闻分类方法、计算机可读存储介质
本专利技术是关于人工智能
,特别是关于一种新闻分类方法、计算机可读存储介质。
技术介绍
近年来,随着计算机技术和网络通信技术的高速发展,电视、广播、报纸等传统获取信息的方式已不再是人们获取信息的主要方式,人们开始更多关注网络新闻。互联网所容纳的信息量大、内容丰富、信息及时、准确、更有相关信息的全面介绍与比较,更加能满足人们对于信息的需求。但也正是随着互联网技术的发展和智能设备的高度普及,信息爆炸已经成为了一个越来越棘手的问题,如何在海量的各行业资讯中帮助各类人准确、快速地获取到有价值的信息成为了一个迫切需要解决的热点问题。目前通常是采用传统的机器学习进行文本分类,整个文本分类问题就拆分成了特征工程和分类器两部分,大部分机器学习方法都在文本分类领域有所应用,比如朴素贝叶斯分类算法(Bayes)、KNN(K最近邻分类算法)、SVM(支持向量机)、最大熵和神经网络等等。专利技术人在实现本专利技术的过程中发现,目前机器学习的这种方式分类准确度较差。公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术本文档来自技高网...

【技术保护点】
1.一种新闻分类方法,其特征在于,包括:/n获取原始数据,其中,所述原始数据包括新闻文本以及新闻类别;/n确定各个所述新闻类别下的新闻文本的总体数量;/n当某个所述新闻类别下的新闻文本的总体数量少于预设阈值,则对该新闻类别下的新闻文本进行数据增强处理从而使得处理后的该新闻类别下的新闻文本的总体数量不低于所述预设阈值;/n分别从每个所述新闻类别下的所有新闻文本中筛选出与所述预设阈值相同数量的新闻文本作为训练数据输入BERT模型中进行训练。/n

【技术特征摘要】
1.一种新闻分类方法,其特征在于,包括:
获取原始数据,其中,所述原始数据包括新闻文本以及新闻类别;
确定各个所述新闻类别下的新闻文本的总体数量;
当某个所述新闻类别下的新闻文本的总体数量少于预设阈值,则对该新闻类别下的新闻文本进行数据增强处理从而使得处理后的该新闻类别下的新闻文本的总体数量不低于所述预设阈值;
分别从每个所述新闻类别下的所有新闻文本中筛选出与所述预设阈值相同数量的新闻文本作为训练数据输入BERT模型中进行训练。


2.如权利要求1所述的新闻分类方法,其特征在于,所述新闻分类方法还包括:
将待分类的新闻文本输入训练后的BERT模型中进行分类。


3.如权利要求2所述的新闻分类方法,其特征在于,所述新闻分类方法还包括:
按照分类结果在前端展示新闻文本。


4.如权利要求1所述的新闻分类方法,其特征在于,获取原始数据包括:通过编写爬虫脚本的方式获取所述原始数据。


5.如权利要求1所述的新闻分类方法,其特征在于,当某个所述新闻类别下的新闻文本的总体数量少于预设阈值,则对该新闻类别下的新闻文本进行数据增强处理包括:
对...

【专利技术属性】
技术研发人员:章恒靖刘琦邱枫乔正宇郑维徐鹏朱得元刘恒昌
申请(专利权)人:科航苏州信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1