新闻文章分类的方法、装置、设备及存储介质制造方法及图纸

技术编号:21432194 阅读:22 留言:0更新日期:2019-06-22 11:55
本申请涉及人工智能领域,提供一种新闻文章分类的方法、装置及存储介质,所述方法包括:获取第一数据集,对所述第一数据集进行预处理,得到训练集和测试集;采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数;调整所述分类模型中的参数,得到所述分类模型的最优模型参数后,构建语言模型;利用所述语言模型对所述测试集进行测试,若检测出所述语言模型的准确率高于预设阈值,则确定所述语言模型符合分类条件;根据所述语言模型对输入所述语言模型的第二数据集进行分类。提供采用本方案,能够提高新闻文章分类的准确率,以及提高word2vec预训练的词向量模型对新闻文章的分类效果。

【技术实现步骤摘要】
新闻文章分类的方法、装置、设备及存储介质
本申请涉及人工智能领域,尤其涉及一种新闻文章分类的方法、装置、设备及存储介质。
技术介绍
在对新闻文章分类时,常采用词向量模型(wordtovector,Word2vec)预训练的词向量模型,将词嵌入向量,以将该词纳入神经网络的第一层,而神经网络的其余部分依旧要重新训练,所以会导致分类时脱离上下文的关系。最终导致词向量模型的分类效果较差。
技术实现思路
本申请提供了一种新闻文章分类的方法、装置、设备及存储介质,能够解决现有技术中新闻文章分类的准确率和效果均较差的问题。第一方面,本申请提供一种新闻文章分类的方法,所述方法包括:获取第一数据集,所述第一数据集可包括多篇新闻文章;对所述第一数据集进行预处理,得到训练集和测试集;采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数;调整所述分类模型中的参数,得到所述分类模型的最优模型参数后,构建语言模型;利用所述语言模型对所述测试集进行测试,若检测出所述语言模型的准确率高于预设阈值,则确定所述语言模型符合分类条件;根据所述语言模型对输入所述语言模型的第二数据集进行分类。一种可能的设计中,所述采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数,包括:针对所述训练集中特征的整体层次结构,从边缘到形状,从低至高学习所有层级的特征,提取所述训练集中连续文本的内在联系和语言结构的表达能力,以训练所述分类模型;其中,所述分类模型的参数表示神经网络的权重,将所述分类模型的参数作为输入语言模型的词语的向量化表示。一种可能的设计中,所述调整所述分类模型中的参数,得到所述分类模型的最优模型参数,包括:在模拟空间搜索,匹配出一个与所述训练集最匹配的假设,以得到一组最优模型参数。一种可能的设计中,所述在假设空间搜索,匹配出一个与所述训练集最匹配的假设,以得到一组最优模型参数,包括:将所述训练集输入所述模拟空间;在所述模拟空间使用所述训练集对所述分类模型进行训练,训练得到一组与所述训练集最匹配的最优模型参数。一种可能的设计中,所述语言模型中的参数包括分类自变量和分类因变量,所述构建语言模型,包括:将新闻标题和新闻作者设置为分类自变量,将新闻类别设置为分类因变量;根据所述新闻标题和所述新闻作者、所述新闻类别、以及所述最优模型参数构建所述语言模型。一种可能的设计中,所述分类模型包括ELMo模型、OPenAIGPT模型或Bert模型。一种可能的设计中,所述预处理包括分层采样、数据中的缺失值处理、以及特征梳理与筛选。第二方面,本申请提供一种用于对新闻文章分类的装置,具有实现对应于上述第一方面提供的一种新闻文章分类的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。一种可能的设计中,所述装置包括:输入输出模块,用于获取第一数据集,所述第一数据集可包括多篇新闻文章;处理模块,用于对所述第一数据集进行预处理,得到训练集和测试集;采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数;整所述分类模型中的参数,得到所述分类模型的最优模型参数后,构建语言模型;利用所述语言模型对所述测试集进行测试,若检测出所述语言模型的准确率高于预设阈值,则确定所述语言模型符合分类条件;根据所述语言模型对所述输入输出模块输入所述语言模型的第二数据集进行分类。一种可能的设计中,所述处理模块具体用于:针对所述训练集中特征的整体层次结构,从边缘到形状,从低至高学习所有层级的特征,提取所述训练集中连续文本的内在联系和语言结构的表达能力,以训练所述分类模型;其中,所述分类模型的参数表示神经网络的权重,将所述分类模型的参数作为输入语言模型的词语的向量化表示。一种可能的设计中,所述处理模块具体用于:在模拟空间搜索,匹配出一个与所述训练集最匹配的假设,以得到一组最优模型参数。一种可能的设计中,所述处理模块具体用于:通过所述输入输出模块将所述训练集输入所述模拟空间;在所述模拟空间使用所述训练集对所述分类模型进行训练,训练得到一组与所述训练集最匹配的最优模型参数。一种可能的设计中,所述语言模型中的参数,包括分类自变量和分类因变量,所述处理模块具体用于:将新闻标题和新闻作者设置为分类自变量,将新闻类别设置为分类因变量;根据所述新闻标题和所述新闻作者、所述新闻类别、以及所述最优模型参数构建所述语言模型。一种可能的设计中,所述分类模型包括ELMo模型、OPenAIGPT模型或Bert模型。所述预处理包括分层采样、数据中的缺失值处理、以及特征梳理与筛选。本申请又一方面提供了一种计算机设备,其包括至少一个连接的处理器、存储器和输入输出单元,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中的程序代码来执行上述第一方面所述的方法。本申请又一方面提供了一种计算机存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。相较于现有技术,本申请提供的方案中,对所述第一数据集进行预处理,得到训练集和测试集;采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数;调整所述分类模型中的参数,得到所述分类模型的最优模型参数后,构建语言模型;利用所述语言模型对所述测试集进行测试,若检测出所述语言模型的准确率高于预设阈值,则确定所述语言模型符合分类条件;根据所述语言模型对输入所述语言模型的第二数据集进行分类。提供采用本方案,能够提高新闻文章分类的准确率,以及提高word2vec预训练的词向量模型对新闻文章的分类效果。附图说明图1为本申请实施例中新闻文章分类的方法法人一种流程示意图;图2为本申请实施例中用于对新闻文章分类的装置的一种结构示意图;图3为本申请实施例中用于对新闻文章分类的装置的另一种结构示意图。本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行。本申请提供一种新闻文章分类的方法、装置、设备及存储介质,可用于新闻分类。为解决上述技术问题,本申请主要提供以下技术方案:对获取的新闻文章进行预处理,构建预训练语言模型(例如采用ELMo模型、OPenAIGPT模型或Bert模型),预训练语言模型能够对超大文本或超大预料进行处理,充分利用大规模的单语语料。通过预训练语言模型对这些新闻文章进行分类,能够解决本文档来自技高网...

【技术保护点】
1.一种新闻文章分类的方法,其特征在于,所述方法包括:获取第一数据集,所述第一数据集可包括多篇新闻文章;对所述第一数据集进行预处理,得到训练集和测试集;采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数;调整所述分类模型中的参数,得到所述分类模型的最优模型参数后,构建语言模型;利用所述语言模型对所述测试集进行测试,若检测出所述语言模型的准确率高于预设阈值,则确定所述语言模型符合分类条件;根据所述语言模型对输入所述语言模型的第二数据集进行分类。

【技术特征摘要】
1.一种新闻文章分类的方法,其特征在于,所述方法包括:获取第一数据集,所述第一数据集可包括多篇新闻文章;对所述第一数据集进行预处理,得到训练集和测试集;采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数;调整所述分类模型中的参数,得到所述分类模型的最优模型参数后,构建语言模型;利用所述语言模型对所述测试集进行测试,若检测出所述语言模型的准确率高于预设阈值,则确定所述语言模型符合分类条件;根据所述语言模型对输入所述语言模型的第二数据集进行分类。2.根据权利要求1所述的方法,其特征在于,所述采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数,包括:针对所述训练集中特征的整体层次结构,从边缘到形状,从低至高学习所有层级的特征,提取所述训练集中连续文本的内在联系和语言结构的表达能力,以训练所述分类模型;其中,所述分类模型的参数表示神经网络的权重,将所述分类模型的参数作为输入语言模型的词语的向量化表示。3.根据权利要求1或2所述的方法,其特征在于,所述调整所述分类模型中的参数,得到所述分类模型的最优模型参数,包括:在模拟空间搜索,匹配出一个与所述训练集最匹配的假设,以得到一组最优模型参数。4.根据权利要求3所述的方法,其特征在于,所述在假设空间搜索,匹配出一个与所述训练集最匹配的假设,以得到一组最优模型参数,包括:将所述训练集输入所述模拟空间;在所述模拟空间使用所述训练集对所述分类模型进行训练,训练得到一组与所述训练集最匹配的最优模型参数。5.根据权利要求4...

【专利技术属性】
技术研发人员:金戈徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1