新闻文章分类的方法、装置、设备及存储介质制造方法及图纸

技术编号：21432194 阅读：22 留言：0更新日期：2019-06-22 11:55

本申请涉及人工智能领域，提供一种新闻文章分类的方法、装置及存储介质，所述方法包括：获取第一数据集，对所述第一数据集进行预处理，得到训练集和测试集；采用分层表征方式，利用训练集预训练分类模型，得到所述分类模型的参数；调整所述分类模型中的参数，得到所述分类模型的最优模型参数后，构建语言模型；利用所述语言模型对所述测试集进行测试，若检测出所述语言模型的准确率高于预设阈值，则确定所述语言模型符合分类条件；根据所述语言模型对输入所述语言模型的第二数据集进行分类。提供采用本方案，能够提高新闻文章分类的准确率，以及提高word2vec预训练的词向量模型对新闻文章的分类效果。

全部详细技术资料下载

【技术实现步骤摘要】
新闻文章分类的方法、装置、设备及存储介质
本申请涉及人工智能领域，尤其涉及一种新闻文章分类的方法、装置、设备及存储介质。
技术介绍
在对新闻文章分类时，常采用词向量模型(wordtovector，Word2vec)预训练的词向量模型，将词嵌入向量，以将该词纳入神经网络的第一层，而神经网络的其余部分依旧要重新训练，所以会导致分类时脱离上下文的关系。最终导致词向量模型的分类效果较差。
技术实现思路
本申请提供了一种新闻文章分类的方法、装置、设备及存储介质，能够解决现有技术中新闻文章分类的准确率和效果均较差的问题。第一方面，本申请提供一种新闻文章分类的方法，所述方法包括：获取第一数据集，所述第一数据集可包括多篇新闻文章；对所述第一数据集进行预处理，得到训练集和测试集；采用分层表征方式，利用训练集预训练分类模型，得到所述分类模型的参数；调整所述分类模型中的参数，得到所述分类模型的最优模型参数后，构建语言模型；利用所述语言模型对所述测试集进行测试，若检测出所述语言模型的准确率高于预设阈值，则确定所述语言模型符合分类条件；根据所述语言模型对输入所述语言模型的第二数据集进行分类。一种可能的设计中，所述采用分层表征方式，利用训练集预训练分类模型，得到所述分类模型的参数，包括：针对所述训练集中特征的整体层次结构，从边缘到形状，从低至高学习所有层级的特征，提取所述训练集中连续文本的内在联系和语言结构的表达能力，以训练所述分类模型；其中，所述分类模型的参数表示神经网络的权重，将所述分类模型的参数作为输入语言模型的词语的向量化表示。一种可能的设计中，所述调整所述分类模型中的参数，得到...

【技术保护点】
1.一种新闻文章分类的方法，其特征在于，所述方法包括：获取第一数据集，所述第一数据集可包括多篇新闻文章；对所述第一数据集进行预处理，得到训练集和测试集；采用分层表征方式，利用训练集预训练分类模型，得到所述分类模型的参数；调整所述分类模型中的参数，得到所述分类模型的最优模型参数后，构建语言模型；利用所述语言模型对所述测试集进行测试，若检测出所述语言模型的准确率高于预设阈值，则确定所述语言模型符合分类条件；根据所述语言模型对输入所述语言模型的第二数据集进行分类。

【技术特征摘要】
1.一种新闻文章分类的方法，其特征在于，所述方法包括：获取第一数据集，所述第一数据集可包括多篇新闻文章；对所述第一数据集进行预处理，得到训练集和测试集；采用分层表征方式，利用训练集预训练分类模型，得到所述分类模型的参数；调整所述分类模型中的参数，得到所述分类模型的最优模型参数后，构建语言模型；利用所述语言模型对所述测试集进行测试，若检测出所述语言模型的准确率高于预设阈值，则确定所述语言模型符合分类条件；根据所述语言模型对输入所述语言模型的第二数据集进行分类。2.根据权利要求1所述的方法，其特征在于，所述采用分层表征方式，利用训练集预训练分类模型，得到所述分类模型的参数，包括：针对所述训练集中特征的整体层次结构，从边缘到形状，从低至高学习所有层级的特征，提取所述训练集中连续文本的内在联系和语言结构的表达能力，以训练所述分类模型；其中，所述分类模型的参数表示神经网络的权重，将所述分类模型的参数作为输入语言模型的词语的向量化表示。3.根据权利要求1或2所述的方法，其特征在于，所述调整所述分类模型中的参数，得到所述分类模型的最优模型参数，包括：在模拟空间搜索，匹配出一个与所述训练集最匹配的假设，以得到一组最优模型参数。4.根据权利要求3所述的方法，其特征在于，所述在假设空间搜索，匹配出一个与所述训练集最匹配的假设，以得到一组最优模型参数，包括：将所述训练集输入所述模拟空间；在所述模拟空间使用所述训练集对所述分类模型进行训练，训练得到一组与所述训练集最匹配的最优模型参数。5.根据权利要求4...

【专利技术属性】
技术研发人员：金戈，徐亮，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人