一种资讯分类处理的方法及系统技术方案

技术编号:30169796 阅读:16 留言:0更新日期:2021-09-25 15:27
本发明专利技术提出了一种资讯分类处理的方法及系统,涉及自然语言处理及机器学习技术领域,该方法包括:采集资讯数据,对所述资讯数据进行预处理;建立资讯分类模型,将预处理后的资讯数据输入至资讯分类模型中,通过所述资讯分类模型将资讯数据映射到高维空间得到文本中词语之间的关系,并利用LSTM提取文本特征的语义信息;根据文本特征的语义信息分析得到特征权重,按照特征权重进行信息增强,优化资讯分类模型;根据预处理后的资讯数据设置训练集及测试集,对优化后的资讯分类模型进行训练,并利用测试集对训练模型进行测试;获取待分类的资讯数据,利用训练完成的资讯分类模型对待分类的资讯数据进行类别划分,得到分类结果。得到分类结果。得到分类结果。

【技术实现步骤摘要】
一种资讯分类处理的方法及系统


[0001]本专利技术涉及自然语言处理及机器学习
,尤指一种资讯分类处理的方法及系统。

技术介绍

[0002]手机银行APP作为重要对客渠道,在银行数字化转型中发挥着重要的作用。为进一步提升客户体验,手机银行加入了资讯功能,考虑到每天均会产生各种新资讯,为更好地管理资讯,手机银行需要根据资讯内容对资讯进行分类;考虑到资讯数据量,单纯依靠人工的方式成本高昂且效率低下。
[0003]综上来看,亟需一种可以克服上述缺陷,能够高效、准确的进行资讯分类的技术方案。

技术实现思路

[0004]为解决现有技术存在的问题,本专利技术提出了一种资讯分类处理的方法及系统。本专利技术通过提取标题文本中信息,并对其进行加工后对资讯进行分类。
[0005]在本专利技术实施例的第一方面,提出了一种资讯分类处理的方法,该方法包括:
[0006]采集资讯数据,对所述资讯数据进行预处理;
[0007]建立资讯分类模型,将预处理后的资讯数据输入至资讯分类模型中,通过所述资讯分类模型将资讯数据映射到高维空间得到文本中词语之间的关系,并利用LSTM提取文本特征的语义信息;
[0008]根据文本特征的语义信息分析得到特征权重,按照特征权重进行信息增强,优化资讯分类模型;
[0009]根据预处理后的资讯数据设置训练集及测试集,对优化后的资讯分类模型进行训练,并利用测试集对训练模型进行测试;
[0010]获取待分类的资讯数据,利用训练完成的资讯分类模型对待分类的资讯数据进行类别划分,得到分类结果。
[0011]进一步的,采集资讯数据,对所述资讯数据进行预处理,包括:
[0012]对收集的资讯数据进行筛选和标注,提取资讯的标题文本并标注资讯类别。
[0013]进一步的,建立资讯分类模型,将预处理后的资讯数据输入至资讯分类模型中,通过所述资讯分类模型将资讯数据映射到高维空间得到文本中词语之间的关系,并利用LSTM提取文本特征的语义信息,包括:
[0014]根据文本中词语之间的关系,利用LSTM对文本进行前向及后向特征提取,得到文本特征的前向和后向语义信息;
[0015]将文本特征的前向和后向语义信息进行整合,按照特征维度进行拼接得到新特征;其中,文本中的每个文字通过相应的所述新特征、文本特征的前向和后向语义信息进行表示。
[0016]进一步的,根据文本特征的语义信息分析得到特征权重,按照特征权重进行信息增强,优化资讯分类模型,包括:
[0017]对新特征进行处理,选择性增大有效特征的影响,并抑制无效特征的影响,其中,信息增强的选择逻辑为:
[0018]设置输入数据维度为[B,S,H*2],其中,B表示数据批量,S表示文本长度,H表示LSTM隐层神经元数;
[0019]将S个文字的特征按矩阵第二个维度相加,并求均值得到[B,1,H*2]维度的第一数据,其中,第一数据包含了整个文本所有的信息;
[0020]将第一数据的矩阵输入一个全连接神经网络中,输入神经元数为H*2,隐层神经元数为H,输出层神经元数为H*2,全连接神经网络最终输出一个[H*2,1]维度的第一权重矩阵,所述第一权重矩阵代表文本中每个文字在每个特征维度上的权重,用于对特征按重要性进行增强;
[0021]利用所述第一权重矩阵与输入数据[B,S,H*2]相乘,得到[B,S,1]的第二权重矩阵,所述第二权重矩阵代表文本中每个文字的权重,用于对文字特征进行增强,利用第二权重矩阵与输入数据[B,S,H*2]相乘,得到最终的文本特征矩阵[B,H*2],将最终的文本特征矩阵输入到分类层中,得到最终的分类结果;
[0022]按照特征重要度对每个文字的特征进行增强或抑制,对所有文字的特征按重要度进行增强或抑制,优化资讯分类模型。
[0023]进一步的,根据预处理后的资讯数据设置训练集及测试集,对优化后的资讯分类模型进行训练,并利用测试集对训练模型进行测试,包括:
[0024]利用训练集对优化后的资讯分类模型进行训练;
[0025]根据测试集的资讯标题对训练的模型进行测试,判断分类结果是否正确;其中,若正确率达到预设值,模型训练完成。
[0026]在本专利技术实施例的第二方面,提出了一种资讯分类处理的系统,该系统包括:
[0027]数据采集模块,用于采集资讯数据,对所述资讯数据进行预处理;
[0028]特征处理模块,用于建立资讯分类模型,将预处理后的资讯数据输入至资讯分类模型中,通过所述资讯分类模型将资讯数据映射到高维空间得到文本中词语之间的关系,并利用LSTM提取文本特征的语义信息;
[0029]模型优化模块,用于根据文本特征的语义信息分析得到特征权重,按照特征权重进行信息增强,优化资讯分类模型;
[0030]模型训练模块,用于根据预处理后的资讯数据设置训练集及测试集,对优化后的资讯分类模型进行训练,并利用测试集对训练模型进行测试;
[0031]资讯分类模块,用于获取待分类的资讯数据,利用训练完成的资讯分类模型对待分类的资讯数据进行类别划分,得到分类结果。
[0032]进一步的,数据采集模块具体用于:
[0033]对收集的资讯数据进行筛选和标注,提取资讯的标题文本并标注资讯类别。
[0034]进一步的,特征处理模块具体用于:
[0035]根据文本中词语之间的关系,利用LSTM对文本进行前向及后向特征提取,得到文本特征的前向和后向语义信息;
[0036]将文本特征的前向和后向语义信息进行整合,按照特征维度进行拼接得到新特征;其中,文本中的每个文字通过相应的所述新特征、文本特征的前向和后向语义信息进行表示。
[0037]进一步的,模型优化模块具体用于:
[0038]对新特征进行处理,选择性增大有效特征的影响,并抑制无效特征的影响,其中,信息增强的选择逻辑为:
[0039]设置输入数据维度为[B,S,H*2],其中,B表示数据批量,S表示文本长度,H表示LSTM隐层神经元数;
[0040]将S个文字的特征按矩阵第二个维度相加,并求均值得到[B,1,H*2]维度的第一数据,其中,第一数据包含了整个文本所有的信息;
[0041]将第一数据的矩阵输入一个全连接神经网络中,输入神经元数为H*2,隐层神经元数为H,输出层神经元数为H*2,全连接神经网络最终输出一个[H*2,1]维度的第一权重矩阵,所述第一权重矩阵代表文本中每个文字在每个特征维度上的权重,用于对特征按重要性进行增强;
[0042]利用所述第一权重矩阵与输入数据[B,S,H*2]相乘,得到[B,S,1]的第二权重矩阵,所述第二权重矩阵代表文本中每个文字的权重,用于对文字特征进行增强,利用第二权重矩阵与输入数据[B,S,H*2]相乘,得到最终的文本特征矩阵[B,H*2],将最终的文本特征矩阵输入到分类层中,得到最终的分类结果;
[0043]按照特征重要度对每个文字本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种资讯分类处理的方法,其特征在于,该方法包括:采集资讯数据,对所述资讯数据进行预处理;建立资讯分类模型,将预处理后的资讯数据输入至资讯分类模型中,通过所述资讯分类模型将资讯数据映射到高维空间得到文本中词语之间的关系,并利用LSTM提取文本特征的语义信息;根据文本特征的语义信息分析得到特征权重,按照特征权重进行信息增强,优化资讯分类模型;根据预处理后的资讯数据设置训练集及测试集,对优化后的资讯分类模型进行训练,并利用测试集对训练模型进行测试;获取待分类的资讯数据,利用训练完成的资讯分类模型对待分类的资讯数据进行类别划分,得到分类结果。2.根据权利要求1所述的资讯分类处理的方法,其特征在于,采集资讯数据,对所述资讯数据进行预处理,包括:对收集的资讯数据进行筛选和标注,提取资讯的标题文本并标注资讯类别。3.根据权利要求2所述的资讯分类处理的方法,其特征在于,建立资讯分类模型,将预处理后的资讯数据输入至资讯分类模型中,通过所述资讯分类模型将资讯数据映射到高维空间得到文本中词语之间的关系,并利用LSTM提取文本特征的语义信息,包括:根据文本中词语之间的关系,利用LSTM对文本进行前向及后向特征提取,得到文本特征的前向和后向语义信息;将文本特征的前向和后向语义信息进行整合,按照特征维度进行拼接得到新特征;其中,文本中的每个文字通过相应的所述新特征、文本特征的前向和后向语义信息进行表示。4.根据权利要求3所述的资讯分类处理的方法,其特征在于,根据文本特征的语义信息分析得到特征权重,按照特征权重进行信息增强,优化资讯分类模型,包括:对新特征进行处理,选择性增大有效特征的影响,并抑制无效特征的影响,其中,信息增强的选择逻辑为:设置输入数据维度为[B,S,H*2],其中,B表示数据批量,S表示文本长度,H表示LSTM隐层神经元数;将S个文字的特征按矩阵第二个维度相加,并求均值得到[B,1,H*2]维度的第一数据,其中,第一数据包含了整个文本所有的信息;将第一数据的矩阵输入一个全连接神经网络中,输入神经元数为H*2,隐层神经元数为H,输出层神经元数为H*2,全连接神经网络最终输出一个[H*2,1]维度的第一权重矩阵,所述第一权重矩阵代表文本中每个文字在每个特征维度上的权重,用于对特征按重要性进行增强;利用所述第一权重矩阵与输入数据[B,S,H*2]相乘,得到[B,S,1]的第二权重矩阵,所述第二权重矩阵代表文本中每个文字的权重,用于对文字特征进行增强,利用第二权重矩阵与输入数据[B,S,H*2]相乘,得到最终的文本特征矩阵[B,H*2],将最终的文本特征矩阵输入到分类层中,得到最终的分类结果;按照特征重要度对每个文字的特征进行增强或抑制,对所有文字的特征按重要度进行增强或抑制,优化资讯分类模型。
5.根据权利要求4所述的资讯分类处理的方法,其特征在于,根据预处理后的资讯数据设置训练集及测试集,对优化后的资讯分类模型进行训练,并利用测试集对训练模型进行测试,包括:利用训练集对优化后的资讯分类模型进行训练;根据测试集的资讯标题对训练的模型进行测试,判断分类结果是否正确;其中,若正确率达到预设值,模型训练完成。6.一种资讯分类处理的系统,其特征在于...

【专利技术属性】
技术研发人员:徐晓健
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1