文本分类方法、装置、设备及存储介质制造方法及图纸

技术编号:38514521 阅读:21 留言:0更新日期:2023-08-19 16:57
本发明专利技术涉及人工智能技术,对保险知识培训视频进行标题分类,揭露一种文本分类方法,包括:获取待分类文本,对所述待分类文本进行分词,得到分词词语;将所述分词词语转化为向量,得到分词词语向量;基于多头注意力机制对所述分词词语向量进行注意力加权,并将加权后的所有分词词语向量进行组合,得到文本表征向量;基于所述文本表征向量对所述待分类文本进行文本分类,得到分类结果。本发明专利技术还提出一种文本分类装置、设备以及介质,可应用于金融领域,提高保险知识培训视频标题文本等文本分类的准确率。准确率。准确率。

【技术实现步骤摘要】
文本分类方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能技术及金融科技领域,尤其涉及一种文本分类方法、装置、电子设备及存储介质。

技术介绍

[0002]随着自然语言处理技术的发展,各种自然语言处理技术逐渐应用到各种业务问题中,如利用文本分类方法对保险知识培训视频进行标题分类,从而根据标题分类的结果实现对保险知识培训视频的自动分类。
[0003]但是,现有的文本分类技术只是对待分类文本(如保险知识培训视频的标题)的转化为向量后,对转化的向量进行分类,忽略了转化的向量中无关文本特征对文本分类的影响,进而导致文本分类的准确率较低。

技术实现思路

[0004]本专利技术提供一种文本分类方法、装置、电子设备及存储介质,其主要目的在于提高保险知识培训视频标题文本等文本分类的准确率。
[0005]获取待分类文本,对所述待分类文本进行分词,得到分词词语;
[0006]将所述分词词语转化为向量,得到分词词语向量;
[0007]基于多头注意力机制对所述分词词语向量进行注意力加权,并将加权后的所有分词词语本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:获取待分类文本,对所述待分类文本进行分词,得到分词词语;将所述分词词语转化为向量,得到分词词语向量;基于多头注意力机制对所述分词词语向量进行注意力加权,并将加权后的所有分词词语向量进行组合,得到文本表征向量;基于所述文本表征向量对所述待分类文本进行文本分类,得到分类结果。2.如权利要求1所述的文本分类方法,其特征在于,所述基于多头注意力机制对所述分词词语向量进行注意力加权,并将加权后的所有分词词语向量进行组合,得到文本表征向量,包括:获取基于多注意力机制构建的包含预设数量注意力头的注意力网络;利用所述注意力网络对所述分词词语向量进行注意力加权,得到词语特征向量;将所有所述词语特征向量进行组合,得到所述文本表征向量。3.如权利要求2所述的文本分类方法,其特征在于,所述利用所述注意力网络对所述分词词语向量进行注意力加权,得到词语特征向量,包括:提取所述注意力网络中每个注意力头对应的查询权重矩阵及键权重矩阵;利用所述分词词语向量与所述注意力头的查询权重矩阵进行计算,得到所述分词词语向量对应的注意力查询矩阵;利用所述分词词语向量与所述注意力头的键权重矩阵进行计算,得到所述分词词语向量对应的注意力键矩阵;将所述分词向量对应的注意力查询矩阵与每一个所述注意力键矩阵进行计算,得到该分词词语向量对应注意力初始权重;根据所述分词词语向量对应的所有注意力初始权重进行计算,得到所述分词词语向量对应的注意力权重;对所述分词词语向量进行线性转换,得到所述分词词语向量对应的目标词语向量;基于所述分词词语向量对应的目标词语向量及注意力权重进行计算,得到所述分词词语向量对应的词语特征向量。4.如权利要求2所述的文本分类方法,其特征在于,所述将所有所述词语特征向量进行组合,得到所述文本表征向量,包括:根据所述分词词语向量对应的分词词语在待分类文本的顺序,确定该分词词语向量对应的词语特征向量的向量顺序;将所述词语特征向量作为列,将所述词语特征向量的向量顺序作为列的顺序,以将所有所述词语特征向量填充至预设的空白矩阵,得到所述文本表征向量。5.如权利要求1所述的文本分类方法,其特征在于,所述基于所述文本表征向量对所述待分类文本进行文本分类,得到分类结果,包括:获取待分类文本的文本类别集及预构建的多层感知机,其中,所述多...

【专利技术属性】
技术研发人员:舒畅肖京陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1