文本行业分类方法、装置、计算机可读存储介质及电子设备制造方法及图纸

技术编号:31717237 阅读:27 留言:0更新日期:2022-01-01 11:24
本公开提供的一种文本行业分类方法、装置、计算机可读存储介质及电子设备,可以获得目标文本;基于预设层次注意力机制对目标文本进行特征提取,获得与目标文本对应的文本向量表示;利用文本向量表示,确定与目标文本对应的行业分类。本公开通过利用层次注意力机制对文本进行特征提取,获得文本具有关键行业信息的文本向量表示,利用该文本向量表示确定出文本对应的行业类型,从而对文本实现有效的行业分类。分类。分类。

【技术实现步骤摘要】
文本行业分类方法、装置、计算机可读存储介质及电子设备


[0001]本公开涉及计算机
,尤其涉及一种文本行业分类方法、装置、计算机可读存储介质及电子设备。

技术介绍

[0002]互联网技术的迅速发展和普及,为人们工作生活带来了极大的便利。为了向用户提供有效的投资决策,需要收集各行业的资料进行分析处理。因为一个行业的文本资料能够分析出该行业的现状以及发展,所以对文本资料的行业分类就变得尤为重要。
[0003]因此,如何对文本进行有效的行业分类,成为本领域技术人员急需解决的技术问题。

技术实现思路

[0004]鉴于上述问题,本公开提供一种克服上述问题或者至少部分地解决上述问题的一种文本行业分类方法、装置、计算机可读存储介质及电子设备,技术方案如下:
[0005]一种文本行业分类方法,包括:
[0006]获得目标文本;
[0007]基于预设层次注意力机制对所述目标文本进行特征提取,获得与所述目标文本对应的文本向量表示;
[0008]利用所述文本向量表示,确定与所述目标文本对应的行业分类。...

【技术保护点】

【技术特征摘要】
1.一种文本行业分类方法,其特征在于,包括:获得目标文本;基于预设层次注意力机制对所述目标文本进行特征提取,获得与所述目标文本对应的文本向量表示;利用所述文本向量表示,确定与所述目标文本对应的行业分类。2.根据权利要求1所述的方法,其特征在于,所述基于层次注意力机制对所述目标文本进行特征提取,获得与所述目标文本对应的文本向量表示,包括:分别对所述目标文本中的各词语生成对应的词向量;利用各所述词向量,依次基于预设层次注意力机制中不同层次的注意力机制对所述目标文本进行特征提取,获得与所述目标文本对应的文本向量表示。3.根据权利要求2所述的方法,其特征在于,所述预设层次注意力机制包括词语级注意力机制以及句子级注意力机制,所述利用各所述词向量,基于不同层次的注意力机制对所述目标文本依次进行特征提取,获得与所述目标文本对应的文本向量表示,包括:基于所述词语级注意力机制,分别根据所述目标文本中各句子包含的词语对应的各所述词向量,获得所述目标文本中各句子对应的句子向量;基于所述句子级注意力机制,根据所述目标文本中各句子对应的所述句子向量,获得与所述目标文本对应的文本向量表示。4.根据权利要求3所述的方法,其特征在于,所述基于所述词语级注意力机制,分别根据所述目标文本中各句子包含的词语对应的各所述词向量,获得与所述目标文本中各句子对应的句子向量,包括:对所述目标文本中任一句子包含的词语对应的各所述词向量:利用第一多头注意力机制进行编码,分别获得与各所述词向量对应的词语级表示向量;利用所述词语级注意力机制将各所述词向量对应的所述词语级表示向量进行融合,获得与所述目标文本中各句子对应的句子向量。5.根据权利要求4所述的方法,其特征在于,所述利用所述词语级注意力机制将各所述词向量对应的所述词语级表示向量进行融合,获得与所述目标文本中各句子对应的句子向量,包括:将各所述词向量对应的所述词语级表示向量与预设词语级注意力向量进行内积计算,获得第一内积向量;将所述第一内积向量输入至第一预设Softmax函数中,获得各所述词语级表示向量对应的第一注...

【专利技术属性】
技术研发人员:陈香熖吴良庆俞晓光王阳阳王佳
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1