文档分类方法、装置、电子设备及介质制造方法及图纸

技术编号:43547400 阅读:15 留言:0更新日期:2024-12-03 12:28
本公开提供一种文档分类方法、装置、电子设备及介质,涉及人工智能技术领域,该方法包括:利用预训练语言模型,分别将经过规范化处理后的规范化文档的每个文本特征中每个单词转换为词向量;利用交互注意力网络,将词向量作为输入,得到规范化文档的第一文档类别;利用大语言模型,对规范化文档按照预设数量的预设提示模板进行模板化处理,得到模板化处理后的预设数量的提示模板,并利用预设数量的提示模板,得到预设数量的第二文档类别;将第一文档类别和预设数量的第二文档类别中文档类别相同且数量最多的文档类别作为述规范化文档的目标文档类别,实现文档自动分类,有效提升了文档分类的效率和准确性。

【技术实现步骤摘要】

本公开涉及人工智能,尤其涉及一种文档分类方法、装置、电子设备及介质


技术介绍

1、服务文档分类是对移动客服与用户的日常服务基准文档、管理规定数据进行细粒度类型分类。高效率的服务文档分类已经是通信运营商关注的热点问题,是构建智能客服的基础,同时也是一项具有挑战性的任务。

2、目前,相关技术中的文档分类方法通常为人工预测或基于作者的声誉、出版社的知名度、文档的类型等因素进行简单的线性回归分析。但人工预测的方式成本高、效率低;简单的线性回归分析不能考虑到复杂的非线性关系,准确率低。


技术实现思路

1、本公开提供一种文档分类方法、装置、电子设备及介质,以解决相关技术中的问题,通过。

2、本公开的第一方面实施例提出了一种文档分类方法,该方法包括:利用预训练语言模型,分别将经过规范化处理后的规范化文档的每个文本特征中每个单词转换为词向量;利用交互注意力网络,将词向量作为输入,得到规范化文档的第一文档类别;利用大语言模型,对规范化文档按照预设数量的预设提示模板进行模板化处理,得到模板化处理后的预设本文档来自技高网...

【技术保护点】

1.一种文档分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述利用交互注意力网络,将所述词向量作为输入,得到所述规范化文档的第一文档类别包括:

3.根据权利要求2所述的方法,其特征在于,所述利用所述交互注意力网络中的长短期记忆网络以及所述每个文本特征的每个词向量,确定所述每个文本特征的整体特征包括:

4.根据权利要求1所述的方法,其特征在于,所述利用大语言模型,对所述规范化文档按照预设数量的预设提示模板进行模板化处理,得到所述模板化处理后的预设数量的提示模板,并利用所述预设数量的提示模板,得到所述预设数量的第二文档类别...

【技术特征摘要】

1.一种文档分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述利用交互注意力网络,将所述词向量作为输入,得到所述规范化文档的第一文档类别包括:

3.根据权利要求2所述的方法,其特征在于,所述利用所述交互注意力网络中的长短期记忆网络以及所述每个文本特征的每个词向量,确定所述每个文本特征的整体特征包括:

4.根据权利要求1所述的方法,其特征在于,所述利用大语言模型,对所述规范化文档按照预设数量的预设提示模板进行模板化处理,得到所述模板化处理后的预设数量的提示模板,并利用所述预设数量的提示模板,得到所述预设数量的第二文档类别包括:

5.根据权利要求4所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:赵东明黄堃靳晓嘉张继军刘静张亚洲
申请(专利权)人:中国移动通信集团天津有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1