System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请实施例涉及文本处理技术、自然语言处理技术以及智能模型技术,尤其涉及一种基于模型的银行制度文本的分类方法、装置以及设备。
技术介绍
1、在银行中会存储银行制度文本,银行制度文本中为制定银行内部制度的文本。需要对银行制度文本进行分类,进而确定出银行制度文本的制度分类标签。例如,制度分类标签为内部日常工作类别,制度分类标签为业务工作处理类别,制度分类标签为内部管理类别,等等。
2、现有技术中,是基于人工的方式阅读银行制度文本之后,人工的确定出银行制度文本的制度分类标签。
3、但是上述方式中,人工确定银行制度文本的制度分类标签的方式,依赖于人工分类的经验,需要耗费大量的时间成本,并且分类准确率低。
技术实现思路
1、本申请实施例提供一种基于模型的银行制度文本的分类方法、装置以及设备,用以解决确定银行制度文本的制度分类标签的时间成本高、分类准确率低的问题。
2、第一方面,本申请实施例提供一种基于模型的银行制度文本的分类方法,所述方法包括:
3、获取待分类的银行制度文本;并对所述待分类的银行制度文本进行数据清洗处理,得到清洗后的待分类的银行制度文本;
4、提取所述清洗后的待分类的银行制度文本中的关键词,得到关键词组合;其中,所述关键词组合中包括至少一个关键词,所述关键词组合用于表征清洗后的待分类的银行制度文本;
5、将所述关键词组合输入至预设分类模型中,得到所述关键词组合的特征向量;
6、基于所述预设分类
7、第二方面,本申请实施例提供一种基于模型的银行制度文本的分类装置,所述装置包括:
8、第一获取单元,用于获取待分类的银行制度文本;
9、第一处理单元,用于对所述待分类的银行制度文本进行数据清洗处理,得到清洗后的待分类的银行制度文本;
10、第一提取单元,用于提取所述清洗后的待分类的银行制度文本中的关键词,得到关键词组合;其中,所述关键词组合中包括至少一个关键词,所述关键词组合用于表征清洗后的待分类的银行制度文本;
11、第一确定单元,用于将所述关键词组合输入至预设分类模型中,得到所述关键词组合的特征向量;
12、第二确定单元,用于基于所述预设分类模型,确定所述关键词组合的特征向量与每一预设的制度分类标签的向量之间的余弦相似度,确定余弦相似度最高的制度分类标签向量对应的制度分类标签,为所述待分类的银行制度文本的制度分类标签。
13、第三方面,本申请实施例提供一种电子设备,所述电子设备包括:存储器,处理器;
14、存储器;用于存储所述处理器可执行指令的存储器;
15、其中,所述处理器被配置为执行第一方面所述的方法。
16、第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面所述的方法。
17、第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。
18、本申请实施例提供的基于模型的银行制度文本的分类方法、装置以及设备,获取待分类的银行制度文本;并对待分类的银行制度文本进行数据清洗处理,得到清洗后的待分类的银行制度文本;提取清洗后的待分类的银行制度文本中的关键词,得到关键词组合;其中,关键词组合中包括至少一个关键词,关键词组合用于表征清洗后的待分类的银行制度文本。从而自动的对待分类的银行制度文本进行数据清洗处理,去除不需要的词语;并且提取清洗后的待分类的银行制度文本中的关键词,基于各关键词表示待分类的银行制度文本;从而减少了待分类的银行制度文本的数据量,减少了分类过程的计算量。将关键词组合输入至预设分类模型中,得到关键词组合的特征向量;基于预设分类模型,确定关键词组合的特征向量与每一预设的制度分类标签的向量之间的余弦相似度,确定余弦相似度最高的制度分类标签向量对应的制度分类标签,为待分类的银行制度文本的制度分类标签。从而基于模型的方式,确定出待分类的银行制度文本的制度分类标签;可以减少时间成本;并且分类更加准确,可以准确的确定出待分类的银行制度文本的制度分类标签。
本文档来自技高网...【技术保护点】
1.一种基于模型的银行制度文本的分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,对所述待分类的银行制度文本进行数据清洗处理,得到清洗后的待分类的银行制度文本,包括:
3.根据权利要求1所述的方法,其特征在于,所述清洗后的待分类的银行制度文本中包括至少一个词语;提取所述清洗后的待分类的银行制度文本中的关键词,得到关键词组合,包括:
4.根据权利要求3所述的方法,其特征在于,每一词语的逆文档频率;为idf(t)=log(N/(nt+1));其中,t表征词语t;N为所述总数信息,nt为词语t的文本数量。
5.根据权利要求3所述的方法,其特征在于,每一词语的重要性权重为其中,t表征词语t;d表征清洗后的待分类的银行制度文本;tf(t,d)为词语t的词频信息,idf(t)为词语t的逆文档频率。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1-5中任一项所述的方法,其特征在于,所述预设分类模型为具有全连接层的BERT模型。
8.一种基
9.一种电子设备,其特征在于,所述电子设备包括:存储器,处理器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-7中任一项所述的方法。
...【技术特征摘要】
1.一种基于模型的银行制度文本的分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,对所述待分类的银行制度文本进行数据清洗处理,得到清洗后的待分类的银行制度文本,包括:
3.根据权利要求1所述的方法,其特征在于,所述清洗后的待分类的银行制度文本中包括至少一个词语;提取所述清洗后的待分类的银行制度文本中的关键词,得到关键词组合,包括:
4.根据权利要求3所述的方法,其特征在于,每一词语的逆文档频率;为idf(t)=log(n/(nt+1));其中,t表征词语t;n为所述总数信息,nt为词语t的文本数量。
5.根据权利要求3所述的方法,其特征在于,每一词语的重要性权重为其中,...
【专利技术属性】
技术研发人员:田荟双,李鑫,李金金,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。