数据多标签分类方法及系统技术方案

技术编号:25690185 阅读:17 留言:0更新日期:2020-09-18 21:01
本发明专利技术提供一种数据多标签分类方法及系统。该数据多标签分类方法包括:获取标签分类模型;获取预设时间内文本的字符串;根据字符串的长度对字符串进行分割;将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签;拼接同一用户编号下的多分类标签。本发明专利技术可以通过标签分类的方式准确获取用户的偏好,提高获取效率,进而及时向客户推送相关活动。

【技术实现步骤摘要】
数据多标签分类方法及系统
本专利技术涉及数据分类
,具体地,涉及一种数据多标签分类方法及系统。
技术介绍
随着信息技术的发展,银行的用户数据量已达PB级。海量数据中存在巨大的潜力价值,例如:信用卡消费数据,网联支付交易数据(用户在购物平台上购买商品后通过绑定的银行卡进行支付,银行记录的消费数据)等。目前银行一般通过从海量的消费数据中逐条提取的关键字的方式获取用户的消费偏好,时效性低下且准确性不佳。
技术实现思路
本专利技术实施例的主要目的在于提供一种数据多标签分类方法及系统,以准确获取用户偏好,提高获取效率。为了实现上述目的,本专利技术实施例提供一种数据多标签分类方法,包括:获取标签分类模型;获取预设时间内文本的字符串;根据字符串的长度对字符串进行分割;将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签;拼接同一用户编号下的多分类标签。本专利技术实施例还提供一种数据多标签分类系统,包括:模型获取单元,用于获取标签分类模型;字符串获取单元,用于获取预设时间内文本的字符串;分割单元,用于根据字符串的长度对字符串进行分割;多分类标签单元,用于将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签;拼接单元,用于拼接同一用户编号下的多分类标签。本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,处理器执行计算机程序时实现所述的数据多标签分类方法的步骤。本专利技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现所述的数据多标签分类方法的步骤。本专利技术实施例的数据多标签分类方法及系统先根据字符串的长度对字符串进行分割,再将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签,最后拼接同一用户编号下的多分类标签,可以通过标签分类的方式准确获取用户的偏好,提高获取效率,进而及时向客户推送相关活动。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中数据多标签分类方法的流程图;图2是本专利技术实施例中Bert模型的示意图;图3是本专利技术实施例中Bert模型用于多分类的示意图;图4是本专利技术实施例中数据多标签分类系统的结构框图。图5是本专利技术实施例中计算机设备的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本领域技术人员知道,本专利技术的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。鉴于目前银行通过从海量的消费数据中逐条提取的关键字的方式获取用户的偏好,时效性低下且准确性不佳,本专利技术实施例提供一种数据多标签分类方法,以准确获取用户偏好,提高获取效率。以下结合附图对本专利技术进行详细说明。图1是本专利技术一实施例中数据多标签分类方法的流程图。如图1所示,数据多标签分类方法包括:S101:获取标签分类模型。S102:获取预设时间内文本的字符串。例如,可以获取一星期内文本的字符串,每个字符串均有对应的用户编号,同一文本的用户编号相同。用户编号的字段类型为varchar(26),文本和多分类标签的字段类型均为string。S103:根据字符串的长度对字符串进行分割。具体实施时,若字符串的长度小于256个字符,则无需对字符串进行分割;若字符串长度大于256个字符,则需要对文本进行分割处理:以“,”作为分隔符,分隔符间字符串的长度小于256个字符。例如,将大于56个字符字符串分割为第一字符串和第二字符串。S104:将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签。例如,将第一字符串输入标签分类模型中,得到第一字符串的多分类标签78,80和92。将第二字符串输入标签分类模型中,得到第二字符串的多分类标签78,80和93。第一字符串和第二字符串的用户编号相同。S105:拼接同一用户编号下的多分类标签。例如,拼接第一字符串的多分类标签78,80,92和第二字符串的多分类标签78,80,93,可以得到拼接后的多分类标签78,80,92,93。该多分类标签即为对应文本的多分类标签。其中,多分类标签为数字标签,包括第一标签、第二标签和第三标签。第一标签为一级消费标签下的二级消费标签对应的数字标签,第二标签为一级消费标签对应的数字标签,第三标签为支付标签对应的数字标签。一级消费标签(如餐饮、住宿、购物等)、二级消费标签(如一级消费标签“餐饮”下的“正餐”、“饮品”、“零食”等)和支付标签(如:支付宝、钱袋宝、分期等)均为文字标签。表1表1是部分文字标签表。如表1所示,81-97为支付标签,0-80为消费标签。图1所示的数据多标签分类方法的执行主体可以为计算机。由图1所示的流程可知,本专利技术实施例的数据多标签分类方法先根据字符串的长度对字符串进行分割,再将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签,最后拼接同一用户编号下的多分类标签,可以通过标签分类的方式准确获取用户的偏好,提高获取效率,进而及时向客户推送相关活动。一实施例中,在执行S101之前还包括:预先通过以下方式获取标签分类模型:1、获取文本和文本对应的总标签;其中,总标签包括第一标签。2、将每种第一标签对应的文本划分至三个预集合。具体实施时,可以将每种第一标签对应的文本按预设比例划分至三个预集合。预设比例可以为6:2:2,且三个预集合中的数据彼此互斥。在将每种第一标签对应的文本划分至三个预集合之前,需要从贷记帐户历史明细表中获取交易场所简称数据作为文本,例如:“14/60期广州丽之兹摄影有限公司”。文本包含支付方式和消费类型信息。为避免重复数据对模型训练造成影响,需优先去除重复数据。接着对文本进行标注得到总标签:在每个标签后以下划线作为分隔符,之后拼接“0”或“1”:0表示该文本没有对应标签;1表示该文本具有当前标签。表2表2是本专利技术一实施例中总标签与文本表。如表2所示,总标签包括98个数字标签,每个数字标签按照标签类型可以分为第一标签、第二标签和第三标签。例如,总本文档来自技高网...

【技术保护点】
1.一种数据多标签分类方法,其特征在于,包括:/n获取标签分类模型;/n获取预设时间内文本的字符串;/n根据所述字符串的长度对所述字符串进行分割;/n将分割后的字符串输入所述标签分类模型中,得到每个字符串的多分类标签;/n拼接同一用户编号下的多分类标签。/n

【技术特征摘要】
1.一种数据多标签分类方法,其特征在于,包括:
获取标签分类模型;
获取预设时间内文本的字符串;
根据所述字符串的长度对所述字符串进行分割;
将分割后的字符串输入所述标签分类模型中,得到每个字符串的多分类标签;
拼接同一用户编号下的多分类标签。


2.根据权利要求1所述的数据多标签分类方法,其特征在于,还包括:
预先通过以下方式获取标签分类模型:
获取文本和所述文本对应的总标签;其中,所述总标签包括第一标签;
将每种第一标签对应的文本划分至三个预集合;
对每个预集合进行如下循环处理:
从所述预集合中选取其中一个总标签和所述总标签对应的文本,并将所述总标签和所述文本放入所述预集合对应的集合中;从所述预集合中多次选取不同种的第一标签对应的总标签进行合并,并对所述第一标签对应的文本进行拼接;将合并后的总标签和拼接后的文本放入所述集合中;当所述集合中总标签的数量达到对应的集合预设数量时,循环结束;
根据所述集合训练预设的机器学习模型,得到标签分类模型。


3.根据权利要求2所述的数据多标签分类方法,其特征在于,从所述预集合中多次选取不同种的第一标签对应的总标签进行合并,并对所述第一标签对应的文本进行拼接包括:
设定每次选取总标签的数量为M,M=2,执行如下循环处理:
从所述预集合中选取M个不同种的第一标签对应的总标签进行合并,并对M个第一标签对应的文本进行拼接;
判断M是否小于预设选取数量;当M小于预设选取数量时,将循环处理中的M替换为M+1,否则循环结束。


4.根据权利要求2所述的数据多标签分类方法,其特征在于,
所述预集合包括预训练集、预验证集和预测试集;
所述预训练集对应的集合为训练集;
所述预验证集对应的集合为验证集;
所述预测试集对应的集合为测试集。


5.一种数据多标签分类系统,其特征在于,包括:
模型获取单元,用于获取标签分类模型;
字符串获取单元,用于获取预设时间内文本的字符串;
分割单元,用于根据所述字符串的长度对所...

【专利技术属性】
技术研发人员:郭志军罗涛施佳子鲁转丽
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1