本发明专利技术公开了一种用于构建用户画像的方法及系统,包括:获取用于构建用户画像的原始数据;对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理,以获取标准格式的用户画像数据源,并按照预设的存储和传输方式对所述用户画像数据源进行存储和传输;根据待画像用户的用户信息确定待画像用户的业务分类标签,并根据确定的业务分类标签进行行为分析,以获取用户标签。本发明专利技术支持税控设备集成,结合地理位置数据,提升构建用户画像数据的准确性;其次,软硬件结合,将区块链技术引入到存储分析上,同时实现局域网通信,保证画像数据的安全性;最后,装置采用独立分布式部署,可实现点对点模式通信,提升了数据分析与聚合能力。
A method and system for constructing user portrait
【技术实现步骤摘要】
一种用于构建用户画像的方法及系统
本专利技术涉及用户画像
,并且更具体地,涉及一种用于构建用户画像的方法及系统。
技术介绍
用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。用户画像最初是在电商领域得到应用的,在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来。作为实际用户的虚拟代表,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,形成的用户角色需要有代表性能代表产品的主要受众和目标群体。
技术实现思路
本专利技术提出一种用于构建用户画像的方法及系统,以解决如何构建用户画像的问题。为了解决上述问题,根据本专利技术的一个方面,提供了一种用于构建用户画像的方法,所述方法包括:获取用于构建用户画像的原始数据;其中,所述初始数据包括:税务数据、税控设备产生的行为信息、税控设备的位置信息和企业网络数据;对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理,以获取标准格式的用户画像数据源,并按照预设的存储和传输方式对所述用户画像数据源进行存储和传输;根据待画像用户的用户信息确定待画像用户的业务分类标签,并根据确定的业务分类标签进行行为分析,以获取用户标签。优选地,其中所述税务数据包括:登记认定数据、申报征收数据、违法违章数据、优惠减免数据、发票数据、评估证明数据、纳税信用数据和涉税风险数据;所述行为信息包括:开票行为、抄报税行为、清卡行为和领购发票行为。优选地,其中所述对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理,包括:对获取的用于构建用户画像的原始数据进行缺失值处理、异常值处理、去重处理和噪音处理,以获取标准格式的用户画像数据源;优选地,其中所述按照预设的存储和传输方式对所述用户画像数据源进行存储和传输,包括:对标准结构的数据进行硬件加密,采用区块链技术,以块结构进行存储;其中,所述标准结构的数据包括:用户画像数据源、事务日期和到前一个块的链接信息;基于TCP/IP协议,利用点对点模式传输在局域网内传输所述用户画像数据源。优选地,其中所述根据待画像用户的用户信息确定待画像用户的业务分类标签,并根据确定的业务分类标签进行行为分析,以获取用户标签,包括:按照不同的维度信息确定确定待画像用户的业务分类标签;其中,所述维度信息包括:基本情况、经营情况、业务需求和需求关注点;采用无监督方式抽取用户的业务分类标签,为每个样本的标签建立一个词袋,对词袋进行训练,训练的过程就是采集每种标签的词袋的过程;将训练样本向量化,通过机器学习分类模型或seq2seq深度模型进行训练,获得更精准的词袋,并按照用户的画像维度进行打标签,以获取用户标签。根据本专利技术的另一个方面,提供了一种用于构建用户画像的系统,所述系统包括:数据获取单元,用于获取用于构建用户画像的原始数据;其中,所述初始数据包括:税务数据、税控设备产生的行为信息、税控设备的位置信息和企业网络数据;数据处理单元,用于对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理,以获取标准格式的用户画像数据源,并按照预设的存储和传输方式对所述用户画像数据源进行存储和传输;画像分析单元,用于根据待画像用户的用户信息确定待画像用户的业务分类标签,并根据确定的业务分类标签进行行为分析,以获取用户标签。优选地,其中所述税务数据包括:登记认定数据、申报征收数据、违法违章数据、优惠减免数据、发票数据、评估证明数据、纳税信用数据和涉税风险数据;所述行为信息包括:开票行为、抄报税行为、清卡行为和领购发票行为。优选地,其中所述数据处理单元,对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理,包括:对获取的用于构建用户画像的原始数据进行缺失值处理、异常值处理、去重处理和噪音处理,以获取标准格式的用户画像数据源;优选地,其中所述数据处理单元,按照预设的存储和传输方式对所述用户画像数据源进行存储和传输,包括:对标准结构的数据进行硬件加密,采用区块链技术,以块结构进行存储;其中,所述标准结构的数据包括:用户画像数据源、事务日期和到前一个块的链接信息;基于TCP/IP协议,利用点对点模式传输在局域网内传输所述用户画像数据源。优选地,其中所述画像分析单元,根据待画像用户的用户信息确定待画像用户的业务分类标签,并根据确定的业务分类标签进行行为分析,以获取用户标签,包括:按照不同的维度信息确定确定待画像用户的业务分类标签;其中,所述维度信息包括:基本情况、经营情况、业务需求和需求关注点;采用无监督方式抽取用户的业务分类标签,为每个样本的标签建立一个词袋,对词袋进行训练,训练的过程就是采集每种标签的词袋的过程;将训练样本向量化,通过机器学习分类模型或seq2seq深度模型进行训练,获得更精准的词袋,并按照用户的画像维度进行打标签,以获取用户标签。本专利技术提供了一种用于构建用户画像的方法及系统,包括:获取用于构建用户画像的原始数据;对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理,以获取标准格式的用户画像数据源;根据待画像用户的用户信息确定待画像用户的业务分类标签,并根据确定的业务分类标签进行行为分析,以获取用户标签。本专利技术的系统支持税控设备集成,结合地理位置数据,提升构建用户画像数据的准确性;其次,软硬件结合,将区块链技术引入到存储分析上,同时实现局域网通信,保证画像数据的安全性;最后,装置采用独立分布式部署,可实现点对点模式通信,提升了数据分析与聚合能力。附图说明通过参考下面的附图,可以更为完整地理解本专利技术的示例性实施方式:图1为根据本专利技术实施方式的用于构建用户画像的方法100的流程图;以及图2为根据本专利技术实施方式的用于构建用户画像的系统200的结构示意图。具体实施方式现在参考附图介绍本专利技术的示例性实施方式,然而,本专利技术可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本专利技术,并且向所属
的技术人员充分传达本专利技术的范围。对于表示在附图中的示例性实施方式中的术语并不是对本专利技术的限定。在附图中,相同的单元/元件使用相同的附图标记。除非另有说明,此处使用的术语(包括科技术语)对所属
的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。图1为根据本专利技术实施方式的用于构建用户画像的方法100的流程图。如图1所示,本专利技术实施方式提供的用于构建用户画像的方法,支持税控设备集成,结合地理位置数据,本文档来自技高网...
【技术保护点】
1.一种用于构建用户画像的方法,其特征在于,所述方法包括:/n获取用于构建用户画像的原始数据;其中,所述初始数据包括:税务数据、税控设备产生的行为信息、税控设备的位置信息和企业网络数据;/n对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理,以获取标准格式的用户画像数据源,并按照预设的存储和传输方式对所述用户画像数据源进行存储和传输;/n根据待画像用户的用户信息确定待画像用户的业务分类标签,并根据确定的业务分类标签进行行为分析,以获取用户标签。/n
【技术特征摘要】
1.一种用于构建用户画像的方法,其特征在于,所述方法包括:
获取用于构建用户画像的原始数据;其中,所述初始数据包括:税务数据、税控设备产生的行为信息、税控设备的位置信息和企业网络数据;
对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理,以获取标准格式的用户画像数据源,并按照预设的存储和传输方式对所述用户画像数据源进行存储和传输;
根据待画像用户的用户信息确定待画像用户的业务分类标签,并根据确定的业务分类标签进行行为分析,以获取用户标签。
2.根据权利要求1所述的方法,其特征在于,所述税务数据包括:
登记认定数据、申报征收数据、违法违章数据、优惠减免数据、发票数据、评估证明数据、纳税信用数据和涉税风险数据;所述行为信息包括:开票行为、抄报税行为、清卡行为和领购发票行为。
3.根据权利要求1所述的方法,其特征在于,所述对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理,包括:
对获取的用于构建用户画像的原始数据进行缺失值处理、异常值处理、去重处理和噪音处理,以获取标准格式的用户画像数据源。
4.根据权利要求1所述的方法,其特征在于,所述按照预设的存储和传输方式对所述用户画像数据源进行存储和传输,包括:
对标准结构的数据进行硬件加密,采用区块链技术,以块结构进行存储;其中,所述标准结构的数据包括:用户画像数据源、事务日期和到前一个块的链接信息;
基于TCP/IP协议,利用点对点模式传输在局域网内传输所述用户画像数据源。
5.根据权利要求1所述的方法,其特征在于,所述根据待画像用户的用户信息确定待画像用户的业务分类标签,并根据确定的业务分类标签进行行为分析,以获取用户标签,包括:
按照不同的维度信息确定确定待画像用户的业务分类标签;其中,所述维度信息包括:基本情况、经营情况、业务需求和需求关注点;
采用无监督方式抽取用户的业务分类标签,为每个样本的标签建立一个词袋,对词袋进行训练,训练的过程就是采集每种标签的词袋的过程;将训练样本向量化,通过机器学习分类模型或seq2seq深度模型进行训练,获得更精准的词袋,并按照用户的画像维度进行打标签,以获取用户标签。
6.一种用于构建用户画像的系统,其特...
【专利技术属性】
技术研发人员:刘宇,陈皓,郑海洋,陈东至,季京生,董小康,张瑜,
申请(专利权)人:大象慧云信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。