标签挖掘模型的建立方法、装置、存储介质及终端制造方法及图纸

技术编号:23892391 阅读:21 留言:0更新日期:2020-04-22 07:00
本发明专利技术实施例公开了一种标签挖掘模型的建立方法、装置、存储介质及终端。所述方法包括:获取标签挖掘正样本数据和标签挖掘负样本数据;其中,所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度;调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例,生成标签挖掘训练数据集;根据所述标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型。通过采用上述技术方案,通过构建标签挖掘模型,能够快速、准确地预测出用户标签,从而能够给用户信息数据打上用户画像标签。

The establishment method, device, storage medium and terminal of tag mining model

【技术实现步骤摘要】
标签挖掘模型的建立方法、装置、存储介质及终端
本专利技术实施例涉及数据分析
,尤其涉及标签挖掘模型的建立方法、装置、存储介质及终端。
技术介绍
在数据分析和用户运营领域,通常会根据实际业务领域的运营需要,给用户打上业务属性的标签(有车、有房等),以供分析、运营和营销活动时提供用户的筛选和细化,以实现精准营销。以“车主人群”标签为例,现需要给有车用户推送营销广告,如推销各银行的车主信用卡、汽车保险、汽车用品、加油优惠等,这是从消费交易流水数据中挖掘车主标签的一个直接的驱动因素。准确地从个人消费金融交易流水和其备注文本信息中识别出潜在有车人群,给其打上“车主人群”标签,是完善用户画像及后续对其进行广告推送和营销的必要前提。相关技术中,一般使用“关键词命中”的方法给用户生成定性标签。传统的关键词命中的方法,准确率低。
技术实现思路
本专利技术实施例提供一种标签挖掘模型的建立方法、装置、存储介质及终端,以快速、准确地预测出用户标签。第一方面,本专利技术实施例提供了一种标签挖掘模型的建立方法,该方法包括:获取标签挖掘正样本数据和标签挖掘负样本数据;其中,所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度;调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例,生成标签挖掘训练数据集;根据所述标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型。第二方面,本专利技术实施例还提供了一种标签挖掘模型的建立装置,该装置包括:正负样本数据获取模块,用于获取标签挖掘正样本数据和标签挖掘负样本数据;其中,所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度;正负样本数据调整模块,用于调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例,生成标签挖掘训练数据集;标签挖掘模型训练模块,用于根据所述标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型。第三方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术实施例提供的标签挖掘模型的建立方法。第四方面,本专利技术实施例提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本专利技术实施例提供的标签挖掘模型的建立方法。本专利技术实施例中提供的标签挖掘模型的建立方法,获取标签挖掘正样本数据和标签挖掘负样本数据;其中,标签挖掘正样本数据与预先设定的标签定义的关联度大于标签挖掘负样本数据与预先设定的标签定义的关联度;调整标签挖掘正样本数据和标签挖掘负样本数据的比例,生成标签挖掘训练数据集;根据标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型。通过采用上述技术手段,通过构建标签挖掘模型,能够快速、准确地预测出用户标签,从而能够给用户信息数据打上用户画像标签。附图说明图1为本专利技术实施例提供的传统打标签的流程示意图;图2为本专利技术实施例提供的打“车主人群”标签的过程示意图;图3为本专利技术实施例提供的一种标签挖掘模型的建立方法的流程示意图;图4为本专利技术实施例提供的标签挖掘正样本数据和所述标签挖掘负样本数据的比例的调整过程示意图;图5为本专利技术实施例提供的“车主人群”标签模型建立示意图;图6为本专利技术实施例提供的“车主人群”标签预测示意图;图7为本专利技术实施例提供的另一种标签挖掘模型的建立方法的流程示意图;图8为本专利技术实施例提供的用户标签预测系统示意图;图9为本专利技术实施例提供的一种标签挖掘模型的建立装置的结构框图;图10为本专利技术实施例提供的一种终端的结构框图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。相关技术中,关键词命中的方法的直观之处在于将标签的概念进行定义,并转化成一组能够描述和刻画标签对象特性的关键词,然后以SQL(StructuredQueryLanguage,结构化查询语言)查询等技术检测文本数据中是否包含这些关键词,以此为判断标准打卡目标标签。图1为本专利技术实施例提供的传统打标签的流程示意图,如图1所示,具体的,该方法大致可以分解为四个处理步骤:1.标签概念定义;2.标签关键词组收集;3.SQL检测关键词命中;4.按命中频次打标签。以定义“车主人群”标签为例,详细处理过程如图2所示。然而,传统关键词命中的方法,虽然准确度高,但覆盖率低和灵活性差。具体的,基于关键词命中的方法中,受限于关键词枚举,在文本挖掘和抽取标签时,很难覆盖大部分的情况,导致标签覆盖率低。如“加油费”是刻画“车主人群”给汽车加油消费的一个优良的关键词;但“92#”的文本,却无法被“加油费”关键词所覆盖。中文自然语言表述的多样性,是基于关键词命中的打标签方法所无法处理的。特别地,在“车主人群”的关键词规则定义下,在我们积累的海量用户记账数据中,只能给2.747%的用户打上“是”的取值。另外,若当下有个营销任务希望覆盖总用户量10%的潜在有车用户,“车主人群”标签并不能标记足够的用户供使用。而网络新词的涌现,也会为关键词命中的方法带来可扩展性的问题,导致标签应用的灵活性差。因此,传统关键词命中技术方案存在覆盖度低和灵活性差两大缺点。图3为本专利技术实施例提供的一种标签挖掘模型的建立方法的流程示意图,该方法可以由标签挖掘模型的建立装置执行,其中该装置可由软件和/或硬件实现,一般可集成在终端设备中。如图3所示,该方法包括:步骤301、获取标签挖掘正样本数据和标签挖掘负样本数据。其中,所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度。示例性的,终端可以包括但不限于智能手机、平板电脑、笔记本电脑、掌上电脑等终端设备。其中,该终端的操作系统可以包括但不限于Android操作系统、IOS操作系统、WindowsPhone8操作系统等。在本专利技术实施例中,预先设定的标签定义可以理解为能够涵盖标签的本质特征的概括性信息。示例性的,“车主人群”可以描述为“拥有自用私家车,包含贷款购车的用户”。获取与预先设定的标签定义正相关的标签挖掘正样本数据,并获取与预先设定的标签定义负相关的标签挖掘负样本数据。可以理解的是,标签挖掘正样本数据和标签挖掘负样本数据为两个定义相反的标签对应的样本数据。以“车主人群”为例,标签挖掘正样本数据为拥有私家车的用户的消费交易流水数据,也即“车主人群”的消费交易流水数据;标签挖掘负样本数据为没有私家车的用户的消费交易流水数据,也即“非车主人群”的消费交易流水数据。可选的,获取标签挖掘正样本数据和标签挖掘负样本数据,包括:获取与所述预先设定的标签定义本文档来自技高网...

【技术保护点】
1.一种标签挖掘模型的建立方法,其特征在于,包括:/n获取标签挖掘正样本数据和标签挖掘负样本数据;其中,所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度;/n调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例,生成标签挖掘训练数据集;/n根据所述标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型。/n

【技术特征摘要】
1.一种标签挖掘模型的建立方法,其特征在于,包括:
获取标签挖掘正样本数据和标签挖掘负样本数据;其中,所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度;
调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例,生成标签挖掘训练数据集;
根据所述标签挖掘训练数据集对预设机器学习模型进行训练,生成标签挖掘模型。


2.根据权利要求1所述的方法,其特征在于,获取标签挖掘正样本数据和标签挖掘负样本数据,包括:
获取与所述预先设定的标签定义关联的正向关键词和负向关键词;其中,所述正向关键词与所述预先设定的标签定义正相关,所述负向关键词与所述预先设定的标签定义负相关;
分别基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索,根据检索结果从所述标签挖掘样本数据集中确定标签挖掘正样本数据和标签挖掘负样本数据。


3.根据权利要求2所述的方法,其特征在于,分别基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索,根据检索结果从所述标签挖掘样本数据中确定标签挖掘正样本数据和标签挖掘负样本数据,包括:
分别基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索,获取所述正向关键词命中频次和所述负向关键词命中频次;
在所述标签挖掘样本数据中筛选出所述正向关键词命中频次大于第一频次阈值且所述负向关键词命中频次小于第二频次阈值的第一目标数据作为标签挖掘正样本数据;其中,所述第一频次阈值大于所述第二频次阈值;
在所述标签挖掘样本数据中筛选出所述正向关键词命中频次小于所述第一频次阈值且所述负向关键词命中频次大于所述第二频次阈值的第二目标数据作为标签挖掘负样本数据。


4.根据权利要求3所述的方法,其特征在于,调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例,包括:
调整所述第一频次阈值和/或第二频次阈值,直至所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例达到预设比例阈值。


5.根据权利要求2所述的方法,其特征在于,根据所述标签挖掘训练数据集...

【专利技术属性】
技术研发人员:刘俊裕
申请(专利权)人:深圳市随手金服信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1