标签挖掘模型的建立方法、装置、存储介质及终端制造方法及图纸

技术编号：23892391 阅读：21 留言：0更新日期：2020-04-22 07:00

本发明专利技术实施例公开了一种标签挖掘模型的建立方法、装置、存储介质及终端。所述方法包括：获取标签挖掘正样本数据和标签挖掘负样本数据；其中，所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度；调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例，生成标签挖掘训练数据集；根据所述标签挖掘训练数据集对预设机器学习模型进行训练，生成标签挖掘模型。通过采用上述技术方案，通过构建标签挖掘模型，能够快速、准确地预测出用户标签，从而能够给用户信息数据打上用户画像标签。

The establishment method, device, storage medium and terminal of tag mining model

全部详细技术资料下载

【技术实现步骤摘要】
标签挖掘模型的建立方法、装置、存储介质及终端
本专利技术实施例涉及数据分析
，尤其涉及标签挖掘模型的建立方法、装置、存储介质及终端。
技术介绍
在数据分析和用户运营领域，通常会根据实际业务领域的运营需要，给用户打上业务属性的标签(有车、有房等)，以供分析、运营和营销活动时提供用户的筛选和细化，以实现精准营销。以“车主人群”标签为例，现需要给有车用户推送营销广告，如推销各银行的车主信用卡、汽车保险、汽车用品、加油优惠等，这是从消费交易流水数据中挖掘车主标签的一个直接的驱动因素。准确地从个人消费金融交易流水和其备注文本信息中识别出潜在有车人群，给其打上“车主人群”标签，是完善用户画像及后续对其进行广告推送和营销的必要前提。相关技术中，一般使用“关键词命中”的方法给用户生成定性标签。传统的关键词命中的方法，准确率低。
技术实现思路
本专利技术实施例提供一种标签挖掘模型的建立方法、装置、存储介质及终端，以快速、准确地预测出用户标签。第一方面，本专利技术实施例提供了一种标签挖掘模型的建立方法，该方法包括：获取标签挖掘正样本数据和标签挖掘负样本数据；其中，所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度；调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例，生成标签挖掘训练数据集；根据所述标签挖掘训练数据集对预设机器学习模型进行训练，生成标签挖掘模型。第二方面，本专利技术实施例还提供了一种标签挖掘模型的建立装...

【技术保护点】
1.一种标签挖掘模型的建立方法，其特征在于，包括：/n获取标签挖掘正样本数据和标签挖掘负样本数据；其中，所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度；/n调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例，生成标签挖掘训练数据集；/n根据所述标签挖掘训练数据集对预设机器学习模型进行训练，生成标签挖掘模型。/n

【技术特征摘要】
1.一种标签挖掘模型的建立方法，其特征在于，包括：
获取标签挖掘正样本数据和标签挖掘负样本数据；其中，所述标签挖掘正样本数据与预先设定的标签定义的关联度大于所述标签挖掘负样本数据与所述预先设定的标签定义的关联度；
调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例，生成标签挖掘训练数据集；
根据所述标签挖掘训练数据集对预设机器学习模型进行训练，生成标签挖掘模型。

2.根据权利要求1所述的方法，其特征在于，获取标签挖掘正样本数据和标签挖掘负样本数据，包括：
获取与所述预先设定的标签定义关联的正向关键词和负向关键词；其中，所述正向关键词与所述预先设定的标签定义正相关，所述负向关键词与所述预先设定的标签定义负相关；
分别基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索，根据检索结果从所述标签挖掘样本数据集中确定标签挖掘正样本数据和标签挖掘负样本数据。

3.根据权利要求2所述的方法，其特征在于，分别基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索，根据检索结果从所述标签挖掘样本数据中确定标签挖掘正样本数据和标签挖掘负样本数据，包括：
分别基于所述正向关键词和所述负向关键词对标签挖掘样本数据进行检索，获取所述正向关键词命中频次和所述负向关键词命中频次；
在所述标签挖掘样本数据中筛选出所述正向关键词命中频次大于第一频次阈值且所述负向关键词命中频次小于第二频次阈值的第一目标数据作为标签挖掘正样本数据；其中，所述第一频次阈值大于所述第二频次阈值；
在所述标签挖掘样本数据中筛选出所述正向关键词命中频次小于所述第一频次阈值且所述负向关键词命中频次大于所述第二频次阈值的第二目标数据作为标签挖掘负样本数据。

4.根据权利要求3所述的方法，其特征在于，调整所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例，包括：
调整所述第一频次阈值和/或第二频次阈值，直至所述标签挖掘正样本数据和所述标签挖掘负样本数据的比例达到预设比例阈值。

5.根据权利要求2所述的方法，其特征在于，根据所述标签挖掘训练数据集...

【专利技术属性】
技术研发人员：刘俊裕，
申请(专利权)人：深圳市随手金服信息科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人