一种旅游门票产品画像生成方法技术

技术编号:23559242 阅读:70 留言:0更新日期:2020-03-25 04:34
本发明专利技术涉及一种旅游门票产品画像生成方法,包括:S1、获取旅游门票的样本产品信息,提取旅游门票的样本产品特征;S2、根据旅游门票的样本产品特征和预设的产品标签数,构建标签树;S3、根据预设的样本标签数据集,通过文本分析技术和多分类算法,以训练得到大类标签预测模型;S4、由大类标签预测模型对实际产品信息进行大类标签分类,将大类标签作为一级标签数据;S5、通过关键词提取方法对实际产品信息进行标签细分,得二级标签数据,结合一级标签数据,即得到旅游门票的产品画像。与现有技术相比,本发明专利技术能够自动准确地对产品信息进行一级标签分类预测和二级标签细分,解决了人工标签工作量巨大且不准确的问题。

A method of producing tourist ticket product portrait

【技术实现步骤摘要】
一种旅游门票产品画像生成方法
本专利技术涉及互联网大数据
,尤其是涉及一种旅游门票产品画像生成方法。
技术介绍
随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘潜在的商业价值。于是,“数据画像”的概念也就应运而生,对于企业来说,利用大数据进行“画像”建设是大数据在企业应用上最重要的场景之一,而产品画像是否精准,则会直接影响到各上层应用的效果,在旅游行业为了能够给用户推荐更合适的产品,旅游门票产品的画像尤为重要,精准的产品画像才能够有效的支撑用户画像、产品推荐、精准营销等应用。传统的旅游门票产品画像工作都是通过人工配置的方式进行,由产品运营经理在配置产品信息的时候,基于业务经验,人工提取产品信息中的关键词,以人工判断的形式给产品设置相应的标签,这样的方法存在以下缺点:一方面导致运营人员工作量巨大繁杂,另一方面很难保证人工标签的产品画像准确度。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种旅游门票产品画像生成方法,能够自动快速地生成旅游门票对应的产品画像。本专利技术的目的可以通过以下技术方案来实现:一种旅游门票产品画像生成方法,包括以下步骤:S1、获取旅游门票的样本产品信息,提取旅游门票的样本产品特征;S2、根据旅游门票的样本产品特征,结合预设的产品标签数,构建标签树,其中,标签树包括一级标签和二级标签;S3、根据预设的样本标签数据集,通过文本分析技术和多分类算法,以训练得到大类标签预测模型;S4、由大类标签预测模型对旅游门票的实际产品信息进行大类标签分类,将大类标签作为旅游门票的一级标签数据;S5、通过关键词提取方法对旅游门票的实际产品信息进行标签细分,得到旅游门票的二级标签数据,结合步骤S4中旅游门票的一级标签数据,即得到旅游门票的产品画像。进一步地,所述样本标签数据集包括多个产品信息,所述产品信息包括多个景点描述文档,所述景点描述文档由不同的产品特征组成,所述产品特征包括产品标题和对应的产品描述文本。进一步地,所述一级标签包括文化、自然、玩乐、运动和历史共五个大类。进一步地,所述步骤S3具体包括以下步骤:S31、从样本标签数据集中随机选择N个景点描述文档作为训练集,样本标签数据集中剩余的景点描述文档作为测试集;S32、将训练集输入逻辑回归模型,采用文本分析技术和链式关联多分类算法进行模型训练,得到训练好的逻辑回归模型;S33、将测试集输入训练好的逻辑回归模型,若输出分类概率小于或等于预设概率值,则该训练好的逻辑回归模型即为大类标签预测模型,否则返回步骤S31。进一步地,所述步骤S5具体包括以下步骤:S51、基于预设的分词词库,对旅游门票的实际产品信息进行分词处理;S52、从多个分词中提取关键词;S53、将提取的关键词映射至标签树的二级标签,得到旅游门票的二级标签数据;S54、结合旅游门票的一级标签数据和二级标签数据,即得到旅游门票的产品画像。进一步地,所述步骤S51具体是采用Ansj中文分词工具对旅游门票的实际产品信息进行分词处理。进一步地,所述步骤S52具体是采用TF-IDF算法从分词中提取关键词。进一步地,所述步骤S52具体包括以下步骤:S521、计算各分词的词频和逆向文件频率,得到各分词的TF-IDF值;S522、将各分词的TF-IDF值按从大至小的顺序进行排序,选择TF-IDF值排序靠前70%的分词作为关键词。进一步地,所述词频的计算公式为:其中,tf为分词的词频,nw为分词在产品信息中出现的次数,np为产品信息中心出现各分词的次数;逆向文件频率的计算公式为:其中,idf为分词的逆向文件频率,∑Dw为产品信息中包含该分词的景点文档数量,∑Da为产品信息中全部景点文档数量;TF-IDF值的计算公式为:TF-IDF=tf*idf。与现有技术相比,本专利技术具有以下优点:一、本专利技术基于文本分析技术,利用多分类算法,能够自动对产品信息进行大类标签标注,结合关键词提取方法,能够进一步对产品信息进行大类标签的细分,最终自动生成包含一级标签和二级标签的产品画像,解决了传统人工标签工作量巨大繁杂的问题。二、本专利技术通过构建标签树,并根据样本标签数据集进行训练和测试,保证了大类标签预测模型的可靠性,能够将产品精确地进行一级标签分类,此外,通过将排序靠前的关键词映射至二级标签,使得一级标签与二级标签为相互对应的关系,最终能够确保产品画像的准确性。附图说明图1为本专利技术的方法流程示意图;图2为实施例中旅游门票产品画像生成逻辑示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。如图1所示,一种旅游门票产品画像生成方法,包括以下步骤:S1、获取旅游门票的样本产品信息,提取旅游门票的样本产品特征;S2、根据旅游门票的样本产品特征,结合预设的产品标签数,构建标签树,其中,标签树包括一级标签和二级标签;S3、根据预设的样本标签数据集,通过文本分析技术和多分类算法,以训练得到大类标签预测模型;S4、由大类标签预测模型对旅游门票的实际产品信息进行大类标签分类,将大类标签作为旅游门票的一级标签数据;S5、通过关键词提取方法对旅游门票的实际产品信息进行标签细分,得到旅游门票的二级标签数据,结合步骤S4中旅游门票的一级标签数据,即得到旅游门票的产品画像。本专利技术基于产品信息中的景点描述文档,采用文本分析技术对产品描述文本进行自动标签分类,标签分类主要包含大类标签分类及细分标签分类,大类标签分类主要采用链式关联多分类技术进行多标签分类,而细分标签主要采用关键词提取的方式提取相关关键词后再映射至各细分标签。如图2所示,本实施例首先基于产品信息和产品标签数,梳理出门票产品的标签树体系,标签树体系主要包含两级标签,第一级为大类标签,根据门票产品的主题特征,分为文化、自然、玩乐、运动和历史共五大类,各大类下再细分为二级标签。完成标签树的构建后,选取部分样本标签数据作为模型训练样本,根据产品标签大类,对训练样本进行大类标签标注,基于文本分析技术构建产品大类标签预测模型,利用训练样本完成模型训练后将该模型用于全量数据的大类标签分类预测。完成门票产品的大类标签分类后将各大类标签作为标签画像体系的一级标签。完成大类标签分类后,再基于各大类标签进行标签细分,即门票产品二级标签。区别于一级标签的标签预测模式,二级细分标签主要根据门票产品的关键词进行分类。利用文本信息挖掘技术——TF-IDF算法,对各门票产品描述信息进行关键词提取,再将高频关键词结合标签树进行关键词——标签映射,从而生成二级标签。具体的,将本专利技术方法应用于实施例的主要过程包括:1、样本标签数据整理:包括景点描述文档和分词词库两部分。本文档来自技高网...

【技术保护点】
1.一种旅游门票产品画像生成方法,其特征在于,包括以下步骤:/nS1、获取旅游门票的样本产品信息,提取旅游门票的样本产品特征;/nS2、根据旅游门票的样本产品特征,结合预设的产品标签数,构建标签树,其中,标签树包括一级标签和二级标签;/nS3、根据预设的样本标签数据集,通过文本分析技术和多分类算法,以训练得到大类标签预测模型;/nS4、由大类标签预测模型对旅游门票的实际产品信息进行大类标签分类,将大类标签作为旅游门票的一级标签数据;/nS5、通过关键词提取方法对旅游门票的实际产品信息进行标签细分,得到旅游门票的二级标签数据,结合步骤S4中旅游门票的一级标签数据,即得到旅游门票的产品画像。/n

【技术特征摘要】
1.一种旅游门票产品画像生成方法,其特征在于,包括以下步骤:
S1、获取旅游门票的样本产品信息,提取旅游门票的样本产品特征;
S2、根据旅游门票的样本产品特征,结合预设的产品标签数,构建标签树,其中,标签树包括一级标签和二级标签;
S3、根据预设的样本标签数据集,通过文本分析技术和多分类算法,以训练得到大类标签预测模型;
S4、由大类标签预测模型对旅游门票的实际产品信息进行大类标签分类,将大类标签作为旅游门票的一级标签数据;
S5、通过关键词提取方法对旅游门票的实际产品信息进行标签细分,得到旅游门票的二级标签数据,结合步骤S4中旅游门票的一级标签数据,即得到旅游门票的产品画像。


2.根据权利要求1所述的一种旅游门票产品画像生成方法,其特征在于,所述样本标签数据集包括多个产品信息,所述产品信息包括多个景点描述文档,所述景点描述文档由不同的产品特征组成,所述产品特征包括产品标题和对应的产品描述文本。


3.根据权利要求1所述的一种旅游门票产品画像生成方法,其特征在于,所述一级标签包括文化、自然、玩乐、运动和历史共五个大类。


4.根据权利要求2所述的一种旅游门票产品画像生成方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、从样本标签数据集中随机选择N个景点描述文档作为训练集,样本标签数据集中剩余的景点描述文档作为测试集;
S32、将训练集输入逻辑回归模型,采用文本分析技术和链式关联多分类算法进行模型训练,得到训练好的逻辑回归模型;
S33、将测试集输入训练好的逻辑回归模型,若输出分类概率小于或等于预设概率值,则该训练好的逻辑回归模型即为大类标签预测模型,否则返回步骤S31。
<...

【专利技术属性】
技术研发人员:付仁杰黄俊洪清华刘源远
申请(专利权)人:上海景域文化传播股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1