【技术实现步骤摘要】
本专利技术涉及数据治理,更具体地说,涉及一种基于大数据及ai技术的非结构化数据治理方法。
技术介绍
1、非结构化数据(unstructured data)是指那些没有固定或预定义数据模型的数据,它不像结构化数据那样以二维表结构逻辑表达,而是不规则或不完整,不方便用数据库二维逻辑表来表现的数据。非结构化数据通常包括文本文件、图片、音频、视频、社交媒体帖子、电子邮件、日志文件、xml、json等,非结构化数据数据治理的主流适用环境涵盖了广告营销、零售业、教育、金融以及制造业等多个领域,在这些领域中,数据治理可以帮助组织实现数据的规范化管理,提高数据质量,保护数据安全,优化决策过程,促进业务创新。
2、对于入驻电商平台以及投入费用进行了网络市场营销的企业来说,在社交媒体、在线论坛、电商平台等渠道中,消费者会产生大量的非结构化文本数据,如评论、帖子、反馈等,这些文本数据中包含了用户对某个产品、服务或事件的情感态度,这些情感态度极有可能对刷到上述评论、帖子的潜在用户提供购物导向,可以挖掘这些非结构化数据中的情感倾向,可以为企业提供有价
...【技术保护点】
1.一种基于大数据及AI技术的非结构化数据治理方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于大数据及AI技术的非结构化数据治理方法,其特征在于:所述步骤S1中AI训练情感模型通过迭代地更新模型参数同时使用交叉验证来优化模型的参数,如学习率、批次大小、迭代次数等使模型能够不断学习从文本数据中提取更为准确的情感特征。
3.根据权利要求1所述的一种基于大数据及AI技术的非结构化数据治理方法,其特征在于:所述步骤S2中数据源包括电商平台(如拼多多、淘宝、京东、亚马逊等平台)上的用户评价和产品反馈、社交媒体平台(如微博、Twitter
...【技术特征摘要】
1.一种基于大数据及ai技术的非结构化数据治理方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于大数据及ai技术的非结构化数据治理方法,其特征在于:所述步骤s1中ai训练情感模型通过迭代地更新模型参数同时使用交叉验证来优化模型的参数,如学习率、批次大小、迭代次数等使模型能够不断学习从文本数据中提取更为准确的情感特征。
3.根据权利要求1所述的一种基于大数据及ai技术的非结构化数据治理方法,其特征在于:所述步骤s2中数据源包括电商平台(如拼多多、淘宝、京东、亚马逊等平台)上的用户评价和产品反馈、社交媒体平台(如微博、twitter)上用户评论和产品相关帖子以及在线论坛(如知乎、豆瓣)上产品的讨论和问答。
4.根据权利要求3所述的一种基于大数据及ai技术的非结构化数据治理方法,其特征在于:所述步骤s2中非结构数据为在电商平台、社交媒体平台以及在线论坛上用户评价中所提取到的文档、图片、视频链接和视频文件等数据。
5.根据权利要求1所述的一种基于大数据及ai技术的非结构化数据治理方法,其特征在于:所述步骤s3中的噪音数据包括广告、重复信息或其它与产品及对产品评价无关的垃圾数据。
6.根据权利要求3所述的一种基于大数据及ai技术的非结构化数据治理方法,其特征在于:所述步骤s3中的目标数据还包括元数据提取,具体为收集各发布渠道的用户对于产品及产品售后服务的评价以及用户发布时间等信息,并添加时间趋势的走向。
7.根据权利要求1所述的一种基于大数据及ai技术的非结构化数据治理方法,其特征在于:所述步骤s4中情感倾向包括积极、消极、中性...
【专利技术属性】
技术研发人员:李强,
申请(专利权)人:西安中链奇点信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。