用户标签挖掘方法、装置、存储介质及电子设备制造方法及图纸

技术编号:25598847 阅读:18 留言:0更新日期:2020-09-11 23:56
本申请实施例公开了一种用户标签挖掘方法、装置、存储介质及电子设备,属于数据处理领域。方法包括:服务器获取音频数据,基于语音识别ASR算法将音频数据转成文本数据,对音频数据和文本数据进行分析得到语料集合,语料集合中包括角色数据、上下文逻辑文本数据,基于预训练模型对语料集合和预设标签问题进行分析得到至少一种用户的标签数据,通过此种方式可精确的定位用户标签的位置并得到更全面的用户标签,且上述采集用户标签的方式可移植性强。

【技术实现步骤摘要】
用户标签挖掘方法、装置、存储介质及电子设备
本申请涉及数据处理领域,尤其涉及一种用户标签挖掘方法、装置、存储介质及电子设备。
技术介绍
随着互联网的发展,数据在互联网行业扮演着越来越重要的角色,例如:零售、交通、社交、搜索、教育、医疗等各个行业均涉及大规模的数据挖掘、数据处理,以提供有效服务或提升服务质量。以在线教育为例,在线教育场景中,为了提供更便捷的服务,通过采集包含用户标签的用户画像能够辅助工作人员(如:销售顾问和/或销售人员和/或教师)获取更多与用户(学生和/家长)相关的信息,从而便于及时为用户提供更全面的服务,类似的应用场景在其他领域也较为普遍。但在相关技术中,通常采用正则表达式和关键词的方式来采集用户标签,采集的方式可移植性较差和容错性较差,且所采集的用户标签不够准确、不够全面。
技术实现思路
本申请实施例提供了一种用户标签挖掘方法、装置、存储介质及电子设备,可以解决相关技术中采集用户标签的方式存在可移植性较差和容错性较差,且所采集的用户标签不够准确、不够全面的问题。所述技术方案如下:第一方面,本申请实施例提供了一种用户标签挖掘方法,所述方法包括:获取音频数据;基于语音识别ASR算法将所述音频数据转成文本数据;对所述音频数据和所述文本数据进行分析得到语料集合;其中,所述语料集合中包括角色数据和上下文逻辑文本数据;基于预训练模型对所述语料集合和预设标签问题进行分析得到至少一种标签数据。第二方面,本申请实施例提供了一种用户标签挖掘装置,所述用户标签挖掘装置包括:获取模块,用于获取音频数据;处理模块,用于基于语音识别ASR算法将所述音频数据转成文本数据;第一分析模块,用于对所述音频数据和所述文本数据进行分析得到语料集合;其中,所述语料集合中包括角色数据和上下文逻辑文本数据;第二分析模块,用于基于预训练模型对所述语料集合和预设标签问题进行分析得到至少一种标签数据。第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。第四方面,本申请实施例提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。本申请一些实施例提供的技术方案带来的有益效果至少包括:本申请实施例的方案在执行时,服务器获取音频数据,基于语音识别ASR算法将音频数据转成文本数据,对音频数据和文本数据进行分析得到语料集合,语料集合中包括角色数据和上下文逻辑文本数据,基于预训练模型对语料集合和预设标签问题进行分析得到至少一种用户的标签数据,通过此种方式可精确的定位用户标签的位置并得到更全面的用户标签,且上述采集用户标签的方式可移植性较强。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种系统架构图;图2是本申请实施例提供的用户标签挖掘方法的流程示意图;图3是本申请实施例提供的用户标签挖掘方法的另一流程示意图;图4是本申请实施例提供的一种装置的结构示意图;图5是本申请实施例提供的一种装置的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。图1示出了可以应用本申请实施例的用户标签挖掘方法或用户标签挖掘装置的示例性系统架构100的示意图。如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质,终端设备101、102、103上可以安装有各种通信客户端应用,例如:视频录制应用、视频播放应用、语音交互应用、搜索类应用、及时通信工具、邮箱客户端、社交平台软件等。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。网络104可以包括各种类型的有线通信链路或无线通信链路,例如:有线通信链路包括光纤、双绞线或同轴电缆的,无线通信链路包括蓝牙通信链路、无线保真(WIreless-FIdelity,Wi-Fi)通信链路或微波通信链路等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为软件时,可以是安装于上述所列举的电子设备中。其可以实现呈多个软件或软件模块(例如:用来提供分布式服务),也可以实现成单个软件或软件模块,在此不作具体限定。当终端设备101、102、103为硬件时,其上还可以安装有显示设备和摄像头,显示设备显示可以是各种能实现显示功能的设备,摄像头用于采集视频流;例如:显示设备可以是阴极射线管显示器(Cathoderaytubedisplay,简称CR)、发光二极管显示器(Light-emittingdiodedisplay,简称LED)、电子墨水屏、液晶显示屏(Liquidcrystaldisplay,简称LCD)、等离子显示面板(Plasmadisplaypanel,简称PDP)等。用户可以利用终端设备101、102、103上的显示设备,来查看显示的文字、图片、视频等信息。需要说明的是,本申请实施例提供的用户标签挖掘方法一般由服务器105执行,相应的,用户标签挖掘装置一般设置于服务器105中。服务器105可以是提供各种服务的服务器,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。本申请中的服务器105可以为提供各种服务的终端设备,如:服务器获取教学视频,并对教学视频处理得到一个或多个有效语音小片段,基于预设间隔时长对一个或多个有效语音小片段进行分组得到一个或多个长语音片段,分析一个或多个长语音片段获取有效发音时长占比信息,获取一个或多个长语音片段各自对应的一个或多个视频片段,分析一个或多个视频片段获取一个或多个视频片段各自对应的正脸数、笑脸数、正脸占比和笑脸占比,将分析结果和一个或多个视频片段输入至二分类模型进行分类处理得到一个或多个视频片段各自对应的分类结果,分析结果包括有效发音时长占比信息、正脸数、笑脸数、正脸占比和笑脸占比中的至少一种,基于分类结果确定至少一个视频片本文档来自技高网...

【技术保护点】
1.一种用户标签挖掘方法,其特征在于,所述方法包括:/n获取音频数据;/n基于语音识别ASR算法将所述音频数据转成文本数据;/n对所述音频数据和所述文本数据进行分析得到语料集合;其中,所述语料集合中包括角色数据和上下文逻辑文本数据;/n基于预训练模型对所述语料集合和预设标签问题进行分析得到至少一种标签数据。/n

【技术特征摘要】
1.一种用户标签挖掘方法,其特征在于,所述方法包括:
获取音频数据;
基于语音识别ASR算法将所述音频数据转成文本数据;
对所述音频数据和所述文本数据进行分析得到语料集合;其中,所述语料集合中包括角色数据和上下文逻辑文本数据;
基于预训练模型对所述语料集合和预设标签问题进行分析得到至少一种标签数据。


2.根据权利要求1所述的方法,其特征在于,所述预训练模型的训练过程,包括:
将预设语料集合和所述预设标签问题作为输入特征输入至深度神经网络Bert模型中;
基于所述预设标签问题获取所述预设语料集合中的答案数据;
分析所述答案数据,并将所述预设标签数据作为所述答案数据的分析结果;其中,所述预设标签数据为所述深度神经网络Bert模型的输出特征;
基于所述输入特征和所述输出特征进行至少一次特征提取训练得到所述预训练模型。


3.根据权利要求1所述的方法,其特征在于,所述基于预训练模型对所述语料集合和预设标签问题进行分析得到至少一种标签数据,包括:
将所述语料集合和所述预设标签问题作为输入特征输入至所述预训练模型;
基于所述预训练模型提取所述语料集合中的至少一种问题数据,并分析所述至少一种问题数据得到与之对应的至少一种答案数据;
从所述至少一种答案数据中获取所述至少一种标签数据。


4.根据权利要求3所述的方法,其特征在于,所述从所述至少一种答案数据中获取所述至少一种标签数据,包括:
对所述至少一种答案数据进行语义识别分析获取语义数据;
分析所述语义数据获取所述至少一种标签数据。


5.根据权利要求3所述的方法,其特征在于,所述基于所述预训练模型提取所述语料...

【专利技术属性】
技术研发人员:王鹏兰天星包英泽
申请(专利权)人:北京大米科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1