一种智能用户标签确定方法、终端设备及存储介质技术

技术编号:28038370 阅读:20 留言:0更新日期:2021-04-09 23:21
本发明专利技术涉及一种智能用户标签确定方法、终端设备及存储介质,该方法包括以下步骤:根据确定用户标签所需的数据来源将用户标签分成简单标签和复杂标签,其中,简单标签只需要结构化数据,复杂标签信息同时存在多模态数据中;简单标签采用单一模态标签确定方法来确定,以及复杂标签采用深度学习算法确定方法来确定。本发明专利技术利用多模态数据之间的互补性,并剔除多模态数据间的冗余性,从而能够更准确、更全面确定用户标签和提高用户标签确定方法的泛化性能,更好地推广和应用。

【技术实现步骤摘要】
一种智能用户标签确定方法、终端设备及存储介质
本专利技术涉及大数据处理领域,具体地涉及一种基于多模态数据的智能用户标签确定方法、终端设备及存储介质。
技术介绍
近几年随着移动互联网、智能终端和云存储的迅猛发展,多样化的社交媒体网络应运而生。用户在不同的社交、媒体和各种政务平台留下了丰富的用户信息和海量的结构化与非结构化数据,尤其是非结构化数据,如文本信息,图像,视频和语音等数据,这些数据具有不同模态,且有非常高的真实性跟多样性,对用户标签的确定具有重要的意义。用户标签指对某一类特定群体或对象的某项特征进行的抽象分类和概括,具有分类特征。基于确定的用户标签,有很多应用可以开展,商业方面如精准营销、产品效果评估和数据挖掘等,在社会治理方面如精准的侦查识别、人员分类和公共安全的风险预测等。因此用户标签确定的准确性显得非常重要。目前针对用户标签的确定主要有两个办法:1.基于单一模态的数据来确定用户标签,如利用结构化的数据,采用机器学习来确定用户标签;2.基于多个单一模态的用户标签结果,人为或者专家法则进行标签结果的融合,最终确定用户标签。上述办法不足如下:方法1利用单一模态确定用户标签,对于简单的用户标签效果还行,如用户性别、年龄等标签;但对于稍微复杂标签,如用户兴趣爱好标签,社会治理中用户涉毒、涉黄等标签,并不能准确地刻画用户标签;面对如今海量的结构化跟非结构化数据,人为和专家法则的方法,具有人工投入量大且效率低,同时专家法则是基于先验知识,算法的准确率和泛化效果往往比较差。
技术实现思路
r>本专利技术旨在提供一种基于多模态数据的智能用户标签确定方法、终端设备及存储介质,以解决上述问题。为此,本专利技术采用的具体技术方案如下:根据本专利技术的一方面,提供了一种智能用户标签确定方法,其包括以下步骤:根据确定用户标签所需的数据来源将用户标签分成简单标签和复杂标签,其中,简单标签只需要结构化数据,复杂标签信息同时存在多模态数据中;简单标签采用单一模态标签确定方法来确定,以及复杂标签采用深度学习算法确定方法来确定。进一步地,所述单一模态标签确定方法为基于规则解析判断。进一步地,复杂标签采用深度学习算法确定方法来确定的具体过程是,首先通过深度学习算法分别从所述多模态数据中提取标签特征信息,利用分类器确定标签,然后对从所述多模态数据确定的标签进行合并融合,从而确定用户标签,其中,所述多模态数据包括文本、图片、视频和音频数据。进一步地,对于图片数据,其标签确定方法具体如下:采用的深度神经网络算法包括依次连接的M层卷积层、池化层、全连接层和softmax层;将图片imgsrc进行预处理得到N*N尺寸大小的图像imgt1;imgt1输入到M层卷积层和池化层,输出标签特征向量特征向量为一个1×d的矩阵,l表示神经网络第l层;全连接层,即标签分类器,每个全连接层的权重参数为d×n矩阵,其中,n表示标签类别个数,全连接层的具体权重参数为偏置参数为将依次输入到标签分类器,得到标签分类结果:把Rl+1通过softmax层,将每个用户标签的分类结果映射到(0,1)概率区间,其中,softmax层函数为:其中,Pi表示该图片属于标签类别i的概率;设定标签确定阈值ε,如果Pi-max≥ε,则该图片标签类别为i,其中,Pi-max表示最大Pi。进一步地,对于视频数据,其标签确定方法具体如下:对视频数据按设定抽样频率抽取图片;按照图片数据的标签确定方法确定图片的标签类别;统计每个标签类别的图片数,按预定策略设置阈值N,即一个视频中,如果标签类别i的图片数≥N,则该视频标签类别为i。进一步地,对于文本数据,其标签确定方法具体如下:采用的深度神经网络算法包括依次连接BERT网络模型、全连接层和softmax层;将文本textsrc进行预处理,然后输入到BERT网络模型,提取文本高级语义特征F768,768表示F特征维度为768;全连接层,即标签分类器,全连接层的权重参数为768×n矩阵,其中,n表示标签类别个数,全连接层的具体权重参数为偏置参数B=[b10,...,b1(n-1)];将F768依次输入到标签分类器,得到标签分类结果:R=F768W+B=[zlabel-0,zlabel-1,...zlabel-(n-1)];把R通过softmax层,将每个用户标签的分类结果映射到(0,1)概率区间,其中,softmax层函数如下:其中Pi表示该文本属于标签类别i的概率;设定标签确定阈值ε,如果Pi-max≥ε,则该文本标签类别为i,其中,Pi-max表示最大Pi。进一步地,对于音频数据,其标签确定方法具体如下:利用语音识别工具,将音频数据进行语音识别,提取音频数据中的文本信息text;按照文本数据标签确定方法对文本信息text进行处理,从而确定语音标签类别。进一步地,所述的将所提取的标签特征信息进行合并融合,确定用户标签具体是,统计各模态数据的各类标签个数,用cntlabel-i-img、cntlabel-i-video、cntlabel-i-text、cntlabel-i-voice表示标签i在图片、视频、文本和语音上的个数;把不同模态的相同标签个数加起来,cntlabel-i=cntlabel-i-img+cntlabel-i-video+cntlabel-i-text+cntlabel-i-voice,如果cntlabel-i≥cntlabel-i-ε,则确定标签i为该用户的标签,其中,cntlabel-i-ε是用来确定用户标签设定的标签i个数阈值。根据本专利技术的另一方面,提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述方法的步骤。根据本专利技术的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上所述方法的步骤。本专利技术采用上述技术方案,具有的有益效果是:本专利技术利用多模态数据之间的互补性,并剔除多模态数据间的冗余性,从而能够更准确、更全面确定用户标签和提高用户标签确定方法的泛化性能,更好地推广和应用。附图说明为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。图1是本专利技术的一种智能用户标签确定方法的流程图;图2是本专利技术的基于图片和视频数据的用户标签确定方法的流程图;图3是本专利技术的基于文本和音频数据的用户标签确定方法的流程图。具体实施方式现结合附本文档来自技高网...

【技术保护点】
1.一种智能用户标签确定方法,其特征在于,包括以下步骤:/n根据确定用户标签所需的数据来源将用户标签分成简单标签和复杂标签,其中,简单标签只需要结构化数据,复杂标签信息同时存在多模态数据中;/n简单标签采用单一模态标签确定方法来确定,以及复杂标签采用深度学习算法确定方法来确定。/n

【技术特征摘要】
1.一种智能用户标签确定方法,其特征在于,包括以下步骤:
根据确定用户标签所需的数据来源将用户标签分成简单标签和复杂标签,其中,简单标签只需要结构化数据,复杂标签信息同时存在多模态数据中;
简单标签采用单一模态标签确定方法来确定,以及复杂标签采用深度学习算法确定方法来确定。


2.如权利要求1所述的方法,其特征在于,所述单一模态标签确定方法为基于规则解析判断。


3.如权利要求1所述的方法,其特征在于,复杂标签采用深度学习算法确定方法来确定的具体过程是,首先通过深度学习算法分别从所述多模态数据中提取标签特征信息,利用分类器确定标签,然后对从所述多模态数据确定的标签进行合并融合,从而确定用户标签,其中,所述多模态数据包括文本、图片、视频和音频数据。


4.如权利要求3所述的方法,其特征在于,对于图片数据,其标签确定方法具体如下:
采用的深度神经网络算法包括依次连接的M层卷积层、池化层、全连接层和softmax层;
将图片imgsrc进行预处理得到N*N尺寸大小的图像imgt1;
imgt1输入到M层卷积层和池化层,输出标签特征向量特征向量为一个1×d的矩阵,l表示神经网络第l层;
全连接层,即标签分类器,每个全连接层的权重参数为d×n矩阵,其中,n表示标签类别个数,全连接层的具体权重参数为偏置参数为将依次输入到标签分类器,得到标签分类结果:



把Rl+1通过softmax层,将每个用户标签的分类结果映射到(0,1)概率区间,其中,softmax层函数为:其中,Pi表示该图片属于标签类别i的概率;
设定标签确定阈值ε,如果Pi-max≥ε,则该图片标签类别为i,其中,Pi-max表示最大Pi。


5.如权利要求4所述的方法,其特征在于,对于视频数据,其标签确定方法具体如下:
对视频数据按设定抽样频率抽取图片;
按照图片数据的标签确定方法确定图片的标签类别;
统计每个标签类别的图片数,按预定策略设置阈值N,即一个视频中,如果标签类别i的图片数≥N,则该视频标签类别为i。


6.如权利要求5所述的方法,其特征在于,对于文本数据,其标签确定方法具体如下:
采用的深度神经网络算法包括依次连接BERT网络模型、全连接层和softmax层;...

【专利技术属性】
技术研发人员:林淑强陈晨林陈子沣张永光魏炜途朱聚江
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1