一种基于社交媒体的用户活动类型识别方法技术

技术编号:24251647 阅读:27 留言:0更新日期:2020-05-22 23:37
本发明专利技术提供了一种基于社交媒体的用户活动类型识别方法,通常情况下一张图由结点和边构成。首先将所有的用户评论和构成评论的词看做图中的多个结点,并定义不同词与词之间,词与评论之间的边的权重和关系,形成最基本的图;然后将发表评论的用户看做另一类结点,根据用户与评论之间的发表关系,定义用户和评论间边的权重,向已经形成的图中添加用户结点;然后将发表评论的用户的其他好友看做新一类的结点,定义用户和他们对应的好友结点间的关系权重,形成一张包含评论的文本信息和结构信息的大图。最后利用图卷积网络对形成的大图进行结点分类,得到用户活动分类的准确性。

A method of user activity type recognition based on social media

【技术实现步骤摘要】
一种基于社交媒体的用户活动类型识别方法
本专利技术属于评论数据情感分类
,具体涉及一种基于社交媒体的用户活动类型识别方法。
技术介绍
用户活动类型识别在多个领域都是一个十分重要的研究问题。不仅有重大的学术研究意义,同时有广泛的商业应用价值。在智能交通方面可以建立一种大范围,全方位发挥作用的,实时、准确、高效的综合交通运输管理系统。同时在广告推荐方面可以给多种用户提供客观,专业的知识帮助与商品过滤信息,以及为商家提供消费者的选择意图。如果对一个用户在一段时间内的多个活动状态进行分析,就可以推测出用户在这段时间内的活动状态的转变和活动轨迹的变化。在大量的用户位置和行为轨迹数据的背后,隐含了丰富的时间约束信息和用户行为规律信息。通过对这些信息进行深入的挖掘和利用,不仅可以发现个体用户的日常行为规律和群体用户的共性行为特性,甚至还能掌握他们的社交关系。所以,如何挖掘用户背后关联的活动类型成为我们如今亟待研究的课题。传统的用户活动识别方法一般要严重的依赖硬件设备的识别精度。比如利用传感器、无线射频识别技术或者无线网络。这些方法存在以下几个问题:1、数据难以采集和更新。依靠硬件的用户活动识别方法需要苛刻的数据采集环境和昂贵的采集设备。采集一套完整的数据需要消耗比较大的人力和物力,不利于实时的更新。2、只依靠硬件无法识别用户其他类型的活动。用户是一个复杂的社会群体,不仅会产生简单的动作的变化,还会参与一系列其他的人文活动和社交活动的。这些活动不仅受单个个体的主导,同时还受到其他个体的影响,无法通过硬件设备检测出来。3、传统的依靠社交媒体进行活动分类的方法只考虑了评论的文本信息特征,而忽略了评论间的结构信息,这会导致最终的活动分类准确度不高。
技术实现思路
本专利技术要解决的技术问题在于,针对上述目前传统的基于社交媒体的活动类型识别方法中只单独的考虑评论的文本信息、而忽略评论间的结构信息和用户的影响导致分类准确率不高的的技术问题,提供一种基于社交媒体的用户活动类型识别方法解决上述技术缺陷。一种基于社交媒体的用户活动类型识别方法,包括:S1、在Yelp网站上爬取代表不同活动类型的评论数据,对爬取的每条评论数据添加用户活动类型的类别标签;S2、记录每个用户的ID信息以及每个用户之间的好友关系信息,好友关系信息用于表征是否为好友;S3、对评论数据进行数据预处理,滤除其中的无用信息;S4、利用语言模型,将文本类型的评论数据、用户ID、构成评论的词看做结点,并对所述结点之间的关系进行建模,提取评论数据结点之间的结构特征和信息交互,得到一张包含结点和边的关系图;S5、利用图神经网络对S4得到的关系图进行结点的数值初始化;S6、经过S5初始化完成后,将S4中的关系图作为图神经网络的输入,训练后得到每个结点的向量表示以及学习到的参数矩阵,该参数矩阵即为训练完成的图分类模型;S7、利用训练完成的S6所得的图分类模型,对待分类数据进行活动类型识别分类。进一步的,在步骤S2中,用户的信息用一个唯一的ID表示,用户之间的好友关系信息用多个ID对表示。进一步的,在步骤S3中,数据预处理用于去除评论数据中的标点符号、不规范字符、停用词和表情符号。进一步的,在步骤S4中,关系图的生成和建模过程是将所有评论数据和用户构成一张大图,包括文本类型的评论数据、用户ID、构成评论的词形成的结点和由结点形成的边。进一步的,在步骤S5中,根据步骤5之后生成的关系图,利用图神经网络进行处理,即对图中的评论结点进行数值初始化,初始化后,将图结构的数据转化为邻接矩阵,关系图数据由图转为数值形式。进一步的,在步骤S6中,利用图神经网络对步骤5生成的邻接矩阵进行图卷积操作,得到特征图,然后对特征图进行池化操作后,连接到一个全连接层,在经过softmax函数计算分类概率后,训练得到一个图分类模型。与现有技术相比,本专利技术优势在于:传统的方法仅考虑文本的序列特征,本专利技术额外考虑了文本的结构特征,且加入了用户对活动类型的影响,提出了一种将评论的文本信息和结构信息相结合、并考虑用户的影响,最终利用图卷积网络提高用户活动类型识别准确率的方法。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1是本专利技术一种基于社交媒体的用户活动类型识别方法流程图;图2是本专利技术的实施例定义(1)(2)生成的图;图3是本专利技术的实施例定义(3)生成的图;图4是本专利技术的实施例定义(4)生成的图。具体实施方式为了对本专利技术的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本专利技术的具体实施方式。一种基于社交媒体的用户活动类型识别方法,如图1所示,包括:S1、在Yelp网站上爬取代表不同活动类型的评论数据,对爬取的每条评论数据添加用户活动类型的类别标签;S2、记录每个用户的ID信息以及每个用户之间的好友关系信息,好友关系信息用于表征是否为好友;S3、对评论数据进行数据预处理,滤除其中的无用信息;S4、利用语言模型(例如tfidf),将文本类型的评论数据(整句或整段的评论)、用户ID、构成评论的词(所有评论中出现的词)看做结点,并对所述结点之间的关系进行建模(例如PMI+tfidf算法),提取评论数据结点之间的结构特征和信息交互,得到一张包含结点和边的关系图;S5、利用图神经网络对S4得到的关系图进行结点的数值初始化;S6、经过S5初始化完成后,将S4中的关系图作为图神经网络的输入,训练后得到每个结点的向量表示以及学习到的参数矩阵,该参数矩阵即为训练完成的图分类模型;S7、利用训练完成的S6所得的图分类模型,对待分类数据进行活动类型识别分类。在步骤S1中,用户评论共23701条,将这些数据分为训练集和测试集。其中训练集有16592条,测试集有7109条。14个不同的活动分别为“Eatfood”,“Beauty&Spa”,“Entertainment”“Travel”,“Shopping”,“Services”,“Sports”,“Health”,“Car”,“Nightlife”,“Keeppets”“Education”,“Religiousactivity”,“Massmedia”。在步骤S2中,用户的信息用一个唯一的ID表示,用户之间的好友关系信息用多个ID对表示。在步骤S3中,数据预处理用于去除评论数据中的标点符号、不规范字符、停用词和表情符号等无用信息。在步骤S4中,关系图的生成和建模过程采用如下方法实现:将所有评论数据和用户构成一张大图,包括结点和边。具体来讲,将所有的评论数据和组成评论的词以及用户ID看做图中的结点,然后对不同词与词之间、词与评论之间,用户与评论之间,用户与用户间的边进行不同的定义,形成基本的图。具体的定义过程如下:(1)定义构成评论的词与词之间的边。词与词结点之间的边的权重定义为PMI值:本文档来自技高网
...

【技术保护点】
1.一种基于社交媒体的用户活动类型识别方法,其特征在于,包括:/nS1、在Yelp网站上爬取代表不同活动类型的评论数据,对爬取的每条评论数据添加用户活动类型的类别标签;/nS2、记录每个用户的ID信息以及每个用户之间的好友关系信息,好友关系信息用于表征是否为好友;/nS3、对评论数据进行数据预处理,滤除其中的无用信息;/nS4、利用语言模型,将文本类型的评论数据、用户ID、构成评论的词看做结点,并对所述结点之间的关系进行建模,提取评论数据结点之间的结构特征和信息交互,得到一张包含结点和边的关系图;/nS5、利用图神经网络对S4得到的关系图进行结点的数值初始化;/nS6、经过S5初始化完成后,将S4中的关系图作为图神经网络的输入,训练后得到每个结点的向量表示以及学习到的参数矩阵,该参数矩阵即为训练完成的图分类模型;/nS7、利用训练完成的S6所得的图分类模型,对待分类数据进行活动类型识别分类。/n

【技术特征摘要】
1.一种基于社交媒体的用户活动类型识别方法,其特征在于,包括:
S1、在Yelp网站上爬取代表不同活动类型的评论数据,对爬取的每条评论数据添加用户活动类型的类别标签;
S2、记录每个用户的ID信息以及每个用户之间的好友关系信息,好友关系信息用于表征是否为好友;
S3、对评论数据进行数据预处理,滤除其中的无用信息;
S4、利用语言模型,将文本类型的评论数据、用户ID、构成评论的词看做结点,并对所述结点之间的关系进行建模,提取评论数据结点之间的结构特征和信息交互,得到一张包含结点和边的关系图;
S5、利用图神经网络对S4得到的关系图进行结点的数值初始化;
S6、经过S5初始化完成后,将S4中的关系图作为图神经网络的输入,训练后得到每个结点的向量表示以及学习到的参数矩阵,该参数矩阵即为训练完成的图分类模型;
S7、利用训练完成的S6所得的图分类模型,对待分类数据进行活动类型识别分类。


2.根据权利要求1所述的一种基于社交媒体的用户活动类型识别方法,其特征在于,在步骤S2中,用户的信息用一个唯一的ID表示,用户之间的好友关系信息用多...

【专利技术属性】
技术研发人员:李润佳姚宏程亚凡王晨威李兵
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1