群体关系类型识别方法及装置制造方法及图纸

技术编号:18445626 阅读:55 留言:0更新日期:2018-07-14 10:40
本发明专利技术公开了一种群体关系类型识别方法及装置,属于数据挖掘分析领域。所述群体关系类型识别方法包括:接收群体关系类型识别请求;获取与请求相对应的群体信息;根据预定义的目标数据字段,从所述群体信息中提取群体中每个成员对应的目标数据,组成个人数据集;将所述个人数据集输入群体分类深度神经网络模型,所述群体分类深度神经网络模型根据所述预定义的目标数据字段训练得到;根据群体分类深度神经网络模型的输出结果,确定群体的关系类型。本发明专利技术的技术方案结合了数据挖掘分析技术,通过简单预处理操作及群体分类深度神经网络模型即可识别群体的关系类型,减少了前期特征获取所需的人力成本,模型的部署构建复杂度低,模型的通用性强。

Identification method and device of group relationship type

The invention discloses a group relationship type recognition method and a device, belonging to the field of data mining and analysis. The group relationship type identification methods include: receiving group relationship type identification request, obtaining group information corresponding to the request, extracting the target data corresponding to each member of the group from the group information according to the predefined target data field, and composing the individual data set; input the individual data set into the group. The body classification depth neural network model, the group classification depth neural network model is trained according to the predefined target data field, and the relationship type of the group is determined according to the output of the group classification depth neural network model. The technical scheme of the invention combines the data mining analysis technology. Through the simple preprocessing operation and the group classification deep neural network model, the relationship type of the group can be identified, the manpower cost is reduced, the deployment complexity of the model is low and the model is versatile.

【技术实现步骤摘要】
群体关系类型识别方法及装置
本专利技术涉及数据挖掘分析领域,特别涉及一种群体关系类型识别方法及装置。
技术介绍
社交网络中存在着各种社交圈子,每个社交圈子集中有具有一定关联的用户成员,比如家人,公司同事,学校同学等等。在大数据时代背景下,识别社交圈子的关系类型是一个非常重要的问题,并且识别结果具有广泛的实际应用,比如大数据分析、广告投放等等。现有的技术方案或采用人工识别分类,或采用传统机器学习分类模型,需要大量的社团层面上的特征工程工作,所需要的特征包括社交圈子的成员、成员的年龄性别分布、地域分布等等。对现有技术方案的改进也局限于圈子特征提取明细的创新。现有技术至少存在以下不足:1>特征工程的完成需要大量的人力投入,且开发周期长;2>不同的圈子分类场景需要不同的特征工程工作,通用性差;3>由于涉及到大量特征处理,模型部署复杂性高;4>圈子的特征来自于对个人特征的统计,丢失了大量对提高准确率有帮助的信息。
技术实现思路
为了解决现有技术的问题,本专利技术提供了一种群体关系类型识别方法及装置,根据简单预处理操作及群体分类深度神经网络模型即可识别群体的关系类型。所述技术方案如下:一方面,本专利技术提供了一种群体关系类型识别方法,所述方法包括:接收群体关系类型识别请求;获取与所述群体关系类型识别请求相对应的群体信息,所述群体信息包括群体成员信息;根据预定义的目标数据字段,从所述群体成员信息中提取群体中每个成员对应的目标数据,组成个人数据集;将所述个人数据集输入群体分类深度神经网络模型,所述群体分类深度神经网络模型根据所述预定义的目标数据字段训练得到;根据所述群体分类深度神经网络模型的输出结果,确定所述群体的关系类型。另一方面,本专利技术提供了一种群体关系类型识别装置,所述装置包括:请求接收模块,用于接收群体关系类型识别请求;信息获取模块,用于获取与所述群体关系类型识别请求相对应的群体信息,所述群体信息包括群体成员信息;提取模块,用于根据预定义的目标数据字段,从所述群体成员信息中提取群体中每个成员对应的目标数据,组成个人数据集;数据输入模块,用于将所述个人数据集输入群体分类深度神经网络模型,所述群体分类深度神经网络模型根据所述预定义的目标数据字段训练得到;关系识别模块,用于根据所述群体分类深度神经网络模型的输出结果,确定所述群体的关系类型。除此,本专利技术还提供了一种消息推送方法,包括:接收群体关系类型识别请求;获取与所述群体关系类型识别请求相对应的群体信息,所述群体信息包括群体成员信息;根据预定义的目标数据字段,从所述群体成员信息中提取群体中每个成员对应的目标数据,组成个人数据集;将所述个人数据集输入群体分类深度神经网络模型,所述群体分类深度神经网络模型根据所述预定义的目标数据字段训练得到;根据所述群体分类深度神经网络模型的输出结果,确定所述群体的关系类型;根据群体的关系类型,向所述群体推送消息。本专利技术提供的技术方案带来的有益效果如下:1)仅需对个人数据进行简单的预处理,大幅减少数据准备时间;2)数据处理过程简单,模型相关部署复杂度低;3)对于很多不同场景下的圈子分类问题都能使用相同的数据和模型,通用性强,模型的重复使用能力强。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的群体关系类型识别方法的流程图;图2是本专利技术实施例提供的网络群的类型识别方法的流程图;图3是本专利技术实施例提供的群体分类深度神经网络的训练方法流程图;图4是本专利技术实施例提供的模型损失函数最小化方法流程图;图5是本专利技术实施例提供的获取模型样本的方法流程图;图6是本专利技术实施例提供的群体关系类型识别装置的模块框图;图7是本专利技术实施例提供的利用群体关系类型识别方法进行消息推送的方法流程图;图8是本专利技术实施例提供的群体关系类型识别装置的计算机终端的硬件结构框图;图9是本专利技术实施例提供的基于CNN的群体分类深度神经网络的模型架构图;图10是本专利技术实施例提供的基于RNN的群体分类深度神经网络的模型架构图;图11是本专利技术实施例提供的CNN网络模型中神经元的结构示意图;图12是本专利技术实施例提供的RNN网络模型中LSTM记忆单元的结构图;图13是本专利技术实施例提供的利用群体分类结果进行消息推送的方法流程图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。在本专利技术的一个实施例中,提供了一种群体关系类型识别方法,参见图1,方法流程包括:S101、接收群体关系类型识别请求。具体地,所述识别请求是针对某一个群体发起的,该请求的目的是识别得到该群体内成员的关系类型,即该群体的关系类型,发起请求需要触发动作,在本申请中,触发动作可能为创建该群体成立,或者是群体成员数量达到触发阈值,又或者是群体成员在群体内交流热度达到触发热度值,也可以由前端管理人员进行手工触发,本专利技术对触发发起请求的方式不作具体限定。S102、获取对应的群体信息。具体地,获取与所述群体关系类型识别请求相对应的群体信息,请求信息中会附带待识别的群体的id,根据id找到相应群体,所述群体信息包括群体成员信息。S103、提取每个成员对应的目标数据。具体地,所述群体成员信息包括但不限定于姓名、性别、城市、签名、阅读记录等等,其中,有些信息是无益于识别群体关系类型的,对于这些信息,不包括在预定义的特征字段范围内,并且,非数值特征无法直接被模型使用,需要通过转码的方式把他们变成数值特征。比如:用00001来表示这个群内出现频率最高的姓,00010表示这个群内出现频率第二高的姓,对城市的转码方式也是类似。预定义一些能够为识别群体类型的特征字段,比如姓名、性别、所在城市、阅读兴趣、个人签名等等,根据预定义的特征字段,从所述群体成员信息中获取每个成员的如上特征字段,组成个人数据集。S104、将所述个人数据集输入群体分类深度神经网络模型。具体地,所述群体分类深度神经网络模型根据所述预定义的目标数据字段训练得到,将所述个人数据集输入该模型。S105、群体分类深度神经网络模型输出分类结果。具体地,按照训练结果本文档来自技高网
...

【技术保护点】
1.一种群体关系类型识别方法,其特征在于,所述方法包括:接收群体关系类型识别请求;获取与所述群体关系类型识别请求相对应的群体信息,所述群体信息包括群体成员信息;根据预定义的目标数据字段,从所述群体成员信息中提取群体中每个成员对应的目标数据,组成个人数据集;将所述个人数据集输入群体分类深度神经网络模型,所述群体分类深度神经网络模型根据所述预定义的目标数据字段训练得到;根据所述群体分类深度神经网络模型的输出结果,确定所述群体的关系类型。

【技术特征摘要】
1.一种群体关系类型识别方法,其特征在于,所述方法包括:接收群体关系类型识别请求;获取与所述群体关系类型识别请求相对应的群体信息,所述群体信息包括群体成员信息;根据预定义的目标数据字段,从所述群体成员信息中提取群体中每个成员对应的目标数据,组成个人数据集;将所述个人数据集输入群体分类深度神经网络模型,所述群体分类深度神经网络模型根据所述预定义的目标数据字段训练得到;根据所述群体分类深度神经网络模型的输出结果,确定所述群体的关系类型。2.根据权利要求1所述的方法,其特征在于,在将所述个人数据集输入群体分类深度神经网络模型之前还包括训练群体分类深度神经网络,包括:获取待训练的关系类型样本数据;对神经网络的损失函数的梯度进行学习,以最小化损失函数;通过获取关系类型样本数据中用户的目标数据字段,并根据损失函数,对所述群体分类深度神经网络进行训练,得到群体分类深度神经网络模型。3.根据权利要求2所述的方法,其特征在于,所述对神经网络的损失函数的梯度进行学习,以最小化损失函数包括:根据神经网络的所有权重和损失函数,采用反向传播法得到损失函数的梯度;根据所述梯度,采用随机梯度下降法,更新神经网络的权重;将更新的权重进行预设次数的迭代,以最小化损失函数。4.根据权利要求2所述的方法,其特征在于,所述获取待训练的关系类型样本数据包括:获取同一个群体内一个用户对另一用户的备注标签,遍历所有备注标签,将所述备注标签与预设的关系标签进行匹配,将匹配结果作为两个用户之间的打标标签;对打标标签进行分类,并统计数量最多的打标标签作为目标标签,所述目标标签映射该群体的关系类型。5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述群体关系类型识别请求的触发条件包括以下条件的一个或多个:所述群体创建成功;所述群体成员数量达到触发阈值;所述群体内成员交流热度达到触发热度值;启动人工触发。6.根据权利要求4所述的方法,其特征在于,所述获取待训练的关系类型样本数据还包括筛选群体:若一个群体中数量最多的打标标签数量超过打标标签总数的一半,且具有目标标签的用户数量超过预设数量阈值,则将该群体纳入关系类型样本,否则,抛弃该群体数据。7.根据权利要求4所述的方法,其特征在于,所述预设的关系标签数量为多个,将所述备注标签与预设的关系标签进行匹配包括:针对每一个关系标签建立关键词词库,对所述备注标签进行分词,将分词结果与词库中的关键词进行比对,若分词结果与关键词匹配,则所述备注标签与该关键词所在词库所对应的关系标签匹配。8.一种群体关系类型识别装置,其特征在于,所述装置包括:请求接收模块,用于接收群体关系类型识别请求;信息获取模块,用于获取与所述群体关系类型识别请求相对应的群体信息,所述群体信息包括群体成员信息;提取模块,用于根据预定义的目标数据字段,从所述群体成员信息中提取群体中每个成员对应的目标数据,组成个人数据集;数据输入模块,用于将所述个人数据集输入群...

【专利技术属性】
技术研发人员:张宗一张功源张晓敏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1