用于生成标签的方法和装置制造方法及图纸

技术编号:24518626 阅读:15 留言:0更新日期:2020-06-17 07:08
本申请实施例公开了用于生成标签的方法和装置。该方法的一具体实施方式包括获取用户在历史时间段内操作过的应用的应用名称列表;获取应用名称列表中的应用的相关信息;基于应用名称列表和相关信息确定用户所属的人群类别;基于用户所属的人群类别生成对应的人群类别标签。该实施方式基于用户操作过的应用确定用户所属的人群类别,提高了所确定出的人群类别的准确度,有助于提高对用户属性的刻画精准度和细化度。

Methods and devices for generating labels

【技术实现步骤摘要】
用于生成标签的方法和装置
本申请实施例涉及计算机
,具体涉及用于生成标签的方法和装置。
技术介绍
用户画像可以是根据预先积累的多源的用户数据所建立的包括至少一种用户属性的描述性标签的用户信息。描述性标签可以用于描述用户属性,包括但不限于性别、年龄、婚姻状况、职业、资产状况、教育水平等等。对用户画像中的各个维度的用户属性进行理解可以挖掘出用户的兴趣点,包括但不限于旅游、游戏、体育球赛等等。然而,由于现有的用于建立用户画像的用户数据获取存在一定的难度,且无法评估这些用户数据的真实性和准确性,从而导致对用户属性的刻画不够精准、不够细化。
技术实现思路
本申请实施例提出了用于生成标签的方法和装置。第一方面,本申请实施例提供了一种用于生成标签的方法,包括:获取用户在历史时间段内操作过的应用的应用名称列表;获取应用名称列表中的应用的相关信息;基于应用名称列表和相关信息确定用户所属的人群类别;基于用户所属的人群类别生成对应的人群类别标签。在一些实施例中,基于应用名称列表和相关信息确定用户所属的人群类别,包括:利用自然语言处理技术提取应用名称列表和相关信息中的关键词;将应用名称列表和相关信息中的关键词在预设的第一人群类别集合中进行匹配,得到匹配成功的第一人群类别,作为用户所属的人群类别。在一些实施例中,基于应用名称列表和相关信息确定用户所属的人群类别,包括:利用汉语语言模型对应用名称列表中的应用名称的前缀和/或后缀进行识别,得到识别结果;将识别结果在预设的第二人群类别集合中进行匹配,得到与识别结果匹配成功的第二人群类别,作为用户所属的人群类别。在一些实施例中,基于应用名称列表和相关信息确定用户所属的人群类别,包括:对相关信息中的语句进行语句结构分析,确定出符合预设语句结构的语句;将符合预设语句结构的语句在第二人群类别集合中进行匹配,得到与符合预设语句结构的语句匹配成功的第二人群类别,作为用户所属的人群类别。在一些实施例中,基于应用名称列表和相关信息确定用户所属的人群类别,包括:利用自然语言处理技术提取相关信息中的关键词;将应用名称列表中的应用名称和相关信息中的关键词作为分类特征对名称列表中的应用进行分类,以及基于分类结果确定用户所属的人群类别。第二方面,本申请实施例提供了一种用于生成标签的装置,包括:第一获取单元,被配置成获取用户在历史时间段内操作过的应用的应用名称列表;第二获取单元,被配置成获取应用名称列表中的应用的相关信息;确定单元,被配置成基于应用名称列表和相关信息确定用户所属的人群类别;生成单元,被配置成基于用户所属的人群类别生成对应的人群类别标签。在一些实施例中,确定单元进一步被配置成:利用自然语言处理技术提取应用名称列表和相关信息中的关键词;将应用名称列表和相关信息中的关键词在预设的第一人群类别集合中进行匹配,得到匹配成功的第一人群类别,作为用户所属的人群类别。在一些实施例中,确定单元进一步被配置成:利用汉语语言模型对应用名称列表中的应用名称的前缀和/或后缀进行识别,得到识别结果;将识别结果在预设的第二人群类别集合中进行匹配,得到与识别结果匹配成功的第二人群类别,作为用户所属的人群类别。在一些实施例中,确定单元进一步被配置成:对相关信息中的语句进行语句结构分析,确定出符合预设语句结构的语句;将符合预设语句结构的语句在第二人群类别集合中进行匹配,得到与符合预设语句结构的语句匹配成功的第二人群类别,作为用户所属的人群类别。在一些实施例中,确定单元进一步被配置成:利用自然语言处理技术提取相关信息中的关键词;将应用名称列表中的应用名称和相关信息中的关键词作为分类特征对名称列表中的应用进行分类,以及基于分类结果确定用户所属的人群类别。第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本申请实施例提供的用于生成标签的方法和装置,首先获取用户在历史时间段内操作过的应用的应用名称列表;然后获取应用名称列表中的应用的相关信息;最后基于应用名称列表和相关信息确定用户所属的人群类别,以及基于用户所属的人群类别生成对应的人群类别标签。基于用户操作过的应用确定用户所属的人群类别,提高了所确定出的人群类别的准确度,有助于提高对用户属性的刻画精准度和细化度。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构;图2是根据本申请的用于生成标签的方法的一个实施例的流程图;图3是根据本申请的用于生成标签的方法的又一个实施例的流程图;图4是根据本申请的用于生成标签的方法的再一个实施例的流程图;图5是根据本申请的用于生成标签的方法的另一个实施例的流程图;图6是根据本申请的用于生成标签的装置的一个实施例的结构示意图;图7是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的用于生成标签的方法或用于生成标签的装置的实施例的示例性系统架构100。如图1所示,系统架构100中可以包括服务器101、102和网络103。网络103用以在服务器101和服务器102之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。服务器101可以通过网络103与服务器102交互,以接收或发送消息等。服务器101上可以应用市场或手机助手的后台服务器,其可以存储各种应用的应用名称。服务器102可以提供各种服务,例如,服务器102可以对从服务器101获取到的用户在历史时间段内操作过的应用的应用名称列表等数据进行分析等处理,并生成处理结果(例如人群类别标签)。需要说明的是,服务器101、102可以是硬件,也可以是软件。当服务器101、102为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器101、102为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。需要说明的是,本申请实施例所提供的用于生成标签的方法一般由服务器102执行,相应地,用于生成标签的装置一本文档来自技高网...

【技术保护点】
1.一种用于生成标签的方法,包括:/n获取用户在历史时间段内操作过的应用的应用名称列表;/n获取所述应用名称列表中的应用的相关信息;/n基于所述应用名称列表和所述相关信息确定所述用户所属的人群类别;/n基于所述用户所属的人群类别生成对应的人群类别标签。/n

【技术特征摘要】
1.一种用于生成标签的方法,包括:
获取用户在历史时间段内操作过的应用的应用名称列表;
获取所述应用名称列表中的应用的相关信息;
基于所述应用名称列表和所述相关信息确定所述用户所属的人群类别;
基于所述用户所属的人群类别生成对应的人群类别标签。


2.根据权利要求1所述的方法,其中,所述基于所述应用名称列表和所述相关信息确定所述用户所属的人群类别,包括:
利用自然语言处理技术提取所述应用名称列表和所述相关信息中的关键词;
将所述应用名称列表和所述相关信息中的关键词在预设的第一人群类别集合中进行匹配,得到匹配成功的第一人群类别,作为所述用户所属的人群类别。


3.根据权利要求1所述的方法,其中,所述基于所述应用名称列表和所述相关信息确定所述用户所属的人群类别,包括:
利用汉语语言模型对所述应用名称列表中的应用名称的前缀和/或后缀进行识别,得到识别结果;
将所述识别结果在预设的第二人群类别集合中进行匹配,得到与所述识别结果匹配成功的第二人群类别,作为所述用户所属的人群类别。


4.根据权利要求3所述的方法,其中,所述基于所述应用名称列表和所述相关信息确定所述用户所属的人群类别,包括:
对所述相关信息中的语句进行语句结构分析,确定出符合预设语句结构的语句;
将所述符合预设语句结构的语句在所述第二人群类别集合中进行匹配,得到与所述符合预设语句结构的语句匹配成功的第二人群类别,作为所述用户所属的人群类别。


5.根据权利要求1所述的方法,其中,所述基于所述应用名称列表和所述相关信息确定所述用户所属的人群类别,包括:
利用自然语言处理技术提取所述相关信息中的关键词;
将所述应用名称列表中的应用名称和所述相关信息中的关键词作为分类特征对所述名称列表中的应用进行分类,以及基于分类结果确定所述用户所属的人群类别。


6.一种用于生成标签的装置,包括:
第一获取单元,被配置成获取用户在历史时间段内操作过的应用的应用名称列表;
第二获取单...

【专利技术属性】
技术研发人员:文灿顾静航李春林周俊康建峰姚远
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1