【技术实现步骤摘要】
一种作者识别方法、装置、设备和存储介质
本申请涉及计算机
,尤其涉及大数据、智能搜索和信息流技术,具体涉及一种作者识别方法、装置、设备和存储介质。
技术介绍
随着互联网技术的不断发展,用户可以在不同的信息发布平台中发布各种UGC(UserGeneratedContent,用户生产内容)。同一用户可能会选择入驻不同信息发布平台,或者,同一用户在不同信息发布平台中的发文活跃度不相同。现有技术中,为了提高用户在各个信息发布平台的内容生产量,特别是,提高新增信息发布平台的内容生产量,需要能够将一些现有平台的优质作者在新平台中引入。但是,由于同一用户可以在不同信息发布平台使用不同的账号名,因此,如何在不同平台中有效甄别相同作者,是目前有待解决的一个重要技术难点。
技术实现思路
本申请提供了一种作者识别方法、装置、设备以及存储介质。根据本申请的一方面,提供了一种作者识别方法,包括:获取至少两个内容发布平台中各作者账号的身份描述信息,所述身份描述信息包括:作者属性信息,和/或发布内 ...
【技术保护点】
1.一种作者识别方法,包括:/n获取至少两个内容发布平台中各作者账号的身份描述信息,所述身份描述信息包括:作者属性信息,和/或发布内容属性信息;/n根据各所述作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标;/n根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者。/n
【技术特征摘要】
1.一种作者识别方法,包括:
获取至少两个内容发布平台中各作者账号的身份描述信息,所述身份描述信息包括:作者属性信息,和/或发布内容属性信息;
根据各所述作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标;
根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者。
2.根据权利要求1所述的方法,在根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,还包括:
根据同一作者在不同内容发布平台的内容发布情况,向所述作者提供匹配的发布提示信息。
3.根据权利要求2所述的方法,其特征在于,根据同一作者在不同内容发布平台的内容发布情况,向所述作者提供匹配的发布提示信息,包括:
在第一目标内容发布平台中获取目标优质作者账号;
根据在不同内容发布平台中识别的与相同作者对应的各用户账号,判断至少一个其他内容发布平台中是否存在与所述目标优质作者账号属于相同作者的关联作者账号;
如果确定在第二目标内容发布平台中不存在所述关联作者账号,则向所述目标优质作者账号发送针对所述第二目标内容发布平台的内容发布邀请信息。
4.根据权利要求2所述的方法,其特征在于,根据同一作者在不同内容发布平台的内容发布情况,向所述作者提供匹配的发布提示信息,包括:
在第一目标内容发布平台中获取目标独家签约作者账号;
根据在不同内容发布平台中识别的与相同作者对应的各用户账号,判断至少一个其他内容发布平台中是否存在与所述目标独家签约作者账号属于相同作者的关联作者账号;
如果确定在第二目标内容发布平台中存在所述关联作者账号,则向所述目标独家签约作者账号,和/或所述关联作者账号发送签约保护提醒信息。
5.根据权利要求2所述的方法,其特征在于,根据同一作者在不同内容发布平台的内容发布情况,向所述作者提供匹配的发布提示信息,包括:
根据在不同内容发布平台中识别的与相同作者对应的各用户账号,获取相同作者在不同内容发布平台的活跃度;
向活跃度低的内容发布平台的作者账号发送活跃度激励信息。
6.根据权利要求1所述的方法,其中,所述作者属性信息包括:作者账号名称;所述发布内容属性信息包括:发布内容中的标题以及正文;
所述身份相似度指标包括下述至少一项:作者名称相似度、至少一个设定时间区间内的发布内容的正文相似度,以及发布内容的标题相似度;
所述设定时间区间包括:最近一周、最近一月以及全部历史时间。
7.根据权利要求6所述的方法,其中,根据各所述作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标,包括:
获取第一内容发布平台中第一作者账号的第一账号名称以及第二内容发布平台中第二作者账号的第二账号名称;
分别对所述第一账号名称以及所述第二账号名称进行分词处理,得到第一分词集合以及第二分词集合;
计算所述第一分词集合以及第二分词集合中包括的相同分词的数量值;
根据所述相同分词的数量值,计算所述第一作者账号与所述第二作者账号之间的作者名称相似度;和/或
获取第一内容发布平台中第一作者账号在设定时间区间内所发布内容的第一正文集合,以及第二内容发布平台中第二作者账号在所述设定时间区间内所发布内容的第二正文集合;
分别计算所述第一正文集合和所述第二正文集合中各第一正文和第二正文间的内容相似度;
根据所述内容相似度,在所述第一正文集合和所述第二正文集合中确定相似正文对;
根据所述相似正文对的数量,计算所述第一作者账号与所述第二作者账号之间的所述设定时间区间内的发布内容的正文相似度;和/或
获取第一内容发布平台中第一作者账号最近发布的设定数量的发布内容的标题构成第一标题集合;
获取第二内容发布平台中第二作者账号最近发布的设定数量的发布内容的标题构成第二标题集合;
计算所述第一标题集合以及第二标题集合中包括的相同标题的数量值;
根据所述相同标题的数量值,计算所述第一作者账号与所述第二作者账号之间的发布内容的标题相似度。
8.根据权利要求6所述的方法,其中,根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者,包括:
获取与第一内容发布平台中第一作者账号以及第二内容发布平台中第二作者账号之间的目标身份相似度指标;
确定目标身份相似度指标中的作者名称相似度所属的名称相似度数值区间,并根据所述名称相似度数值区间,获取与所述数值区间匹配的目标内容相似度阈值集合;
如果确定目标身份相似度指标中至少一个设定时间区间内的发布内容的正文相似度以及发布内容的标题相似度中的任一项满足所述目标内容相似度阈值集合中匹配的内容相似度阈值条件,则确定所述第一作者账号与所述第二作者账号属于相同作者;
其中,名称相似度数值区间越大,与所述名称相似度数值区间匹配的内容相似度阈值集合中的各项内容相似度阈值越小。
9.根据权利要求1-8任一项所述的方法,在根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,还包括:
获取用户在至少一个内容发布平台中主动上报的,针对其他内容发布平台的账号绑定信息;
获取与各所述账号绑定信息分别对应用户账号集合,并确定各所述用户账号集合中的各用户账号属于相同作者。
10.一种作者识别装置,包括:
身份描述信息获取模块,用于获取至少两个内容发布平台中各作者账号的身份描述信息,所述身份描述信息包括:作者属性信息,和/或发布内容属性信息;
相似度指标计算模块,用于根据各所述作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标;
相同作者识别模块,用于根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者。
11.根据权利要求10所述的装置,其中,所述作者识别装置,还包括:
提示信...
【专利技术属性】
技术研发人员:张榕霄,池阳,郑德来,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。