用户关系抽取方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:22565102 阅读:32 留言:0更新日期:2019-11-16 12:01
本申请提出一种用户关系抽取方法、装置、电子设备及可读存储介质,涉及数据处理技术领域。首先获得待分析的舆情文本,然后判断该舆情文本是否为目标舆情文本。其中,目标舆情文本中包括第一用户组、第二用户组及位于第一用户组与第二用户组之间的字符串,两个用户组中至少一个用户组中包括之间没有字符串的相邻用户。若是目标舆情文本,则从舆情文本的两个用户组中分别选出一个目标用户,并根据舆情文本获得两个目标用户之间的关系。最后根据两个目标用户之间的关系确定舆情文本的两个用户组中任意两个用户之间的关系。由此,可自动从舆情文本中获得任意两个用户之间的关系。

User relationship extraction methods, devices, electronic devices and readable storage media

The present application provides a user relationship extraction method, device, electronic device and readable storage medium, which relates to the technical field of data processing. First, obtain the public opinion text to be analyzed, and then judge whether the public opinion text is the target public opinion text. Among them, the target public opinion text includes the first user group, the second user group and the string between the first user group and the second user group, and at least one user group of the two user groups includes the adjacent users without the string. If the target public opinion text, select one target user from two user groups of the public opinion text, and get the relationship between the two target users according to the public opinion text. Finally, according to the relationship between the two target users, the relationship between any two users in the two user groups of the public opinion text is determined. Thus, the relationship between any two users can be automatically obtained from the public opinion text.

【技术实现步骤摘要】
用户关系抽取方法、装置、电子设备及可读存储介质
本申请涉及数据处理领域,具体而言,涉及一种用户关系抽取方法、装置、电子设备及可读存储介质。
技术介绍
近年来,随着社交媒体的飞速发展,用户在社交媒体网站中产生的数据量急剧增长,越来越多的个人用户使用社交媒体发布与自己的生活、工作以及社交状态相关的信息。根据社交媒体网站上的舆情文本分析用户之间的关系,对舆情的监测意义重大。以Twitter为例,目前Twitter的用户数量超过5亿,日活跃用户数量达到1.26亿,每天发布的推文约有4亿条,推文内容涉及政治、经济、文化、教育、娱乐等许多方面,众多研究者希望利用Twitter数据分析舆情事件,了解舆情传播规律,对舆情进行监测等研究。为此,如何从舆情文本获得用户在真实世界中的社会关系,是本领域技术人员需要解决的技术问题。
技术实现思路
有鉴于此,本申请的目的在于提供一种用户关系抽取方法、装置、电子设备及可读存储介质。为了实现上述目的,本申请实施例采用的技术方案如下:第一方面,本申请实施例提供一种用户关系抽取方法,所述方法包本文档来自技高网...

【技术保护点】
1.一种用户关系抽取方法,其特征在于,所述方法包括:/n获得待分析的舆情文本;/n判断所述舆情文本是否为目标舆情文本,其中,所述目标舆情文本中包括第一用户组、第二用户组及位于所述第一用户组与所述第二用户组之间的字符串,两个用户组中至少一个用户组中包括之间没有字符串的相邻用户;/n若所述舆情文本是所述目标舆情文本,则从所述舆情文本的两个用户组中分别选出一个目标用户,并根据所述舆情文本获得两个目标用户之间的关系;/n根据两个目标用户之间的关系确定所述舆情文本的两个用户组中任意两个用户之间的关系。/n

【技术特征摘要】
1.一种用户关系抽取方法,其特征在于,所述方法包括:
获得待分析的舆情文本;
判断所述舆情文本是否为目标舆情文本,其中,所述目标舆情文本中包括第一用户组、第二用户组及位于所述第一用户组与所述第二用户组之间的字符串,两个用户组中至少一个用户组中包括之间没有字符串的相邻用户;
若所述舆情文本是所述目标舆情文本,则从所述舆情文本的两个用户组中分别选出一个目标用户,并根据所述舆情文本获得两个目标用户之间的关系;
根据两个目标用户之间的关系确定所述舆情文本的两个用户组中任意两个用户之间的关系。


2.根据权利要求1所述的方法,其特征在于,所述从所述舆情文本的两个用户组中分别选出一个目标用户,并根据所述舆情文本获得两个目标用户之间的关系,包括:
从所述舆情文本的第一用户组中任意选择一个用户作为第一目标用户;
从所述舆情文本的第二用户组中任意选择一个用户作为第二目标用户;
获得所述舆情文本中位于所述第一目标用户与第二目标用户之间的字符串,并根据第一目标用户、第二目标用户及该字符串生成待分析语句;
将所述待分析语句输入训练好的用户关系抽取模型中,获得所述第一目标用户与所述第二目标用户之间的关系。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获得训练样本集,并根据训练样本集对用户关系抽取模型进行训练,以得到训练好的用户关系抽取模型,其中,所述训练样本集中的训练样本包括用于训练的舆情文本及该舆情文本中用户之间的关系。


4.根据权利要求1所述的方法,其特征在于,所述根据两个目标用户之间的关系确定所述舆情文本的两个用户组中任意两个用户之间的关系,包括:
从所述舆情文本中提取出所述第一用户组及第二用户组,并确定位于同一用户组中的用户之间为同类项关系;
将两个目标用户之间的关系作为所述第一用户组中的每个第一用户与所述第二用户组中任意一个第二用户之间的关系。


5.根据权利要求1所述的方法,其特征在于,所述判断所述舆情文本是否为目标舆情文本,包括:
对所述舆情文本进行预设字符串匹配,以识别出所述舆情文本中的用户;
根据...

【专利技术属性】
技术研发人员:唐球杨嘉佳孙浩楠张尼
申请(专利权)人:中国电子信息产业集团有限公司第六研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1