【技术实现步骤摘要】
一种基于大数据的人物属性抽取方法
[0001]本专利技术涉及信息抽取
,具体涉及一种基于大数据的人物属性抽取方法。
技术介绍
[0002]随着大数据时代的到来,面对信息爆炸和信息过载,信息处理的效率低下等挑战,借助自然语言处理技术对人物的属性进行提取、挖掘可有效缓解上述问题,该技术的研究和应用可满足个性化服务和数据驱动决策的需求。互联网中存在大量文本数据,包括新闻报道、百科网页、论坛帖子、博客文章、微博博文等。这些数据中有很多是关于人物的信息。为了构建开源人物知识库和人物知识图谱,需要从文本数据中进行人物属性抽取。通过持续获取不同媒介、不同来源的数据并进行自动化地人物属性抽取,对文本中的人物属性信息进行识别、分类、去重、消歧、融合,不断丰富知识库内容。在信息提取方面,帮助理解人物的特征和关系,更好地进行信息检索、知识管理和决策支持。在社交网络分析方面,帮助分析人物之间的社交关系、影响力以及人群特征。这对于社交网络分析、用户行为预测和推荐系统等具有重要意义。此外,属性抽取可准确地了解用户的兴趣、偏好和需求,可应用于个性化推荐和广告定向中。属性抽取也可帮助分析人物在文本数据中表达的情感倾向、态度和观点,可应用与情感分析和舆情监测。在网络安全和欺诈检测等方面的应用中,其可帮助检测恶意活动、网络攻击和欺诈行为。综上,人物属性抽取的研究使得我们能够从文本数据中获取更丰富的信息,深入了解个体和群体的特征、关系和行为,有助于提高效率、改善用户体验和增加商业价值。人物属性抽取的前提包括:通过预处理获得了纯净的文本片段,文本中不 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据的人物属性抽取方法,其特征在于:包括以下步骤:S1、获取关联人物信息文本;S2、关联人物属性抽取识别;S3、关联人物属性分析处理;S4、关联人物行为关联;S5、关联人物属性数据的补充。2.根据权利要求1所述的一种基于大数据的人物属性抽取方法,其特征在于:所述步骤S1中具体包括:S1.1、通过开源信息对关联人物信息出现的社交媒体进行获取;S1.2、通过关联人物信息出现的频次获取主要社交媒体以及次要社交媒体;S1.3、对主要社交媒体以及次要社交媒体的关联人物信息进行获取并建立目标数据库。3.根据权利要求1所述的一种基于大数据的人物属性抽取方法,其特征在于:所述步骤S2中具体包括:S2.1、根据目标知识库的人物属性体系列举所有的人物属性,并进行必要的增补,形成人物属性种子列表,列表每项包括标准属性名、属性ID和属性别名,属性别名可以为空、一个或多个;S2.2、基于词向量技术,对属性进行扩展,通过Word2Vec库,对每个属性及其别名查找相似的术语,加入到属性列表中,形成人物属性扩增列表;S2.3、对输入文本进行文本编号分配,其中,分配的文本编号为D
i
;S2.4、对文本D
i
进行分句处理,对文本D
i
中每个句子分配编号S
j
,使用人物属性扩增列表对句子S
j
进行属性名匹配,一旦匹配成功,则将S
j
中处于匹配的属性名P
s
后面的部分作为属性值V
k
,在输入数据中查找S
j
的主体人物名A
a
,输出五元组<A
a
,P
s
,V
k
,S
j
,D
i
>,重复执行上述步骤直至所有句子S
j
处理完成;S2.5、重复执行步骤S2.4直至所有文本D
i
处理完成。4.根据权利要求1所述的一种基于大数据的人物属性抽取方法,其特征在于:所述步骤S3中具体包括:S3.1、对步骤S2.5中所有输出的五元组属性进行属性分类,根据步骤S2.2建立的人物属性扩增列表构建得到属性名与标准属性名及属性ID的映射表,使用映射表对所有五元组进行属性替换,形成新的五元组<A
a
,P
t
,V
k
,S
j
,D
i
>;S3.2、对输出的五元组进行分类和去重,以<A
a
,P
...
【专利技术属性】
技术研发人员:王海荣,张瑾,陈波,
申请(专利权)人:中科天玑数据科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。