一种基于大数据的人物属性抽取方法技术

技术编号:39185916 阅读:14 留言:0更新日期:2023-10-27 08:33
本发明专利技术公开了一种基于大数据的人物属性抽取方法,涉及信息抽取技术领域。包括以下步骤:S1、获取关联人物信息文本;S2、关联人物属性抽取识别;S3、关联人物属性分析处理;S4、关联人物行为关联;S5、关联人物属性数据的补充。通过人物属性抽取模型对属性集的增补能够提供更全面、时效性的属性信息,满足不同应用场景和用户需求的个性化要求,促进深层次的人物理解和分析,并改善决策支持和业务效果,通过使用词向量技术获取属性的同义词、相似词可提高属性抽取模型的覆盖率、准确性和灵活性,降低数据稀疏性,并支持跨语言的属性抽取。这使得模型能够更好地适应不同场景和需求,提供更全面、准确的人物属性信息。准确的人物属性信息。准确的人物属性信息。

【技术实现步骤摘要】
一种基于大数据的人物属性抽取方法


[0001]本专利技术涉及信息抽取
,具体涉及一种基于大数据的人物属性抽取方法。

技术介绍

[0002]随着大数据时代的到来,面对信息爆炸和信息过载,信息处理的效率低下等挑战,借助自然语言处理技术对人物的属性进行提取、挖掘可有效缓解上述问题,该技术的研究和应用可满足个性化服务和数据驱动决策的需求。互联网中存在大量文本数据,包括新闻报道、百科网页、论坛帖子、博客文章、微博博文等。这些数据中有很多是关于人物的信息。为了构建开源人物知识库和人物知识图谱,需要从文本数据中进行人物属性抽取。通过持续获取不同媒介、不同来源的数据并进行自动化地人物属性抽取,对文本中的人物属性信息进行识别、分类、去重、消歧、融合,不断丰富知识库内容。在信息提取方面,帮助理解人物的特征和关系,更好地进行信息检索、知识管理和决策支持。在社交网络分析方面,帮助分析人物之间的社交关系、影响力以及人群特征。这对于社交网络分析、用户行为预测和推荐系统等具有重要意义。此外,属性抽取可准确地了解用户的兴趣、偏好和需求,可应用于个性化推荐和广告定向中。属性抽取也可帮助分析人物在文本数据中表达的情感倾向、态度和观点,可应用与情感分析和舆情监测。在网络安全和欺诈检测等方面的应用中,其可帮助检测恶意活动、网络攻击和欺诈行为。综上,人物属性抽取的研究使得我们能够从文本数据中获取更丰富的信息,深入了解个体和群体的特征、关系和行为,有助于提高效率、改善用户体验和增加商业价值。人物属性抽取的前提包括:通过预处理获得了纯净的文本片段,文本中不包含网页HTML、XML或JSON标签;通过命名实体识别技术或实体链接技术,从文本中识别了主体人物。现有技术中仍存在一些不足:其中包括生成大量的训练数据必然存在的准确率问题;以及工具带来的误差,越多的特征工程就会带来越多的误差,在整个任务上会产生误差的传播和积累,从而影响后续关系抽取的精度。

技术实现思路

[0003]本专利技术提供一种基于大数据的人物属性抽取方法,以解决上述
技术介绍
中提出的问题。
[0004]为解决上述技术问题,本专利技术所采用的技术方案是:一种基于大数据的人物属性抽取方法,包括以下步骤:
[0005]S1、获取关联人物信息文本;
[0006]S2、关联人物属性抽取识别;
[0007]S3、关联人物属性分析处理;
[0008]S4、关联人物行为关联;
[0009]S5、关联人物属性数据的补充。
[0010]本专利技术技术方案的进一步改进在于:所述步骤S1中具体包括:
[0011]S1.1、通过开源信息对关联人物信息出现的社交媒体进行获取;
[0012]S1.2、通过关联人物信息出现的频次获取主要社交媒体以及次要社交媒体;
[0013]S1.3、对主要社交媒体以及次要社交媒体的关联人物信息进行获取并建立目标数据库。
[0014]本专利技术技术方案的进一步改进在于:所述步骤S2中具体包括:
[0015]S2.1、根据目标知识库的人物属性体系列举所有的人物属性,并进行必要的增补,形成人物属性种子列表,列表每项包括标准属性名、属性ID和属性别名,属性别名可以为空、一个或多个;
[0016]S2.2、基于词向量技术,对属性进行扩展,通过Word2Vec库,对每个属性及其别名查找相似的术语,加入到属性列表中,形成人物属性扩增列表;
[0017]S2.3、对输入文本进行文本编号分配,其中,分配的文本编号为D
i

[0018]S2.4、对文本D
i
进行分句处理,对文本D
i
中每个句子分配编号S
j
,使用人物属性扩增列表对句子S
j
进行属性名匹配,一旦匹配成功,则将S
j
中处于匹配的属性名P
s
后面的部分作为属性值Vk,在输入数据中查找S
j
的主体人物名A
a
,输出五元组<A
a
,P
s
,V
k
,S
j
,D
i
>,重复执行上述步骤直至所有句子S
j
处理完成;
[0019]S2.5、重复执行步骤S2.4直至所有文本D
i
处理完成。
[0020]本专利技术技术方案的进一步改进在于:所述步骤S3中具体包括:
[0021]S3.1、对步骤S2.5中所有输出的五元组属性进行属性分类,根据步骤S2.2建立的人物属性扩增列表构建得到属性名与标准属性名及属性ID的映射表,使用映射表对所有五元组进行属性替换,形成新的五元组<A
a
,P
t
,V
k
,S
j
,D
i
>;
[0022]S3.2、对输出的五元组进行分类和去重,以<A
a
,P
t
,V
k
>作为键,以<S
j
,D
i
>作为值进行聚合,可选地,若需要去重,则根据<Aa,Pt,Vk>键进行去重,输出<A
a
,P
t
,<V
k
,<S
j
,D
i
>*>*>四元组;
[0023]S3.3、对输出的四元组根据人物名进行融合,将同一人物名的属性聚合到一起,输出<A
a
,<P
t
,<V
k
,<S
j
,D
i
>*>*>*>,方便后续的存储和查询。
[0024]本专利技术技术方案的进一步改进在于:所述步骤S4中具体包括:
[0025]S4.1、对步骤S3.3中汇总的数据进行处理并对汇总的数据建立时间线,通过人物属性出现的时间与人物属性数据进行关联;
[0026]S4.2、对建立时间线的人物属性数据进行处理,对不同时间反复出现的人物属性以及持续不断出现人物属性进行加权处理,同时对特定时间点大量出现的人物属性数据进行降低权重或对特定时间点出现的人物属性数据进行删减;
[0027]S4.3、根据步骤S4.2中计算得出的结果对未来可能会出现的人物属性数据进行预测。
[0028]本专利技术技术方案的进一步改进在于:所述步骤S5中具体包括:
[0029]S5.1、以步骤S3.3中汇总的人物属性数据反向获取社交媒体中不同人物的属性,并将获取的数据建立补充数据库;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的人物属性抽取方法,其特征在于:包括以下步骤:S1、获取关联人物信息文本;S2、关联人物属性抽取识别;S3、关联人物属性分析处理;S4、关联人物行为关联;S5、关联人物属性数据的补充。2.根据权利要求1所述的一种基于大数据的人物属性抽取方法,其特征在于:所述步骤S1中具体包括:S1.1、通过开源信息对关联人物信息出现的社交媒体进行获取;S1.2、通过关联人物信息出现的频次获取主要社交媒体以及次要社交媒体;S1.3、对主要社交媒体以及次要社交媒体的关联人物信息进行获取并建立目标数据库。3.根据权利要求1所述的一种基于大数据的人物属性抽取方法,其特征在于:所述步骤S2中具体包括:S2.1、根据目标知识库的人物属性体系列举所有的人物属性,并进行必要的增补,形成人物属性种子列表,列表每项包括标准属性名、属性ID和属性别名,属性别名可以为空、一个或多个;S2.2、基于词向量技术,对属性进行扩展,通过Word2Vec库,对每个属性及其别名查找相似的术语,加入到属性列表中,形成人物属性扩增列表;S2.3、对输入文本进行文本编号分配,其中,分配的文本编号为D
i
;S2.4、对文本D
i
进行分句处理,对文本D
i
中每个句子分配编号S
j
,使用人物属性扩增列表对句子S
j
进行属性名匹配,一旦匹配成功,则将S
j
中处于匹配的属性名P
s
后面的部分作为属性值V
k
,在输入数据中查找S
j
的主体人物名A
a
,输出五元组<A
a
,P
s
,V
k
,S
j
,D
i
>,重复执行上述步骤直至所有句子S
j
处理完成;S2.5、重复执行步骤S2.4直至所有文本D
i
处理完成。4.根据权利要求1所述的一种基于大数据的人物属性抽取方法,其特征在于:所述步骤S3中具体包括:S3.1、对步骤S2.5中所有输出的五元组属性进行属性分类,根据步骤S2.2建立的人物属性扩增列表构建得到属性名与标准属性名及属性ID的映射表,使用映射表对所有五元组进行属性替换,形成新的五元组<A
a
,P
t
,V
k
,S
j
,D
i
>;S3.2、对输出的五元组进行分类和去重,以<A
a
,P
...

【专利技术属性】
技术研发人员:王海荣张瑾陈波
申请(专利权)人:中科天玑数据科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1