System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种全国特定人员资料库的构建方法技术_技高网

一种全国特定人员资料库的构建方法技术

技术编号:40108365 阅读:8 留言:0更新日期:2024-01-23 18:47
本发明专利技术公开了一种全国特定人员资料库的构建方法,包括以下步骤:1)建立全国特定地区域表;2)特定地区域官方网站登记;3)确定特定地区域官网的特定人员公示页面;4)通过第三方人物库采集待搜寻的特定人员信息;5)定时轮询上述官网,进行信息的更新。本发明专利技术解决现有技术中构建全国特定人员资料库存在的采集信息来源分散,采集信息定位和统一比较难,采集信息更新不及时的技术问题,集成采用网络爬虫技术以及人工智能NPL技术,对非特定的网页进行分析,甄别出全国各省市地区的行政官方网站中的相关特定人员姓名和职务信息,进而构建全国特定人员资料库。

【技术实现步骤摘要】

本专利技术涉及人互联网信息爬虫领域,更具体地说,涉及一种全国特定人员资料库的构建方法


技术介绍

1、当前,对于人物库的构建,大多是根据网络爬虫技术来实现,一般是有特定的机构对互联网上所有的信息进行爬取和综合分析而来,采用人机协助的方式来完成,比如百度百科就构建了人物库,人民网、全国经济网也构建了人物库等。但对于一般的公司而言,维护一套这样的系统,投入的人力和预算还是比较大的。

2、构建了人物库之后,可以有很多应用,比如获得各个省市特定人员相关任职信息,对于东方明珠新媒体股份有限公司这样的媒体公司,需要检查播放的视频中是否有落马官员等信息。落马人员具有负面的社会形象,其出现在视频中可能会引起社会不良的反响,对视频的传播效果产生负面的影响。所以提前采集全国特定人员的相关信息(包括照片等信息),构建特定人员的资料库,方便后续视频鉴别的调用。

3、现行的人物资料库构建主要采用是人工录入或机器录入,存在如下主要问题:

4、1)采集信息来源分散:各个省市、地区相关特定人员信息最具有权威的发布渠道是各个地区的官方网站,所以采集特定人员具备较高职位的特定人员的信息的权威地方是各个官方网站,但是全国有30多个省,接近2000个县,造成官方网站比较分散。

5、2)采集信息定位和统一比较难:尽管各个省市官方网站都具有特定人员信息公示,但是不同的网站公示信息放置的子目录或者网页位置不同,这给自动化定位采集带来问题;此外,特定人员公示信息不统一,这为信息统一化采集带来问题,比如大多数地方特定人员公示是有照片或者简历,有的只有相关照片,有的只有清单;有的网页会放置所有特定人员照片等信息。

6、3)信息更新不及时:由于全国特定人员数量巨大,并且分布在不同的网站,人工采集的信息更新同步间隔比较大,造成信息不及时更新。


技术实现思路

1、针对现有技术中存在的上述缺陷,本专利技术的目的是提供一种全国特定人员资料库的构建方法,解决现有技术中构建全国特定人员资料库存在的采集信息来源分散,采集信息定位和统一比较难,采集信息更新不及时的技术问题,集成采用网络爬虫技术以及人工智能npl技术,对非特定的网页进行分析,甄别出全国各省市地区的行政官方网站中的相关特定人员姓名和职务信息,进而构建全国特定人员资料库。

2、为实现上述目的,本专利技术采用如下技术方案:

3、一种全国特定人员资料库的构建方法,包括以下步骤:

4、1)建立全国特定地区域表;

5、2)特定地区域官方网站登记;

6、3)确定特定地区域官网的特定人员公示页面;

7、4)通过第三方人物库采集待搜寻的特定人员信息;

8、5)定时轮询上述官网,进行信息的更新。

9、较佳的,所述步骤1)具体为:

10、根据全国特定地区域,构建省市-地区-县级别的地区表。

11、较佳的,所述步骤2)具体为:

12、根据省市县级别排列进行查询全国特定地区域的官方网站。

13、较佳的,所述步骤3)具体包括以下步骤:

14、31)爬取整个网站网页深度为3以内的网页;

15、32)逐个网页获取文本数据;

16、33)利用npl工具或大规模语言模型分析文本;

17、34)选取侯选页面;

18、35)提取特定人员姓名和职位信息,写入到数控库中。

19、较佳的,所述步骤32)中,采用wget工具获取文本数据。

20、较佳的,所述步骤33)中,采用chatgpt算法分析文本。

21、较佳的,所述步骤34)中选取侯选页面包括以下步骤:

22、341)特定人员公示页面程序会保存三个提取到相关职位和姓名的页面,并对提取的几个页面做一个判断,并记录最可能的页面;

23、342)如果程序没有搜索到特定人员公示页面,程序将提示人工介入,人工确定特定人员公示页面。

24、较佳的,所述步骤35)中提取特定人员姓名和职位信息包括以下步骤:

25、351)提取网页的纯文本信息;

26、352)调用ai对纯文本进行分析;

27、353)检索出行政人员信息,计入数据库。

28、较佳的,所述步骤4)具体包括以下步骤:

29、41)根据检索到的行政人员信息到第三方人物库搜索相关人物详细信息;

30、42)将搜索到的相关人物详细信息保存到数据库中。

31、较佳的,所述步骤5)具体包括以下步骤:

32、51)建立信息轮询机制,周期性的轮询网站信息;

33、52)检查人员信息是否更换,如果有更换,就更新网站信息,并采集新行政人员相关信息,及时更新相关行政人员资料库。

34、本专利技术所提供的一种全国特定人员资料库的构建方法,采用人机结合的方式进行采集,采用特定地区域来查询官网,查询到官网后,综合利用网络爬虫工具、人工智能技术,利用第三方人物库接口统一展示人物相关信息的特地简化程序的实现。采用网络爬虫技术以及人工智能npl技术,对非特定的网页进行分析,甄别出全国各省市地区的行政官方网站中的相关行政人员姓名和职务信息,进而构建全国行政人员库,采集信息可靠性好,准确度高。同时还解决了一下几个难点:

35、1)信息来源可靠性

36、全部都是从各个地方的官方网站获得的数据,保证了信息的可靠性和及时性。

37、2)引进人工智能ai算法,解决定位难题

38、采用人工智能ai算法,实现从网站中提取到特定人员公示页面,并从特定页面直接提取文字信息,从而实现能够处理不同的特定人员介绍页面的情况,做到通用性。

39、人工智能算法可以是基于规则的,也可以对接现在openai公司最新推出的chatgpt算法,利用其通用性,可以把从网站提取到的文本信息交给chatgpt进行分析,chatgpt可以很快的分析出网页文本表达的意思,可以设定特定类型比如json或者xml格式把特定人员信息列成列表,提高通用性和开发人员效率。

40、3)采用系统集成,构建系统闭环

41、本专利技术首先采用特定地区域来查询官网,查询到官网后,综合利用网站爬虫工具、人工智能技术、单独网页爬虫工具,并利用第三方人物库接口适应千变万化的重要特定人员展示页面的情况。

42、并考虑到信息更新,可以定期的对特定人员信息进行采集。

本文档来自技高网...

【技术保护点】

1.一种全国特定人员资料库的构建方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的全国特定人员资料库的构建方法,其特征在于:所述步骤1)具体为:

3.根据权利要求1所述的全国特定人员资料库的构建方法,其特征在于:所述步骤2)具体为:

4.根据权利要求1所述的全国特定人员资料库的构建方法,其特征在于,所述步骤3)具体包括以下步骤:

5.根据权利要求4所述的全国特定人员资料库的构建方法,其特征在于:所述步骤32)中,采用wget工具获取文本数据。

6.根据权利要求4所述的全国特定人员资料库的构建方法,其特征在于:所述步骤33)中,采用chatGPT算法分析文本。

7.根据权利要求4所述的全国特定人员资料库的构建方法,其特征在于,所述步骤34)中选取侯选页面包括以下步骤:

8.根据权利要求4所述的全国特定人员资料库的构建方法,其特征在于,所述步骤35)中提取特定人员姓名和职位信息包括以下步骤:

9.根据权利要求4所述的全国特定人员资料库的构建方法,其特征在于,所述步骤4)具体包括以下步骤:

10.根据权利要求4所述的全国特定人员资料库的构建方法,其特征在于,所述步骤5)具体包括以下步骤:

...

【技术特征摘要】

1.一种全国特定人员资料库的构建方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的全国特定人员资料库的构建方法,其特征在于:所述步骤1)具体为:

3.根据权利要求1所述的全国特定人员资料库的构建方法,其特征在于:所述步骤2)具体为:

4.根据权利要求1所述的全国特定人员资料库的构建方法,其特征在于,所述步骤3)具体包括以下步骤:

5.根据权利要求4所述的全国特定人员资料库的构建方法,其特征在于:所述步骤32)中,采用wget工具获取文本数据。

6.根据权利要求4所述的全国特定人员资料...

【专利技术属性】
技术研发人员:张立杰张世乐陆趣卢宝丰
申请(专利权)人:东方明珠新媒体股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1