从互联网中识别分析企业主体信息方法、装置及存储介质制造方法及图纸

技术编号:24251651 阅读:17 留言:0更新日期:2020-05-22 23:37
本发明专利技术涉及企业主体信息的识别和分析技术领域,具体涉及一种从互联网中识别分析企业主体信息方法、装置及存储介质,该方法包括以下步骤:将N个企业主体信息划分为M个不同的区域,利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;以I个所述字典树为一个小组,将M个字典树分为J个小组;将所述J个小组聚合为一个企业主体信息识别服务;将所述企业主体信息识别服务封装为统一的远程过程调用接口;调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;存储所识别的企业主体信息及相应的查询结果,实现了快速的从互联网信息中快速识别企业主体信息并进行分析的目的。

Methods, devices and storage media of identifying and analyzing enterprise subject information from the Internet

【技术实现步骤摘要】
从互联网中识别分析企业主体信息方法、装置及存储介质
本专利技术涉及企业主体信息的识别和分析
,具体涉及一种从互联网中识别分析企业主体信息方法、装置及存储介质。
技术介绍
数据作为大数据时代重要的资源,分散在各行业,其中互联网上的数据资源尤为巨大,并以惊人的速度增长,数据中存在大量的、有价值的信息,如新闻、企业招聘信息、自媒体信息、招投标信息等。国家市场监督总局2019年2月发布信息,全国市场主体数量1.11亿户,其中企业3500万户,而与之关联的数据大量存在互联网中,目前对互联网信息的识别常用的有以下几种技术:A、正则表达式正则表达式只适合匹配文本字面,不适合匹配文本意义,写一个复杂的HTML信息匹配识别的正则比较麻烦,不如使用针对特定意义的处理器来处理。优势在于:只要熟练应用正则表达式,而且匹配的目标是纯文本,那么相比于写分析器来说,正则可以更快速的完成工作。还有在捕获字符串的能力,正则也可以很好的完成工作。不足之处:写法复杂,替换功能差、容易引起性能问题,可读性差等。B、DOM分析器DOM分析器的优点在于:开发人员只需调用建树指令,利用navigationAPIs访问所需的树节点来完成任务,编程容易,添加和修改树中的元素容易。不足之处:DOM分析器在处理很大的XML文档时,需要频繁的改变的服务中,对性能和内存的要求比较高。C、Jsoup通过HttpClient先获取到html,直接解析某个URL地址、HTML文本内容。优点在于:它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。不足之处:ajax加载的异步数据,信息内容无法识别并解析。专利技术人在实践中,发现上述现有技术存在以下缺陷:上述识别方法所采用的搜索技术多为以少数关键词去长文本当中搜索,但是目前的需求是从长文本当中识别短的企业主体名称。并且在无算法情况下,逐条信息与企业名称匹配,时间代价太大。
技术实现思路
为了解决上述技术问题,本专利技术的目的在于提供一种从互联网中识别分析企业主体信息方法、装置及存储介质,所采用的技术方案具体如下:第一方面,本专利技术实施例提供了一种从互联网中识别分析企业主体信息方法,该方法包括以下步骤:将N个企业主体信息划分为M个不同的区域,利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;以I个所述字典树为一个小组,将M个字典树分为J个小组;将所述J个小组聚合为一个企业主体信息识别服务;将所述企业主体信息识别服务封装为统一的远程过程调用接口;调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;存储所识别的企业主体信息及相应的查询结果。进一步,所述构建字典树时,采用多线程进行并行构建。进一步,所述字典树算法采用ac自动机算法,所述ac自动机算法中在构建失败指针之后,还包括以下步骤:对失败指针的二次处理:在同时满足以下条件时,直接把尾节点的失败指针修改为其父节点的失败指针的失败指针中的子节点:条件1:某一尾节点的所代表的字符串和其父节点所代表的字符串相同;条件2:该尾节点的失败指针不是根节点,且其失败指针的父节点是根节点;条件3:该尾节点的父节点的失败指针的失败指针不是指向根节点,且其父节点的失败指针的失败指针中的子节点中具有和该尾节点所代表的字符串相同的节点。进一步,所述把尾节点的失败指针修改为其父节点的失败指针的失败指针中的子节点之后,还包括:为每个节点添加是否为一个词的结尾的属性。进一步,在所述为每个节点添加是否为一个词的结尾的属性之后,还包括:若某一节点向其根节点回溯的过程中所产生的关键词和该根节点的某个分支的关键词完全相同,则把所述节点的branch列表中添加一个指向所述分支的尾节点的指针。第二方面,本专利技术实施例提供了一种从互联网中识别分析企业主体信息装置,该装置包括:区域划分模块,用于将N个企业主体信息划分为M个不同的区域;字典树构建模块,用于利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;分组模块,用于以I个所述字典树为一个小组,将M个字典树分为J个小组;生成服务模块,用于将所述J个小组聚合为一个企业主体信息识别服务;封装模块,用于将所述企业主体信息识别服务封装为统一的远程过程调用接口;查询模块,用于调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;存储模块,用于存储所识别的企业主体信息及相应的查询结果。进一步,该装置包括多个并行的字典树构建模块。进一步,所述字典树构建模块采用ac自动机算法构建所述字典树,在利用所述ac自动机算法构建失败指针之后还包括修正模块,所述修正模块用于在同时满足以下条件时,直接把尾节点的失败指针修改为其父节点的失败指针的失败指针中的子节点:条件1:某一尾节点的所代表的字符串和其父节点所代表的字符串相同;条件2:该尾节点的失败指针不是根节点,且其失败指针的父节点是根节点;条件3:该尾节点的父节点的失败指针的失败指针不是指向根节点,且其父节点的失败指针的失败指针中的子节点中具有和该尾节点所代表的字符串相同的节点。进一步,所述修正模块,还包括:添加单词属性模块,用于为每个节点添加是否为一个词的结尾的属性;添加分支指针模块,用于在某一节点向其根节点回溯的过程中所产生的关键词和该根节点的某个分支的关键词完全相同,则把所述节点的branch列表中添加一个指向所述分支的尾节点的指针。第三方面,本专利技术实施例提供了一种存储介质,该存储介质中存储有计算机可读的程序指令,所述程序指令被处理器执行时实现权利要求1至5中任意一项所述的方法。本专利技术具有如下有益效果:本专利技术实施例提供了一种从互联网中识别分析企业主体信息方法,对部署在互联网上的多个服务节点建立连接,对互联网上的多个新闻资讯站点发起并行连接,快速识别企业主体信息,实现了快速的从互联网信息中快速识别企业主体信息并进行分析的目的。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1为本专利技术一个实施例所提供的一种从互联网中识别分析企业主体信息方法流程图;图2为利用saysheshrheher构建的字典树的结构示意图;图3为本专利技术实施例所提供的实施环境图;图4为利用heherrrsheerrrrrtttt构建的字典树的结构示意图;图5为在图4的基础上构造的失败指针之后的结构示意图;图6为本文档来自技高网
...

【技术保护点】
1.一种从互联网中识别分析企业主体信息方法,其特征在于,该方法包括以下步骤:/n将N个企业主体信息划分为M个不同的区域,利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;/n以I个所述字典树为一个小组,将M个字典树分为J个小组;/n将所述J个小组聚合为一个企业主体信息识别服务;/n将所述企业主体信息识别服务封装为统一的远程过程调用接口;/n调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;/n存储所识别的企业主体信息及相应的查询结果。/n

【技术特征摘要】
1.一种从互联网中识别分析企业主体信息方法,其特征在于,该方法包括以下步骤:
将N个企业主体信息划分为M个不同的区域,利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;
以I个所述字典树为一个小组,将M个字典树分为J个小组;
将所述J个小组聚合为一个企业主体信息识别服务;
将所述企业主体信息识别服务封装为统一的远程过程调用接口;
调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;
存储所识别的企业主体信息及相应的查询结果。


2.根据权利要求1所述的一种从互联网中识别分析企业主体信息方法,其特征在于,所述构建字典树时,采用多线程进行并行构建。


3.根据权利要求1或者2所述的一种从互联网中识别分析企业主体信息方法,其特征在于,所述字典树算法采用ac自动机算法,所述ac自动机算法中在构建失败指针之后,还包括以下步骤:
对失败指针的二次处理:在同时满足以下条件时,直接把尾节点的失败指针修改为其父节点的失败指针的失败指针中的子节点:
条件1:某一尾节点的所代表的字符串和其父节点所代表的字符串相同;
条件2:该尾节点的失败指针不是根节点,且其失败指针的父节点是根节点;
条件3:该尾节点的父节点的失败指针的失败指针不是指向根节点,且其父节点的失败指针的失败指针中的子节点中具有和该尾节点所代表的字符串相同的节点。


4.根据权利要求3所述的一种从互联网中识别分析企业主体信息方法,其特征在于,所述把尾节点的失败指针修改为其父节点的失败指针的失败指针中的子节点之后,还包括:为每个节点添加是否为一个词的结尾的属性。


5.根据权利要求1所述的一种从互联网中识别分析企业主体信息方法,其特征在于,在所述为每个节点添加是否为一个词的结尾的属性之后,还包括:
若某一节点向其根节点回溯的过程中所产生的关键词和该根节点的某个分支的关键词完全相同,则把所述节点的branch列表中添加一个指向所述分支的尾节点的指针。


6.一种从互联网中识别分析企业主体信息装置...

【专利技术属性】
技术研发人员:贾新李善平朱红生晋梁昊
申请(专利权)人:河南拓普计算机网络工程有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1