基于互联网信息抓取的企业业务标签挖掘的方法和系统技术方案

技术编号:33434659 阅读:22 留言:0更新日期:2022-05-19 00:23
本发明专利技术公开了一种基于互联网信息抓取的企业业务标签挖掘的方法和系统,所述方法步骤如下:给定公司名称,拼接一系列搜索关键词,从后台自动抓取互联网搜索结果文本;对搜索结果进行排序,获取最有可能包含企业业务描述的前5条文本;对段落排序得分最高的前5条结果进行业务标签抽取;对无法直接抽取业务标签的企业,进行业务标签生成。本发明专利技术所依赖的信息来源于开发领域的互联网信息,进行公司业务标签挖掘时仅需要提供公司名称,系统后台自动从互联网上抓取信息并分析挖掘,所抓取的信息不限来源种类和格式,给企业业务标签挖掘提供了极大的方便性、灵活性、泛化性;本发明专利技术结合多种NLP深度学习模型和方法,在企业业务标签挖掘中取得较好的效果。中取得较好的效果。中取得较好的效果。

【技术实现步骤摘要】
基于互联网信息抓取的企业业务标签挖掘的方法和系统


[0001]本专利技术涉及自动化,特别是一种基于互联网信息抓取的企业业务标签挖掘的方法和系统。

技术介绍

[0002]标签思维是互联网时代的核心思维之一,也是一个对象能被快速了解的渠道之一。而企业的业务标签可以让投资者快速了解该企业的核心业务,以及其在整个供应链中的主要角色。如南京中新赛克科技有限公司的业务标签为“通信信息安全服务提供商”。
[0003]这个标签需要是高度抽象的描述企业的主要业务,而不同的企业又基本上不相同的。所以事先不能够定义好所有的标签类别,就不能使用传统的分类方法得到。而公开互联网上对公司业务的描述信息可能是冗长的,如“中新赛克是一家国有控股的上市公司(002912),紧密围绕国家安全战略需求,将“构建更数字、更安全、更健康的世界”作为企业使命,专注于数据提取、数据融合计算及其在信息安全、...”,且该条信息的来源可能是企业官网、百度百科、爱企查、企查查、一些论坛网站、社交网站等,其在搜索引擎查询中可能排序在比较靠后的位置。
[0004]基于上述原因,企业业务标签挖掘有较大的难度。一是标签不固定无法使用传统的处理标签画像类的分类方法来给企业打业务标签。二是无法确定从一个固定上下文描述风格固定又一定含有该企业业务相关描述的渠道中获取到信息来源,换句通俗的话来说,就是不知道哪里有企业业务相关的描述,需要到网上去找才知道。所以使用单一的模型和单一的技术手段,很难取得较好的效果。
[0005]因此,给企业打业务标签是业界共同的难题,当前业界在打标过程中主要还是依赖人工对搜索互联网上该公司的相关信息后进行筛选和总结,甚至对企业进行实地调研后进行打标,效率很低,少数自动化打标的已知系统中,仅能应用与先人工整理出一系列已知的业务标签,然后使用分类的技术,来给企业进行画像打标。但对于这种事先无法限定标签类型和标签内容的企业业务标签打标问题,还需要研究探索一种效果更好的自动化打标方法和系统来解决该问题。

技术实现思路

[0006]专利技术目的:本专利技术的目的是提供一种基于互联网信息抓取的企业业务标签挖掘方法和系统,从而在不限定企业类型、不限定业务标签种类和内容、不提供同类型企业业务描述上下文的情况下,自动化挖掘简短、通顺的企业业务标签。
[0007]技术方案:本专利技术所述的一种基于互联网信息抓取的企业业务标签挖掘方法,包括以下步骤:
[0008](1)给定一个公司名称,根据该公司名称拼接一系列的搜索关键词,从后台自动抓取互联网搜索结果文本;企业业务相关的描述,来源于网络上不同的渠道,可以通过拼接不同的关键词,从百度搜索引擎上抓取尽量全面的信息。
[0009](2)对上一步互联网爬取到的搜索结果进行排序,获取最有可能包含企业业务描述的前5条文本;该处理步骤相当于搜索结果排序。搜索结果排序算法有很多,其中比较典型的是基于词频统计的TF

IDF算法,基于n

gram的BM25算法,基于近年来基于自然语言语义向量深度学习模型。因TF

IDF和BM25等算法没有考虑“业务标签”这一抽象的语义和段落之前的关联关系,所以我们使用基于深度学习预训练模型微调的句子对匹配模型,来计算某一条搜索结果包含企业业务描述的得分,根据得分多少来进行排序,并取得分最高的前5条记录。
[0010](3)对段落排序得分最高的前5条结果,进行业务标签抽取。
[0011](3.1)业务标签抽取采用基于预训练深度学习语言模型BERT,通过训练微调模型;
[0012](3.2)预测整个篇章内容中,每个字作为标签开始位置和结束位置的一个打分;
[0013](3.3)选出一组开始位置和结束位置得分最高的;如果其分值之和比空答案的分值高,则为成功抽取的业务标签,否则表示该篇章文本无法直接抽取业务标签。
[0014](4)对于无法直接抽取业务标签的企业,进行业务标签生成。业务标签生成采用基于预训练深度学习语言模型CPT,CPT的具体结构为一个输入,多个输出的非对称transformer encoder

decoder结构,主要包括三个部分:
[0015]S

Enc:共享Encoder,双向attention结构,建模输入文本;
[0016]U

Dec:理解用Decoder,双向attention结构,输入S

Enc得到的表示,输出MLM的结果,为模型增强理解任务;
[0017]G

Dec:生成用Decoder,利用encoder

decoder attention与S

Enc相连,用于生成。
[0018]CPT作为一个兼顾理解和生成的中文预训练模型,在很多的中文类生成任务上,例如在多个生成摘要的公开数据集(LCSTS和CSL)以及长文本生成数据集ADGEN等公开测试数据集上,均取得目前为止最好的效果。
[0019]一种基于互联网信息抓取的企业业务标签挖掘的系统,所述系统包括以下模块:
[0020]爬虫模块:该模块负责互联网信息抓取,即给定一个公司名称,根据该公司名称拼接一系列的搜索关键词,从后台自动抓取互联网搜索结果文本;该模块从百度上爬取互联网信息,并提供给后续的模型训练模块和预测模块;
[0021]模型训练模块:使用爬虫模块所爬取的数据,训练文本段落排序模型,业务标签抽取模型和业务标签生成模型;
[0022]预测应用模块:根据给定的公司名,调用爬虫模块从百度上爬取该公司的相关信息,并调用模型训练模块所训练出来的段落排序模型、业务标签抽取模型和业务标签生成模型,最终预测出所给定公司的业务标签。
[0023]一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的一种基于互联网信息抓取的企业业务标签挖掘的方法。
[0024]一种计算机设备,包括储存器、处理器及存储在存储器上并可再处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种基于互联网信息抓取的企业业务标签挖掘的方法。
[0025]有益效果:与现有技术相比,本专利技术具有如下优点:
[0026]1、本专利技术所依赖的信息来源于开发领域的互联网信息,进行公司业务标签挖掘时
仅需要提供公司名称,系统后台自动从互联网上抓取信息并分析挖掘,所抓取的信息不限定来源种类和格式,给企业业务标签挖掘提供了极大的方便性、灵活性、泛化性;
[0027]2、本专利技术结合多种NLP深度学习模型和方法,在企业业务标签挖掘中取得较好的效果。
附图说明
[0028]图1为业务标签挖掘系统的模型训练及业务标签打标应用预测结合的流程图;
[0029]图2为段落排序模型、标签抽取模型、标签生成模型训练流程图;
[0030]图3为给公司打业务标签流程图;
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于互联网信息抓取的企业业务标签挖掘的方法,其特征在于,包括以下步骤:(1)给定一个公司名称,根据该公司名称拼接一系列的搜索关键词,从后台自动抓取互联网搜索结果文本;(2)对上一步互联网爬取到的搜索结果进行排序,获取最有可能包含企业业务描述的前5条文本;(3)对段落排序得分最高的前5条结果,进行业务标签抽取;(4)对于无法直接抽取业务标签的企业,进行业务标签生成。2.根据权利要求1所述的一种基于互联网信息抓取的企业业务标签挖掘的方法,其特征在于,所述步骤(2)中排序采用的算法为:基于深度学习预训练模型微调的句子对匹配模型,来计算某一条搜索结果包含企业业务描述的得分,根据得分多少来进行排序,并取得分最高的前5条记录。3.根据权利要求1所述的一种基于互联网信息抓取的企业业务标签挖掘的方法,其特征在于,所述步骤(3)具体为:(3.1)业务标签抽取采用基于预训练深度学习语言模型BERT,通过训练微调模型;(3.2)预测整个篇章内容中,每个字作为标签开始位置和结束位置的一个打分;(3.3)选出一组开始位置和结束位置得分最高的;如果其分值之和比空答案的分值高,则为成功抽取的业务标签,否则表示该篇章文本无法直接抽取业务标签。4.根据权利要求1所述的一种基于互联网信息抓取的企业业务标签挖掘的方法,其特征在于,步骤(4)中业务标签生成采用基于预训练深度学习语言模型CPT。5.根据权利要求4所述的一种基于互联网信息抓取的企业业务标签挖掘的方法,其特征在于,所述CPT的具体结构为一个输入,多个输出的非对称transformer encoder

decoder结构,主要包括三个部分:S

Enc:共享E...

【专利技术属性】
技术研发人员:陈秀玲张全卓可秋
申请(专利权)人:南京中新赛克科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1