基于互联网信息抓取的企业业务标签挖掘的方法和系统技术方案

技术编号:33434659 阅读:41 留言:0更新日期:2022-05-19 00:23
本发明专利技术公开了一种基于互联网信息抓取的企业业务标签挖掘的方法和系统,所述方法步骤如下:给定公司名称,拼接一系列搜索关键词,从后台自动抓取互联网搜索结果文本;对搜索结果进行排序,获取最有可能包含企业业务描述的前5条文本;对段落排序得分最高的前5条结果进行业务标签抽取;对无法直接抽取业务标签的企业,进行业务标签生成。本发明专利技术所依赖的信息来源于开发领域的互联网信息,进行公司业务标签挖掘时仅需要提供公司名称,系统后台自动从互联网上抓取信息并分析挖掘,所抓取的信息不限来源种类和格式,给企业业务标签挖掘提供了极大的方便性、灵活性、泛化性;本发明专利技术结合多种NLP深度学习模型和方法,在企业业务标签挖掘中取得较好的效果。中取得较好的效果。中取得较好的效果。

【技术实现步骤摘要】
基于互联网信息抓取的企业业务标签挖掘的方法和系统


[0001]本专利技术涉及自动化,特别是一种基于互联网信息抓取的企业业务标签挖掘的方法和系统。

技术介绍

[0002]标签思维是互联网时代的核心思维之一,也是一个对象能被快速了解的渠道之一。而企业的业务标签可以让投资者快速了解该企业的核心业务,以及其在整个供应链中的主要角色。如南京中新赛克科技有限公司的业务标签为“通信信息安全服务提供商”。
[0003]这个标签需要是高度抽象的描述企业的主要业务,而不同的企业又基本上不相同的。所以事先不能够定义好所有的标签类别,就不能使用传统的分类方法得到。而公开互联网上对公司业务的描述信息可能是冗长的,如“中新赛克是一家国有控股的上市公司(002912),紧密围绕国家安全战略需求,将“构建更数字、更安全、更健康的世界”作为企业使命,专注于数据提取、数据融合计算及其在信息安全、...”,且该条信息的来源可能是企业官网、百度百科、爱企查、企查查、一些论坛网站、社交网站等,其在搜索引擎查询中可能排序在比较靠后的位置。
[0004]基于上述原因,企业业本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于互联网信息抓取的企业业务标签挖掘的方法,其特征在于,包括以下步骤:(1)给定一个公司名称,根据该公司名称拼接一系列的搜索关键词,从后台自动抓取互联网搜索结果文本;(2)对上一步互联网爬取到的搜索结果进行排序,获取最有可能包含企业业务描述的前5条文本;(3)对段落排序得分最高的前5条结果,进行业务标签抽取;(4)对于无法直接抽取业务标签的企业,进行业务标签生成。2.根据权利要求1所述的一种基于互联网信息抓取的企业业务标签挖掘的方法,其特征在于,所述步骤(2)中排序采用的算法为:基于深度学习预训练模型微调的句子对匹配模型,来计算某一条搜索结果包含企业业务描述的得分,根据得分多少来进行排序,并取得分最高的前5条记录。3.根据权利要求1所述的一种基于互联网信息抓取的企业业务标签挖掘的方法,其特征在于,所述步骤(3)具体为:(3.1)业务标签抽取采用基于预训练深度学习语言模型BERT,通过训练微调模型;(3.2)预测整个篇章内容中,每个字作为标签开始位置和结束位置的一个打分;(3.3)选出一组开始位置和结束位置得分最高的;如果其分值之和比空答案的分值高,则为成功抽取的业务标签,否则表示该篇章文本无法直接抽取业务标签。4.根据权利要求1所述的一种基于互联网信息抓取的企业业务标签挖掘的方法,其特征在于,步骤(4)中业务标签生成采用基于预训练深度学习语言模型CPT。5.根据权利要求4所述的一种基于互联网信息抓取的企业业务标签挖掘的方法,其特征在于,所述CPT的具体结构为一个输入,多个输出的非对称transformer encoder

decoder结构,主要包括三个部分:S

Enc:共享E...

【专利技术属性】
技术研发人员:陈秀玲张全卓可秋
申请(专利权)人:南京中新赛克科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1