【技术实现步骤摘要】
基于互联网信息抓取的企业业务标签挖掘的方法和系统
[0001]本专利技术涉及自动化,特别是一种基于互联网信息抓取的企业业务标签挖掘的方法和系统。
技术介绍
[0002]标签思维是互联网时代的核心思维之一,也是一个对象能被快速了解的渠道之一。而企业的业务标签可以让投资者快速了解该企业的核心业务,以及其在整个供应链中的主要角色。如南京中新赛克科技有限公司的业务标签为“通信信息安全服务提供商”。
[0003]这个标签需要是高度抽象的描述企业的主要业务,而不同的企业又基本上不相同的。所以事先不能够定义好所有的标签类别,就不能使用传统的分类方法得到。而公开互联网上对公司业务的描述信息可能是冗长的,如“中新赛克是一家国有控股的上市公司(002912),紧密围绕国家安全战略需求,将“构建更数字、更安全、更健康的世界”作为企业使命,专注于数据提取、数据融合计算及其在信息安全、...”,且该条信息的来源可能是企业官网、百度百科、爱企查、企查查、一些论坛网站、社交网站等,其在搜索引擎查询中可能排序在比较靠后的位置。
[0004] ...
【技术保护点】
【技术特征摘要】
1.一种基于互联网信息抓取的企业业务标签挖掘的方法,其特征在于,包括以下步骤:(1)给定一个公司名称,根据该公司名称拼接一系列的搜索关键词,从后台自动抓取互联网搜索结果文本;(2)对上一步互联网爬取到的搜索结果进行排序,获取最有可能包含企业业务描述的前5条文本;(3)对段落排序得分最高的前5条结果,进行业务标签抽取;(4)对于无法直接抽取业务标签的企业,进行业务标签生成。2.根据权利要求1所述的一种基于互联网信息抓取的企业业务标签挖掘的方法,其特征在于,所述步骤(2)中排序采用的算法为:基于深度学习预训练模型微调的句子对匹配模型,来计算某一条搜索结果包含企业业务描述的得分,根据得分多少来进行排序,并取得分最高的前5条记录。3.根据权利要求1所述的一种基于互联网信息抓取的企业业务标签挖掘的方法,其特征在于,所述步骤(3)具体为:(3.1)业务标签抽取采用基于预训练深度学习语言模型BERT,通过训练微调模型;(3.2)预测整个篇章内容中,每个字作为标签开始位置和结束位置的一个打分;(3.3)选出一组开始位置和结束位置得分最高的;如果其分值之和比空答案的分值高,则为成功抽取的业务标签,否则表示该篇章文本无法直接抽取业务标签。4.根据权利要求1所述的一种基于互联网信息抓取的企业业务标签挖掘的方法,其特征在于,步骤(4)中业务标签生成采用基于预训练深度学习语言模型CPT。5.根据权利要求4所述的一种基于互联网信息抓取的企业业务标签挖掘的方法,其特征在于,所述CPT的具体结构为一个输入,多个输出的非对称transformer encoder
‑
decoder结构,主要包括三个部分:S
‑
Enc:共享E...
【专利技术属性】
技术研发人员:陈秀玲,张全,卓可秋,
申请(专利权)人:南京中新赛克科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。