本发明专利技术提供了一种基于自然语言的企业资讯信息推荐方法及系统,包括:资讯信息获取步骤:通过爬虫技术获得网站的企业资讯信息;分类标签关联步骤:根据企业资讯信息关联到行业分类标签;训练数据准备步骤:根据关联到的行业分类标签,准备训练数据;神经网络模型生成步骤:根据准备的训练数据,采用深度卷积神经网络训练和测试,导出该行业标签的神经网络模型;智能标注步骤:将所有的神经网络模型应用在每份待标注行业标签的企业资讯信息上,对每份企业资讯信息都标注多个行业标签,并在数据库中进行保存。本发明专利技术删选资讯信息的准确率高;无需人工干预;成本低;能准确获得相关公司或相关行业的信息。
Method and system of enterprise information recommendation based on natural language
【技术实现步骤摘要】
基于自然语言的企业资讯信息推荐方法及系统
本专利技术涉及计算机数据处理的
,具体地,涉及一种基于自然语言的企业资讯信息推荐方法及系统。
技术介绍
同类产品现状:目前,企业新闻资讯类的基本都通过信息爬虫技术抓取互联网信息后通过企业关键字选取并进行分类。同类产品不足和缺陷:传统关键字删选资讯信息的准确率偏低,往往需要人工干预,成本较高昂,较难准确获得相关公司或相关行业的信息。本专利技术提供一种通用方法可对基于互联网企业资讯类信息按GICS行业进行标签识别分类,使得可以向关注某企业的用户自动推荐出相关的资讯信息,这些信息不仅与该企业自身相关,还可能包括与该企业的所属GICS行业相关的资讯内容。专利文献CN109657040A(申请号:201811365334.3)公开了一种融合多源异构信息的标签推荐方法,主要通过结合资源本体信息与资源的网络结构信息为其推荐标签。本专利技术的技术效果在于,通过构建同时使用资源文本内容信息以及资源之间网络结构信息的主题模型,提高挖掘资源语义信息的全面性与准确性,同时通过词对思想扩充资源的文本内容信息与网络结构信息。最后,设计一个标签过滤算法,为每一个候选标签计算一个得分,可以准确地将最相关的标签推荐给资源。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于自然语言的企业资讯信息推荐方法及系统。根据本专利技术提供的一种基于自然语言的企业资讯信息推荐方法,包括:资讯信息获取步骤:通过爬虫技术获得网站的企业资讯信息;分类标签关联步骤:根据企业资讯信息关联到行业分类标签;训练数据准备步骤:根据关联到的行业分类标签,准备训练数据;神经网络模型生成步骤:根据准备的训练数据,采用深度卷积神经网络训练和测试,导出该行业标签的神经网络模型;智能标注步骤:将所有的神经网络模型应用在每份待标注行业标签的企业资讯信息上,对每份企业资讯信息都标注多个行业标签,并在数据库中进行保存。优选地,所述获得网站的企业资讯信息包括:第一次爬取全量资讯信息,之后每次爬取增量信息;所述全量信息指目标企业在网站的所有相关资讯信息;所述增量信息指在经过预设的一段时间后,目标企业在这些相关网站上新增的资讯信息。优选地,所述分类标签关联步骤:根据企业资讯信息调用相关的API,获得企业的主营业务,并关联到企业的行业分类标签;所述企业资讯信息包括:企业名称和统一标识码。优选地,所述训练数据准备步骤:对关联到的每个行业分类标签,人工标注预设数量的资讯信息,所述资讯信息包括:属于该行业标签的资讯信息、不属于该行业标签的资讯信息。优选地,所述神经网络模型生成步骤:针对每个行业分类标签,采用深度卷积神经网络训练和测试已标注行业标签的资讯信息,导出该行业标签的神经网络模型。根据本专利技术提供的一种基于自然语言的企业资讯信息推荐系统,包括:资讯信息获取模块:通过爬虫技术获得网站的企业资讯信息;分类标签关联模块:根据企业资讯信息关联到行业分类标签;训练数据准备模块:根据关联到的行业分类标签,准备训练数据;神经网络模型生成模块:根据准备的训练数据,采用深度卷积神经网络训练和测试,导出该行业标签的神经网络模型;智能标注模块:将所有的神经网络模型应用在每份待标注行业标签的企业资讯信息上,对每份企业资讯信息都标注多个行业标签,并在数据库中进行保存。优选地,所述获得网站的企业资讯信息包括:第一次爬取全量资讯信息,之后每次爬取增量信息;所述全量信息指目标企业在网站的所有相关资讯信息;所述增量信息指在经过预设的一段时间后,目标企业在这些相关网站上新增的资讯信息。优选地,所述分类标签关联模块:根据企业资讯信息调用相关的API,获得企业的主营业务,并关联到企业的行业分类标签;所述企业资讯信息包括:企业名称和统一标识码。优选地,所述训练数据准备模块:对关联到的每个行业分类标签,人工标注预设数量的资讯信息,所述资讯信息包括:属于该行业标签的资讯信息、不属于该行业标签的资讯信息。优选地,所述神经网络模型生成模块:针对每个行业分类标签,采用深度卷积神经网络训练和测试已标注行业标签的资讯信息,导出该行业标签的神经网络模型。与现有技术相比,本专利技术具有如下的有益效果:1、本专利技术删选资讯信息的准确率高;2、本专利技术无需人工干预,成本低;3、本专利技术能准确获得相关公司或相关行业的信息。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术实施例中软件推荐方法的流程图。图2为本专利技术实施例中软件推荐系统的结构示意图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变化和改进。这些都属于本专利技术的保护范围。根据本专利技术提供的一种基于自然语言的企业资讯信息推荐方法,包括:资讯信息获取步骤:通过爬虫技术获得网站的企业资讯信息;分类标签关联步骤:根据企业资讯信息关联到行业分类标签;训练数据准备步骤:根据关联到的行业分类标签,准备训练数据;神经网络模型生成步骤:根据准备的训练数据,采用深度卷积神经网络训练和测试,导出该行业标签的神经网络模型;智能标注步骤:将所有的神经网络模型应用在每份待标注行业标签的企业资讯信息上,对每份企业资讯信息都标注多个行业标签,并在数据库中进行保存。具体地,所述获得网站的企业资讯信息包括:第一次爬取全量资讯信息,之后每次爬取增量信息;所述全量信息指目标企业在网站的所有相关资讯信息;所述增量信息指在经过预设的一段时间后,目标企业在这些相关网站上新增的资讯信息。具体地,所述分类标签关联步骤:根据企业资讯信息调用相关的API,获得企业的主营业务,并关联到企业的行业分类标签;所述企业资讯信息包括:企业名称和统一标识码。具体地,所述训练数据准备步骤:对关联到的每个行业分类标签,人工标注预设数量的资讯信息,所述资讯信息包括:属于该行业标签的资讯信息、不属于该行业标签的资讯信息。具体地,所述神经网络模型生成步骤:针对每个行业分类标签,采用深度卷积神经网络训练和测试已标注行业标签的资讯信息,导出该行业标签的神经网络模型。根据本专利技术提供的一种基于自然语言的企业资讯信息推荐系统,包括:资讯信息获取模块:通过爬虫技术获得网站的企业资讯信息;分类标签关联模块:根据企业资讯信息关联到行业分类标签;训练数据准备模块:根据关联到的行业分类标签,准备训练数据;<本文档来自技高网...
【技术保护点】
1.一种基于自然语言的企业资讯信息推荐方法,其特征在于,包括:/n资讯信息获取步骤:通过爬虫技术获得网站的企业资讯信息;/n分类标签关联步骤:根据企业资讯信息关联到行业分类标签;/n训练数据准备步骤:根据关联到的行业分类标签,准备训练数据;/n神经网络模型生成步骤:根据准备的训练数据,采用深度卷积神经网络训练和测试,导出该行业标签的神经网络模型;/n智能标注步骤:将所有的神经网络模型应用在每份待标注行业标签的企业资讯信息上,对每份企业资讯信息都标注多个行业标签,并在数据库中进行保存。/n
【技术特征摘要】
1.一种基于自然语言的企业资讯信息推荐方法,其特征在于,包括:
资讯信息获取步骤:通过爬虫技术获得网站的企业资讯信息;
分类标签关联步骤:根据企业资讯信息关联到行业分类标签;
训练数据准备步骤:根据关联到的行业分类标签,准备训练数据;
神经网络模型生成步骤:根据准备的训练数据,采用深度卷积神经网络训练和测试,导出该行业标签的神经网络模型;
智能标注步骤:将所有的神经网络模型应用在每份待标注行业标签的企业资讯信息上,对每份企业资讯信息都标注多个行业标签,并在数据库中进行保存。
2.根据权利要求1所述的基于自然语言的企业资讯信息推荐方法,其特征在于,所述获得网站的企业资讯信息包括:
第一次爬取全量资讯信息,之后每次爬取增量信息;
所述全量信息指目标企业在网站的所有相关资讯信息;
所述增量信息指在经过预设的一段时间后,目标企业在这些相关网站上新增的资讯信息。
3.根据权利要求1所述的基于自然语言的企业资讯信息推荐方法,其特征在于,所述分类标签关联步骤:
根据企业资讯信息调用相关的API,获得企业的主营业务,并关联到企业的行业分类标签;
所述企业资讯信息包括:企业名称和统一标识码。
4.根据权利要求1所述的基于自然语言的企业资讯信息推荐方法,其特征在于,所述训练数据准备步骤:
对关联到的每个行业分类标签,人工标注预设数量的资讯信息,所述资讯信息包括:属于该行业标签的资讯信息、不属于该行业标签的资讯信息。
5.根据权利要求1所述的基于自然语言的企业资讯信息推荐方法,其特征在于,所述神经网络模型生成步骤:
针对每个行业分类标签,采用深度卷积神经网络训练和测试已标注行业标签的资讯信息,导出该行业标签的神经网络模型。
【专利技术属性】
技术研发人员:潘翔,王菲,骆玮璐,杨牧,
申请(专利权)人:上海融贷通金融信息服务有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。