一种数据处理方法技术

技术编号:32200020 阅读:8 留言:0更新日期:2022-02-08 16:06
本发明专利技术公开了一种数据处理方法,基于卷积神经网络,提取多尺度卷积神经网络特征,并通过基于三元组损失函数对多尺度卷积神经网络特征进行优化训练,进一步建模了企业信息的语义信息,并发布。本发明专利技术考虑了多种维度特征之间包含着大量互补信息,基于多尺度卷积神经网络特征、多方向聚类,充分利用并挖掘不同维度特征间的关联互补性,因此能取得更好的数据处理准确率。理准确率。理准确率。

【技术实现步骤摘要】
一种数据处理方法


[0001]本专利技术涉及互联网
,特别是涉及一种数据处理方法。

技术介绍

[0002]数据网站通常保存有大量的文件、公文、通告等文档类数据,由于数量庞大,需要花费大量的时间和精力分类,并存在着查找信息不便、信息搜索不准确、信息分类不合理、分类不细致、信息录入板块不准确等各类问题,不利于提供有效的信息服务。
[0003]现需一种处理方式可以将信息充分分类。

技术实现思路

[0004]本专利技术是为了解决现有技术中的问题,提供了一种数据处理方法,基于卷积神经网络,提取多尺度卷积神经网络特征,并通过基于三元组损失函数对多尺度卷积神经网络特征进行优化训练,进一步建模了企业信息的语义信息,提供更具语义信息和辨识力,解决了上述问题。
[0005]本专利技术提供了一种数据处理方法,包括以下步骤:S1、从各信息发布端收集信息,将收集到的数据统一格式,对统一文件格式后的数据进行分析、清洗预处理,并按收集来源形成第一数据库;S2、导入待处理数据至数据处理系统;S3、根据待处理数据,神经网络特征模块通过第一数据库提取待处理数据内企业样本之间的神经网络特征并传输至数据发布模块;时间序列特征模块将第一数据库的合作事件信息进行时间聚类,并提取待处理数据内的时间序列特征并传输至数据发布模块;属性网络特征模块根据第一数据库中企业基本信息进行聚类,提取属性网络特征并传输至数据发布模块;S4、基于神经网络特征、时间序列特征和属性网络特征,将待处理数据与第一数据库中信息进行相似度匹配,得到三个维度特征的融合结果,数据发布模块发布融合结果。
[0006]本专利技术所述的一种数据处理方法,作为优选方式,步骤S1具体包括:S11、选取待评价的行业,确定信息来源,从信息来源网页中爬取企业信息;S12、对爬取到的原始数据进行汇总,清洗数据,包括重复值处理、缺失值处理、异常值处理;S13、以数据来源为主键ID建立第一数据库。
[0007]本专利技术所述的一种数据处理方法,作为优选方式,企业信息包括企业基本信息和企业合作信息,企业基本信息包括企业的名称、成立的时间、所属行业;企业合作信息包括投融资事件、项目合作事件、买卖关系。
[0008]本专利技术所述的一种数据处理方法,作为优选方式,步骤S4中融合检索结果的具体计算公式为:
其中为待处理数据和第一数据库中第个企业合作信息的总相似度,为神经网络特征的相似度、为时间序列特征的相似度、为属性网络特征的相似度,和为权重参数。
[0009]本专利技术所述的一种数据处理方法,作为优选方式,数据处理系统包括第一数据库、数据发布模块、特征提取模块,第一数据库连接特征提取模块,特征提取模块连接数据发布模块;特征提取模块包括神经网络特征模块、时间序列特征模块和属性网络特征模块,神经网络特征模块连接第一数据库、数据发布模块,时间序列特征模块连接第一数据库和数据发布模块,属性网络特征模块连接第一数据库,神经网络特征模块用于通过第一数据库提取神经网络特征并基于三元组度量损失函数对神经网络进行优化训练并输出神经网络特征至数据发布模块,时间序列特征模块用于通过第一数据库根据提取的时间序列特征,构建时间序列并输出基于时间序列聚类的时间序列特征至数据发布模块,属性网络特征模块用于通过基于密度的聚类算法对企业基本信息进行聚类并属性网络特征至数据发布模块。
[0010]本专利技术所述的一种数据处理方法,作为优选方式,神经网络特征模块包括残差网络、第一全连接层、第二全连接层、第一卷积层、第二卷积层、第一池化层和第二池化层,残差网络、第一卷积层和第二卷积层均连接第一数据库,残差网络数据连接第一全连接层,第一卷积层数据连接第一池化层,第二卷积层数据连接第二池化层,第一全连接层、第一池化层和第二池化层均连接第二全连接层,第二全连接层将神经网络特征传递至数据发布模块。
[0011]本专利技术所述的一种数据处理方法,作为优选方式,步骤S3中神经网络特征模块通过第一数据库提取待处理数据内企业样本之间的神经网络特征并传输至数据发布模块具体方式为:S311、企业样本分别输入残差网络、第一卷积层和第二卷积层,第一数据库预训练参数初始化的所述残差网络,并提取残差网络中的第一特征输入到第一全连接层中;S312、第一卷积层和第二卷积层采用不同的Padding值和Stride值,分别通过第一池化层和第二池化层得到第二特征和第三特征;S313、第一特征、第二特征和第三特征均经过2正则化;S314、正则化后的第一特征、第二特征和第三特征拼接输入第二全连接层;S315、第二全连接层通过线性映射得到神经网络特征。
[0012]本专利技术有益效果如下:本专利技术考虑了多种维度特征之间包含着大量互补信息,基于多尺度卷积神经网络特征、多方向聚类,充分利用并挖掘不同维度特征间的关联互补性,因此能取得更好的数据处理准确率。
附图说明
[0013]图1为一种数据处理方法示意图。
具体实施方式
[0014]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0015]实施例1如图1所示,一种数据处理方法,包括以下步骤:S1、从各信息发布端收集信息,将收集到的数据统一格式,对统一文件格式后的数据进行分析、清洗预处理,并按收集来源形成第一数据库;S2、导入待处理数据至数据处理系统;S3、根据待处理数据,神经网络特征模块通过第一数据库提取待处理数据内企业样本之间的神经网络特征并传输至数据发布模块;时间序列特征模块将第一数据库的合作事件信息进行时间聚类,并提取待处理数据内的时间序列特征并传输至数据发布模块;属性网络特征模块根据第一数据库中企业基本信息进行聚类,提取属性网络特征并传输至数据发布模块;S4、基于神经网络特征、时间序列特征和属性网络特征,将待处理数据与第一数据库中信息进行相似度匹配,得到三个维度特征的融合结果,数据发布模块发布融合结果。
[0016]步骤S1具体包括:S11、选取待评价的行业,确定信息来源,从信息来源网页中爬取企业信息;S12、对爬取到的原始数据进行汇总,清洗数据,包括重复值处理、缺失值处理、异常值处理;S13、以数据来源为主键ID建立第一数据库。
[0017]企业信息包括企业基本信息和企业合作信息,企业基本信息包括企业的名称、成立的时间、所属行业;企业合作信息包括投融资事件、项目合作事件、买卖关系。
[0018]步骤S4中融合检索结果的具体计算公式为:其中为待处理数据和第一数据库中第个企业合作信息的总相似度,为神经网络特征的相似度、为时间序列特征的相似度、为属性网络特征的相似度,和为权重参数。
[0019]数据处理系统包括第一数据库、数据发布模块、特征提取模块,第一数据库连接特征提取模块,特征提取模块连接数据发布模块;特征提取模块包括神经网络特征模块、时间序列特征模块和属性网络特征模块,神经网络特征模块连接第一数据库、数据发布模块,时间序列特征模块连接第一数据库和数据发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于:包括以下步骤:S1、从各信息发布端收集信息,将收集到的数据统一格式,对统一文件格式后的数据进行分析、清洗预处理,并按收集来源形成第一数据库;S2、导入待处理数据至数据处理系统;S3、根据待处理数据,神经网络特征模块通过所述第一数据库提取所述待处理数据内企业样本之间的神经网络特征并传输至数据发布模块;时间序列特征模块将所述第一数据库的合作事件信息进行时间聚类,并提取所述待处理数据内的时间序列特征并传输至数据发布模块;属性网络特征模块根据所述第一数据库中企业基本信息进行聚类,提取属性网络特征并传输至数据发布模块;S4、基于所述神经网络特征、所述时间序列特征和所述属性网络特征,将待处理数据与所述第一数据库中信息进行相似度匹配,得到三个维度特征的融合结果,所述数据发布模块发布所述融合结果。2.根据权利要求1所述的一种数据处理方法,其特征在于:所述步骤S1具体包括:S11、选取待评价的行业,确定信息来源,从信息来源网页中爬取企业信息;S12、对爬取到的原始数据进行汇总,清洗数据,包括重复值处理、缺失值处理、异常值处理;S13、以数据来源为主键ID建立第一数据库。3.根据权利要求2所述的一种数据处理方法,其特征在于:所述企业信息包括企业基本信息和企业合作信息,所述企业基本信息包括企业的名称、成立的时间、所属行业;所述企业合作信息包括投融资事件、项目合作事件、买卖关系。4.根据权利要求1所述的一种数据处理方法,其特征在于:步骤S4中融合检索结果的具体计算公式为:其中为待处理数据和所述第一数据库中第个企业合作信息的总相似度,为神经网络特征的相似度、为时间序列特征的相似度、为属性网络特征的相似度,和为权重参数。5.根据权利要求1所述的一种数据处理方法,其特征在于:所述数据处理系统包括第一数据库、数据发布模块、特征提取模块,所述第一数据库连接所述特征提取模块,所述特征提取模块连接所述数据发布模块;所述特征提取模块包括神经网络特征模块、时间序列特征模块和属性网络特征模块,所述神经网络特...

【专利技术属性】
技术研发人员:高献辰
申请(专利权)人:北京企名片科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1