System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据识别领域,尤其涉及基于行业分类进行企业数据识别标记方法。
技术介绍
1、行业分类和数据标记是企业数据一种处理方法,数据标记对企业数据进行分类和标识,以便更好地进行管理和分析,通过对企业数据按照预先定义的分类规则进行分类,如按照数据类型、地域、时间等进行分类,以便于后续的数据管理和分析。
2、在中国专利“cn115994676a-一种企业管理数据信息采集方法及系统”,本专利技术涉及企业管理
,具体公开了一种企业管理数据信息采集方法及系统。本专利技术通过确定立体企业区域,识别划分立体企业区域中的立体工作区域;进行管理采集分析,标记多个管理采集位置;在多个管理采集位置进行音频采集与预处理,获取音频采集数据;对音频采集数据进行内容识别,提取多个管理识别信息;将多个管理识别信息进行分类与排列整理,得到企业管理信息。能够识别划分立体工作区域,标记多个管理采集位置,进行音频采集与预处理,再通过内容识别、信息分类与排列整理,得到企业管理信息,实现对企业中口述的管理信息的采集与整理,为后续的分析确定企业的运行状态做准备,为企业管理人员进行企业管理的决策提供另外一种依据。
3、上述系统在对企业数据识别标记,通过编写的网络爬虫程序,可以从互联网上的公开网站或特定网站上获取企业的相关文本数据,对得到的文本数据进行行业分类,其中由于获取的文本数据是文本内容,需要将这些文本数据转化为计算机可以处理的数值型数据,有的通过词袋模型将文本转换成词袋表示,即将文本拆分成独立的词语,统计每个词语出现的频次,构建词频矩阵
技术实现思路
1、本专利技术的目的在于提供基于行业分类进行企业数据识别标记方法及erp管理系统,以解决数值型数据转化效率并不是很高,分类时间较长的问题,可以进一步为决策提供支持,方便进行行业数据分析,在分类数据进行标记的同时,对敏感数据进行加密,防止敏感数据泄露。
2、本专利技术为解决上述技术问题,采用以下技术方案来实现:
3、基于行业分类进行企业数据识别标记方法及erp管理系统,包括以下步骤:
4、s1、从互联网上的公开网站或特定网站上获取企业文本数据;
5、s2、对获取的企业文本数据进行处理,使这些文本数据转化为计算机能够处理的数值型数据;
6、s3、通过数值型的数据,对企业数据进行行业分类;
7、s4、采用数据清洗对数据进行检验保证数据的准确性,确保企业数据和企业所属行业匹配;
8、s5、对企业分类数据标记,以便进行分析和应用洞察行业的趋势,为决策提供分析。
9、优选地,在步骤s2中,对文本数据转化时,分别用1或者0表示某特征词语在文档是否出现,如果特征词语的权值为0,则表示特征词语从未在文档中出现,若是某特征项权值为1,则表示该词语在文档出现的次数最少为1次,其公式如下:
10、
11、其中表示特征次i在文档j的主要程度,表示特征次数在文档中出现的次数,通过这种表达方式表达直观,转化效率好。
12、优选地,步骤s3包括以下子步骤:
13、s31、采用三支采样方法对数据进行区分,区分异常数据和正常数据,以便后续数据的管理和分析;
14、s32、按照数据的描述信息为数据添加标签,对数据进行标记,区分出企业的公开数据和私密数据;
15、s33、对企业一些的私密数据压缩存储,再用des加密算法进行加密标记确保数据安全;
16、s34、通过fasttext算法对文本数据分类。
17、优选地,在步骤s31中采用三支采样方法的优化公式如下:
18、其中(xi*xj)为xi与xj的内积,以超球面为决策边界来实现对数据分类,计算测试数据与超球中心处的距离,若得到的距离大于超球半径,则为异常数据,若是距离小于超球半径,则为正常数据。
19、优选地,在步骤s33中des加密算法具体步骤为:
20、(1)将ri-1按预先规定的规则扩展成48b的ei;
21、(2)执行ei与ki的异或操作;
22、(3)将结果按每4b一组分成8组,分别进不同的s盒内部,记为b1≈b8;
23、(4)最后将4组2b输出通过一个变换,产生16b的输出,即完成数据的加密。
24、优选地,步骤s4包括以下子步骤:
25、s41、对数据进行检测确保数据的唯一性,采用shingle算法对相似数据进行判断;
26、s42、根据需求和目标,对相似数据进行过滤,去除无关或不合规的数据;
27、s43、将数据转化为统一数字格式,防止后续对数据分析时,格式的不同影响决策。
28、优选地,在步骤s41中采用shingle算法对相似数据进行判断,判断数据的相似性,从而可以相似数据。
29、优选地,在步骤s41中shingle算法的定义为:
30、其中d,f分别表示两组数据,r为相识度,|s(d)∩s(f)为两个集合的交合,s(d)∪s(f)表示为两个合集的并集,通过r(d,f)数值大于某个定数,来判断出两个集合间的相似程度,从而判断数据的相似性。
31、采用本专利技术提供的技术方案,与已知的公有技术相比,具有如下有益效果:
32、1、在对企业文本数据获取之后,通过对获取的企业文本数据进行文本转化,成为计算机可以处理的数值型数据,表达方式较好,同时转化效率也高,使得数值型数据更快进行分类步骤,同时通过比较不同分算法模型对数据集的处理,得知fast text分类精确率和召回率都比其他算法模型高,分类识别准确率高,同时分类速度也快,进而能够满足现有的行业分类需求。
33、2、对分类数据进行标记的同时,对敏感数据进行加密,保护数据不被泄露,保证企业分类数据的安全,在分类数据标记完成后,对企业数据进行分析和关联,以挖掘行业内的规律、趋势和洞察,为决策提供支持,方便进行行业数据分析。
本文档来自技高网...【技术保护点】
1.基于行业分类进行企业数据识别标记方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于行业分类进行企业数据识别标记方法,其特征在于:在步骤S2中,对文本数据转化时,分别用1或者0表示某特征词语在文档是否出现,如果特征词语的权值为0,则表示特征词语从未在文档中出现,若是某特征项权值为1,则表示该词语在文档出现的次数最少为1次,其公式如下:
3.根据权利要求1所述的基于行业分类进行企业数据识别标记方法,其特征在于:步骤S3包括以下子步骤:
4.根据权利要求3所述的基于行业分类进行企业数据识别标记方法,其特征在于:在步骤S31中采用三支采样方法的优化公式如下:
5.根据权利要求3所述的基于行业分类进行企业数据识别标记方法,其特征在于:在步骤S33中DES加密算法具体步骤为:
6.根据权利要求1所述的基于行业分类进行企业数据识别标记方法,其特征在于:步骤S4包括以下子步骤:
7.根据权利要求6所述的基于行业分类进行企业数据识别标记方法,其特征在于:在步骤s41中采用Shingle算法对相似数据进行判断,判
8.根据权利要求7所述的基于行业分类进行企业数据识别标记方法,其特征在于:在步骤S41中Shingle算法的定义为:
...【技术特征摘要】
1.基于行业分类进行企业数据识别标记方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于行业分类进行企业数据识别标记方法,其特征在于:在步骤s2中,对文本数据转化时,分别用1或者0表示某特征词语在文档是否出现,如果特征词语的权值为0,则表示特征词语从未在文档中出现,若是某特征项权值为1,则表示该词语在文档出现的次数最少为1次,其公式如下:
3.根据权利要求1所述的基于行业分类进行企业数据识别标记方法,其特征在于:步骤s3包括以下子步骤:
4.根据权利要求3所述的基于行业分类进行企业数据识别标记方法,其特征在于:在步骤s31中采用...
【专利技术属性】
技术研发人员:邓承贵,潘雪松,雷优健,陈杏慧,
申请(专利权)人:成都乐云互动网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。