System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于数据要素需求挖掘,具体涉及一种数据要素需求挖掘方法。
技术介绍
1、随着全球数字经济进入蓬勃发展时期,数据已成为全新的资产和新的关键生产要素。数据要素正在为企业经营决策、新商品创造、新业务拓展的重要生产资源,并为国家治理带来全新手段。国家正在开展数据要素市场化配置改革,出台相应政策引导鼓励培育多方市场参与者以更好的发挥数据利用价值,实现供需双方的高效匹配。
2、然而,由于数据要素需求是结合行业应用具体场景的非常高度定制化的,导致数据要素供应方难以掌握并提供出符合需求的数据产品或服务。因此,在数据要素流通交易环境中,已经出现了大量市场主体掌握着原始数据资源,但不知道如何向数据需求方提供合格数据产品,甚至不知道自己的数据可以被哪些市场主体所需要的现象。
3、目前数据要素市场化配置改革才刚刚提出来没有几年,研究数据要素需求挖掘的方法成果还没有发现,而将技术方法扩展到研究“需求挖掘”,方法主要有四种。
4、一种是建立需求目录,由需求方按照规范要求填写从而获得需求,该方法必须有明确的需求方,且要求需求方对自身需求属性非常了解,因此不具备需求挖掘的发现性。
5、第二种是先对收集到的数据需求进行标注处理,提取实体元素、关系元素和属性元素,构建知识图谱用于检索和与供应数据进行配对,该方法的前提是数据需求已经明确,因此也不具备需求挖掘的发现性。
6、第三种是需要先由人工录入关键句视为获取重点文本数据开始和结束的标志性语句进行特征标记,并通过预先设定的n类需求且每类需求中包含
7、第四种是通过获取原始资料,基于扎根理论对原始资料进行抽象和提炼从而获得需求,包括对原始资料进行分词,得到对应词组集合,过滤无用词组,并根据预先建立的关键词组筛选出多个关键词组,然后建立知识图谱,该方法受限于关键词组库的丰富程度,容易造成需求挖掘不完整和方向性偏移。
8、综上四种方法,均无法全面、精准挖掘和分析数据要素需求,也无法对数据要素需求的主体进行分析。本专利技术提供的挖掘方法,可以较好得帮助拥有数据资源的市场主体分析市场对数据要素的需求,帮助实现自身数据的价值转化;帮助优化数据要素市场化配置,推动数据要素流通和以数据要素为基本生产要素的数字经济发展,具有极大的现实意义、迫切性和社会、经济价值。
技术实现思路
1、本专利技术提供了一种数据要素需求挖掘方法,解决了现有技术无法全面、精准挖掘和分析数据要素需求,也无法对数据要素需求的主体进行分析的问题。
2、为了解决上述技术问题,本专利技术的技术方案为:一种数据要素需求挖掘方法,包括以下步骤:
3、s1、整理行业数据文本和数据要素文本,并定义所有行业语料库以及数据要素语料库;
4、s2、采用bioes法分别对所有行业语料库以及数据要素语料库进行标注;
5、s3、根据已标注的语料库训练隐尔马可夫模型;
6、s4、根据维特比算法,使用隐尔马可夫模型分别提取行业数据文本和数据要素文本中的命名实体关键字,得到命名实体关键字集合;
7、s5、处理命名实体关键字集合中的信息,生成数据要素关键字向量与行业关键字向量;
8、s6、采用余弦相似度计算数据要素关键字向量与行业关键字向量的匹配相似度,得到数据要素与行业用户需求的匹配度,完成数据要素需求挖掘。
9、进一步地,所述s1的具体步骤为:
10、s11、定义所有行业集合h,并对每个行业提取行业数据文本,构成所有行业语料库,其中,所有行业集合h中每个元素代表一个行业;
11、s12、定义所有数据要素集合s,其中,所有数据要素集合s中的每个元素代表一条数据要素;
12、s13、为所有数据要素集合s中的每条数据要素整理相应的数据要素文本,构成数据要素语料库。
13、进一步地,所述s3中隐尔马可夫模型由初始状态分布p、状态转移概率矩阵a以及观测概率矩阵b确定,其中,初始状态分布p为每一个标注作为句子第一个字的标注的概率,状态转移概率矩阵a为由某一个标注转移到下一个标注的概率,观测概率矩阵b为在某个标注下生成某个词的概率;所述隐尔马可夫模型的参数根据所有行业语料库以及数据要素语料库采用极大似然估计法计算得到。
14、进一步地,所述s4的具体步骤为:
15、s41、根据维特比算法,使用隐尔马可夫模型提取所有行业数据文本中的行业关键字,并生成行业关键字集合wa,其中,行业关键字集合wa中的每个元素代表一个行业数据文本中提取的所有行业关键字构成的数组;
16、s42、根据维特比算法,使用隐尔马可夫模型提取所有数据要素文本中的数据要素关键字,并生成数据要素关键字集合wb,其中,数据要素关键字集合wb中的每个元素代表一个数据要素文本中提取的所有数据要素关键字构成的数组;
17、s43、通过行业关键字集合wa和数据要素关键字集合wb,构成命名实体关键字集合allkeys。
18、进一步地,所述s5的具体步骤为:
19、s51、使用tf-idf算法计算行业关键字集合wa中的每个元素中行业关键字的tf-idf值;
20、s52、使用tf-idf算法计算数据要素关键字集合wb中的每个元素中数据要素关键字的tf-idf值;
21、s53、根据命名实体关键字集合allkeys,生成第m条数据要素对应的数据要素关键字向量,并将数据要素关键字向量归一化,变为单位向量;
22、s54、根据命名实体关键字集合allkeys,生成第n个行业对应的行业关键字向量,并将行业关键字向量归一化,变为单位向量。
23、进一步地,所述s51中行业关键字的tf-idf值的计算公式为:
24、
25、
26、其中,表示行业关键字在所有行业中出现的普遍程度,表示所有行业语料库中的行业数据文本总数,表示包含行业关键字的文本数目,表示第个行业数据文本,表示行业关键字的tf-idf值,表示行业关键字在某个行业数据文本中出现的频率;
27、所述s52中数据要素关键字的tf-idf值的计算公式为:
28、
29、
30、其中,表示数据要素关键字在所有数据要素中出现的普遍程度,表示数据要素语料库中的数据要素文本总数,表示包含数据要素关键字的文本数目,表示第个数据要素文本,表示数据要素关键字的tf-idf值,表示数据要素关键字在某个数据要素文本中出现的频率。
31、进一步地,所述数据要素关键字向量由一个数据要素的所有数据要素关键字构成;所述数据要素关键字向量的长度由命名实体关键字集合allkeys中元素个数确定,若一个数据要素的数据要素关键字在某个数据要素提取的数据要素关键字中存在,则用对应数本文档来自技高网...
【技术保护点】
1.一种数据要素需求挖掘方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的数据要素需求挖掘方法,其特征在于,所述S1的具体步骤为:
3.根据权利要求1所述的数据要素需求挖掘方法,其特征在于,所述S3中隐尔马可夫模型由初始状态分布P、状态转移概率矩阵A以及观测概率矩阵B确定,其中,初始状态分布P为每一个标注作为句子第一个字的标注的概率,状态转移概率矩阵A为由某一个标注转移到下一个标注的概率,观测概率矩阵B为在某个标注下生成某个词的概率;所述隐尔马可夫模型的参数根据所有行业语料库以及数据要素语料库采用极大似然估计法计算得到。
4.根据权利要求1所述的数据要素需求挖掘方法,其特征在于,所述S4的具体步骤为:
5.根据权利要求4所述的数据要素需求挖掘方法,其特征在于,所述S5的具体步骤为:
6.根据权利要求5所述的数据要素需求挖掘方法,其特征在于,所述S51中行业关键字的TF-IDF值的计算公式为:
7.根据权利要求5所述的数据要素需求挖掘方法,其特征在于,所述数据要素关键字向量由一个数据要素的所有数据要素关
8.根据权利要求5所述的数据要素需求挖掘方法,其特征在于,所述S6的具体步骤为:
...【技术特征摘要】
1.一种数据要素需求挖掘方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的数据要素需求挖掘方法,其特征在于,所述s1的具体步骤为:
3.根据权利要求1所述的数据要素需求挖掘方法,其特征在于,所述s3中隐尔马可夫模型由初始状态分布p、状态转移概率矩阵a以及观测概率矩阵b确定,其中,初始状态分布p为每一个标注作为句子第一个字的标注的概率,状态转移概率矩阵a为由某一个标注转移到下一个标注的概率,观测概率矩阵b为在某个标注下生成某个词的概率;所述隐尔马可夫模型的参数根据所有行业语料库以及数据要素语料库采用极大似然估计法计算得到。
4.根据权利要求1所述的数据要素需求挖掘方法,其特征在于,所述s4的具体步骤为:
...
【专利技术属性】
技术研发人员:徐锴,彭真,曹晔,漆加丽,梁晓蓉,张婷,
申请(专利权)人:四川易利数字城市科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。