一种具体场景下产业链数据集主题分布识别的方法及装置制造方法及图纸

技术编号:42077386 阅读:19 留言:0更新日期:2024-07-19 16:56
本发明专利技术公开了一种具体场景下产业链数据集主题分布识别的方法及装置,其中方法包括获取具体场景下产业链多个目标任务的数据样本集合;将数据样本集转化为可被描述的文本后,提取语义特征得到语义特征集合;将语义特征集合中每一个单模态语义特征投影到共享语义空间中;基于LSA模型对词和文本之间的关联关系进行降维,得到该产业链数据样本集合在语义空间中的语义关系;基于语义关系,利用LDA模型分别提取具体场景下该产业链多个目标任务数据中隐含的语义信息,得到各自对应的主题分布。通过计算并识别具体场景下产业链数据集合中的主题分布,以此判断该数据集合的市场价值和应用价值,为具体场景下产业链数据资产集价值评价和评估提供辅助决策分析。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种具体场景下产业链数据集主题分布识别的方法及装置


技术介绍

1、当前,随着云计算、物联网、移动互联网等新技术的逐渐成熟和集中应用,社会发展进入了数字化时代,人、事、物都在被数据化,数据已成为新经济的核心生产要素,日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响。在产业链多源多模态数据集应用面临困境、产业链数据交易市场不活跃的情况下,具体场景下产业链数据集的价值没有一个明确的判定方式,导致具体场景下多源多模态产业链数据集的融合与认知的困难,因此,对具体场景下多源多模态产业数据集的统一集成、洞察以及知识获取尤为重要。


技术实现思路

1、本申请提供一种具体场景下产业链数据集主题分布识别的方法及装置,以解决相关技术中存在的问题。

2、第一方面,本专利技术提供一种具体场景下产业链数据集主题分布识别的方法,包括获取具体场景下产业链多个目标任务的数据样本集合,其中,所述数据样本集合包括多模态数据;将所述数据样本集转化为可被描述的文本后,本文档来自技高网...

【技术保护点】

1.一种具体场景下产业链数据集主题分布识别的方法,其特征在于,包括:

2.根据权利要求1所述的具体场景下产业链数据集主题分布识别的方法,其特征在于,将所述数据样本集转化为可被描述的文档后,提取语义特征得到语义特征集合包括:

3.根据权利要求1所述的具体场景下产业链数据集主题分布识别的方法,其特征在于,所述将所述语义特征集合中每一个单模态语义特征投影到共享语义空间中包括:

4.根据权利要求1所述的具体场景下产业链数据集主题分布识别的方法,其特征在于,基于LSA模型对词和文本之间的关联关系进行降维,得到该产业链数据样本集合在语义空间中的语义关系包括:...

【技术特征摘要】

1.一种具体场景下产业链数据集主题分布识别的方法,其特征在于,包括:

2.根据权利要求1所述的具体场景下产业链数据集主题分布识别的方法,其特征在于,将所述数据样本集转化为可被描述的文档后,提取语义特征得到语义特征集合包括:

3.根据权利要求1所述的具体场景下产业链数据集主题分布识别的方法,其特征在于,所述将所述语义特征集合中每一个单模态语义特征投影到共享语义空间中包括:

4.根据权利要求1所述的具体场景下产业链数据集主题分布识别的方法,其特征在于,基于lsa模型对词和文本之间的关联关系进行降维,得到该产业链数据样本集合在语义空间中的语义关系包括:

5.根据权利要求1所述的具体场景下产业链数据集主题分布识别的方法,其特征在于,基于所述语义关系,利用lda模型分别提取具体场景下该产业链多个目标任务数据中隐含的语义...

【专利技术属性】
技术研发人员:吴江王彦波杜乐杨雄
申请(专利权)人:武汉东湖大数据科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1