System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及数据处理,尤其涉及一种科技情报数据分类方法、装置、电子设备和存储介质。
技术介绍
1、科技情报数据指包含有关科技领域中技术、创新和研发方面的信息的数据。对科技情报数据进行分类,可以提高信息处理的效率,有助于避免信息的重复收集和浪费,使得相关数据更加易于访问和使用;可以揭示出技术的发展方向和未来趋势,为企业的技术研发和创新战略提供重要的参考,有助于企业抢占市场的先机,避免技术滞后;可以揭示竞争对手的技术布局和创新动态,通过对竞争对手的专利、科技论文和技术报告等情报数据进行分类整理和分析,了解竞争对手在不同
的专利布局情况,评估其技术实力和研发能力,有助于企业制定对策,并从竞争中脱颖而出;可以掌握不同行业的市场规模、发展状态和竞争态势,为企业的产品研发和市场定位提供依据,帮助企业准确了解市场需求,提前洞察市场趋势,从而更好地满足市场需求。
2、目前,在对科技情报数据进行分类的研究中,往往只针对一种数据类型进行处理和分析,无法充分利用多种类数据之间的关联和互补信息来对数据进行分类,导致对科技情报数据进行分类具有较低的效率。
3、因此,继续一种具有较高分类效率的科技情报数据分类方法、装置、电子设备和存储介质。
技术实现思路
1、本公开提供了一种科技情报数据分类方法、装置、电子设备和存储介质。
2、根据本公开的第一方面,提供了一种科技情报数据分类方法。该方法包括:
3、采集各待分类科技情报数据;
4、判断所述待分类科
5、将各所述特征向量进行拼接,得到融合向量;
6、将所述融合向量映射到预设分区空间,得到映射向量;
7、通过预设聚类模型对所述映射向量进行聚类,得到各质心及其对应的分类结果;
8、根据所述映射向量和各所述质心之间的距离,得到目标分类结果。
9、进一步地,所述对各所述待分类科技情报数据进行特征提取,得到对应的特征向量,还包括:若所述待分类科技情报数据的数据格式为视频格式,则将所述待分类科技情报数据拆分为数据格式为音频格式的第一数据、数据格式为图片格式的第二数据;
10、对于所述第一数据,通过语音识别技术将所述第一数据的数据格式转化为文本格式,并通过词嵌入技术获取对应的第一特征向量;
11、对于所述第二数据,通过预设神经网络模型获取对应的第二特征向量。
12、进一步地,所述通过预设聚类模型对所述映射向量进行聚类,得到各质心及其对应的分类结果,包括:
13、获取通过预设聚类模型对所述映射向量进行聚类得到的各质心;
14、通过预设算法对各所述质心进行分类,得到对应的分类结果;
15、将所述分类结果通过打标的形式和对应的质心进行关联。
16、进一步地,所述分类结果的数量小于等于所述质心的数量。
17、进一步地,所述根据所述映射向量和各所述质心之间的距离,得到目标分类结果,包括:
18、计算所述映射向量和各所述质心之间的欧氏距离,得到对应的欧氏距离值;
19、将具有最小欧氏距离值的质心对应的分类结果作为目标分类结果。
20、进一步地,所述方法还包括:
21、获取与所述映射向量距离最近的同类质心、非同类质心;
22、根据所述映射向量、与所述映射向量距离最近的同类质心、非同类质心,计算得到预设欧式距离;
23、根据所述预设欧式距离,计算得到第一损失函数;
24、根据所述第一损失函数、预设分区空间的中心,计算得到第二损失函数;
25、根据所述第一损失函数、所述第二损失函数,计算得到第三损失函数,并将所述第三损失函数应用到所述预设聚类模型中。
26、根据本公开的第二方面,提供了一种科技情报数据分类装置。该装置包括:
27、采集模块,用于采集各待分类科技情报数据;
28、判断模块,判断所述待分类科技情报数据的数据格式;若所述待分类科技情报数据的数据格式为文本格式,则通过词嵌入技术获取对应的特征向量;若所述待分类科技情报数据的数据格式为图片格式,则通过预设神经网络模型获取对应的特征向量;若所述待分类科技情报数据的数据格式为音频格式,则通过语音识别技术将所述待分类科技情报数据的数据格式转化为文本格式,并通过词嵌入技术获取对应的特征向量;
29、拼接模块,用于将各所述特征向量进行拼接,得到融合向量;
30、映射模块,用于将所述融合向量映射到预设分区空间,得到映射向量;
31、聚类模块,用于通过预设聚类模型对所述映射向量进行聚类,得到各质心及其对应的分类结果;
32、分类模块,用于根据所述映射向量和各所述质心之间的距离,得到目标分类结果。
33、根据本公开的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现所述方法。
34、根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现所述方法。
35、本公开通过采集各待分类科技情报数据;对各所述待分类科技情报数据进行特征提取,得到对应的特征向量;将各所述特征向量进行拼接,得到融合向量;将所述融合向量映射到预设分区空间,得到映射向量;通过预设聚类模型对所述映射向量进行聚类,得到各质心及其对应的分类结果;根据所述映射向量和各所述质心之间的距离,得到目标分类结果,实现质心的灵活分布,提高对科技情报数据进行分类的效率。
36、应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
【技术保护点】
1.一种科技情报数据分类方法,其特征在于,包括:
2.根据权利要求1所述的科技情报数据分类方法,其特征在于,所述对各所述待分类科技情报数据进行特征提取,得到对应的特征向量,还包括:若所述待分类科技情报数据的数据格式为视频格式,则将所述待分类科技情报数据拆分为数据格式为音频格式的第一数据、数据格式为图片格式的第二数据;
3.根据权利要求1所述的科技情报数据分类方法,其特征在于,所述通过预设聚类模型对所述映射向量进行聚类,得到各质心及其对应的分类结果,包括:
4.根据权利要求3所述的科技情报数据分类方法,其特征在于,所述分类结果的数量小于等于所述质心的数量。
5.根据权利要求1所述的科技情报数据分类方法,其特征在于,所述根据所述映射向量和各所述质心之间的距离,得到目标分类结果,包括:
6.根据权利要求1所述的科技情报数据分类方法,其特征在于,所述方法还包括:
7.一种科技情报数据分类装置,其特征在于,包括:
8.一种电子设备,其特征在于,包括:
9.一种存储有计算机指令的非瞬时计算机可读存
...【技术特征摘要】
1.一种科技情报数据分类方法,其特征在于,包括:
2.根据权利要求1所述的科技情报数据分类方法,其特征在于,所述对各所述待分类科技情报数据进行特征提取,得到对应的特征向量,还包括:若所述待分类科技情报数据的数据格式为视频格式,则将所述待分类科技情报数据拆分为数据格式为音频格式的第一数据、数据格式为图片格式的第二数据;
3.根据权利要求1所述的科技情报数据分类方法,其特征在于,所述通过预设聚类模型对所述映射向量进行聚类,得到各质心及其对应的分类结果,包括:
4.根据权利要求3所述的科技情报数据分类方法,其特...
【专利技术属性】
技术研发人员:岳一峰,张昊,范嘉薇,任祥辉,
申请(专利权)人:中国电子科技集团公司第十五研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。