System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及产业热度确定的,尤其涉及一种产业热度的确定方法、装置、电子设备和存储介质。
技术介绍
1、目前人工智能在各个领域得到了广泛的应用和增长。包括自然语言处理、计算机视觉、机器学习、深度学习、强化学习等技术,其被应用于医疗保健、金融、交通、制造业、零售业等行业。自然语言处理(natural language processing,nlp)是人工智能领域的一个关键领域,涉及文本理解、情感分析、机器翻译等任务。近年来,自然语言处理技术取得了显著进展,如bert、gpt等预训练模型的出现,大大提升了文本处理和理解的能力。
2、市场上的产业服务产品大多拥有各自独立的产业分类体系,缺乏统一的标准,导致各种分类方法混杂,难以进行跨产品的纵向分析。不同的产品可能对同一产业有不同的命名和分类,这给用户和相关数据分析工作带来了很大的困扰,导致在产业热度分析时无法准确得出该产业的热度结果。
3、因此,如何提高产业热度确定的准确性,是目前亟待解决的技术问题。
技术实现思路
1、本专利技术提供的一种产业热度的确定方法、装置、电子设备和存储介质,能够提高产业热度确定的准确性。
2、本专利技术实施例提供了以下方案:
3、第一方面,本专利技术实施例提供了一种产业热度的确定方法,方法包括:
4、获取待确定热度的多个市场产业,以及每个市场产业的标签集合,其中,标签集合中的每个元素为对应市场产业的产业标签;
5、根据每个产业标签中关键字符
6、根据所有的产业概率之间的相似度进行聚类计算,以获得产业数量小于设定阈值的多个目标产业;
7、根据每个目标产业的目标标签和预设的标签权重,确定所有目标产业的产业热度。
8、在一种可选的实施例中,获取待确定热度的多个市场产业,以及每个市场产业的标签集合,包括:
9、获取不同信息载体的产业关联数据,其中,产业关联信息至少包括市场产业的文本数据和图像数据;
10、将图像数据输入预设的文本识别工具,以输出图像数据中的文本数据;
11、对所有的文本数据进行数据清洗和分词处理,根据处理结果获得多个市场产业和对应的多个标签集合。
12、在一种可选的实施例中,根据处理结果获得多个市场产业和对应的多个标签集合之后,方法还包括:
13、将每个标签集合的每个产业标签输入tf-idf处理模型,以获得每个产业标签在对应标签集合的tf-idf值;
14、根据tf-idf值大于设定值的产业标签,更新每个标签集合的产业标签。
15、在一种可选的实施例中,根据每个产业标签中关键字符在对应标签集合的概率值,获得每个市场产业的产业概率,包括:
16、根据每个标签集合的所有产业标签的标签字符,确定标签集合所对应的关键字符;
17、将每个标签集合的关键字符输入预设的统计语言模型,以获得关键字符在对应标签集合的概率值;
18、根据每个标签集合的所有概率值,确定每个市场产业的产业概率。
19、在一种可选的实施例中,根据每个标签集合的所有概率值,确定每个市场产业的产业概率之前,方法还包括:
20、将每个关键字符在对应标签集合的概率值输入n-gram模型;
21、根据n-gram模型的响应结果,获得产业概率的计算准确度和计算时长;
22、根据计算准确度和计算时长,配置统计语言模型。
23、在一种可选的实施例中,根据所有的产业概率之间的相似度进行聚类计算,以获得产业数量小于设定阈值的多个目标产业,包括:
24、将两个产业概率的马氏距离确定为两个市场产业之间相似度;
25、根据所有的相似度进行产业合并的迭代计算,在合并的产业数量小于设定阈值时输出多个目标产业。
26、在一种可选的实施例中,根据每个目标产业的目标标签和预设的标签权重,确定所有目标产业的产业热度,包括:
27、根据每个目标产业的目标标签和统计语言模型,获得每个目标标签在目标产业的目标概率;
28、根据目标标签表征对应目标产业的重要度,配置每个目标标签的标签权重;
29、根据目标概率和标签权重,获得每个目标产业的热度值;
30、对热度值进行排序,并根据预设的热度划分表确定每个目标产业的产业热度。
31、第二方面,本专利技术实施例还提供了一种产业热度的确定装置,装置包括:
32、获取模块,用于获取待确定热度的多个市场产业,以及每个市场产业的标签集合,其中,标签集合中的每个元素为对应市场产业的产业标签;
33、第一获得模块,用于根据每个产业标签中关键字符在对应标签集合的概率值,获得每个市场产业的产业概率;
34、第二获得模块,用于根据所有的产业概率之间的相似度进行聚类计算,以获得产业数量小于设定阈值的多个目标产业;
35、确定模块,用于根据每个目标产业的目标标签和预设的标签权重,确定所有目标产业的产业热度。
36、第三方面,本专利技术实施例还提供了一种电子设备,包括处理器和存储器,存储器耦接到处理器,存储器存储指令,当指令由处理器执行时使电子设备执行第一方面中任一项方法的步骤。
37、第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项方法的步骤。
38、本专利技术提供的一种产业热度的确定方法、装置、电子设备和存储介质与现有技术相比,具有以下优点:
39、本专利技术的产业热度确定方法,通过获取待确定热度的多个市场产业,以及每个市场产业的标签集合,由于标签集合中的每个元素为对应市场产业的产业标签,可以根据每个产业标签中关键字符在对应标签集合的概率值,获得每个市场产业的产业概率,根据所有的产业概率之间的相似度进行聚类计算,以获得产业数量小于设定阈值的多个目标产业,根据每个目标产业的目标标签和预设的标签权重,确定所有目标产业的产业热度。该确定方法将关键字符作为表征产业特征的最小单元,可以精准得出每个市场产业的产业概率,进一步基于所有产业概率之间的相似度进行聚类计算,提炼具有代表特征的多个目标产业确定其产业热度,将庞大的多个市场产业实施合并处理,使庞大的市场产业得到科学合理的热度分析和处理,进而提高了产业热度确定的准确性。
本文档来自技高网...【技术保护点】
1.一种产业热度的确定方法,其特征在于,所述方法包括:
2.根据权利要求1所述的产业热度的确定方法,其特征在于,所述获取待确定热度的多个市场产业,以及每个市场产业的标签集合,包括:
3.根据权利要求2所述的产业热度的确定方法,其特征在于,所述根据处理结果获得所述多个市场产业和对应的多个标签集合之后,所述方法还包括:
4.根据权利要求1所述的产业热度的确定方法,其特征在于,所述根据每个产业标签中关键字符在对应所述标签集合的概率值,获得所述每个市场产业的产业概率,包括:
5.根据权利要求4所述的产业热度的确定方法,其特征在于,所述根据所述每个标签集合的所有概率值,确定所述每个市场产业的产业概率之前,所述方法还包括:
6.根据权利要求1所述的产业热度的确定方法,其特征在于,所述根据所有的所述产业概率之间的相似度进行聚类计算,以获得产业数量小于设定阈值的多个目标产业,包括:
7.根据权利要求1所述的产业热度的确定方法,其特征在于,所述根据每个目标产业的目标标签和预设的标签权重,确定所有目标产业的产业热度,包括:
>8.一种产业热度的确定装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述电子设备执行权利要求1-7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
...【技术特征摘要】
1.一种产业热度的确定方法,其特征在于,所述方法包括:
2.根据权利要求1所述的产业热度的确定方法,其特征在于,所述获取待确定热度的多个市场产业,以及每个市场产业的标签集合,包括:
3.根据权利要求2所述的产业热度的确定方法,其特征在于,所述根据处理结果获得所述多个市场产业和对应的多个标签集合之后,所述方法还包括:
4.根据权利要求1所述的产业热度的确定方法,其特征在于,所述根据每个产业标签中关键字符在对应所述标签集合的概率值,获得所述每个市场产业的产业概率,包括:
5.根据权利要求4所述的产业热度的确定方法,其特征在于,所述根据所述每个标签集合的所有概率值,确定所述每个市场产业的产业概率之前,所述方法还包括:
6.根据权利要求...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。