System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 目标数据信息的获取方法及装置、电子设备以及存储介质制造方法及图纸_技高网

目标数据信息的获取方法及装置、电子设备以及存储介质制造方法及图纸

技术编号:41205977 阅读:3 留言:0更新日期:2024-05-07 22:32
本发明专利技术提供了一种目标数据信息的获取方法及装置、电子设备以及存储介质。目标数据信息的获取方法包括:对第一数据信息进行主题词集提取得到主题词集合;根据主题词集合得到第一数据信息所属的第一数据集合;根据第一数据集合确定第一数据集合的专业领域;根据第一数据集合的专业领域确定第一数据集合中第一数据信息的专业领域;基于第一数据信息的专业领域与目标领域相同,则将第一数据信息作为目标数据信息。本发明专利技术所提供的目标数据信息的获取方法,一方面避免了人工筛选关键词从而导致筛选数据时会漏掉很多专业领域数据的问题,另一方面通过主题词集合还避免了获取到很多嘈杂数据的问题。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体而言,涉及一种目标数据信息的获取方法、一种目标数据信息的获取装置、一种电子设备以及一种存储介质。


技术介绍

1、在现有的筛选专业领域数据的方法,绝大多数都是通过人工定义关键词,然后在数据文本中进行关键词匹配,将包含关键词的数据挑选出来作为领域数据集,但主要存在以下缺点:第一是人工筛选关键词有遗漏,单纯依靠数据人员主观定义关键词必然会因其阅历原因有所遗漏,从而导致在筛选数据时会漏掉很多专业领域数据;第二是在进行单纯的关键词匹配时会获取到很多嘈杂数据,例如,通过“家居”关键词可能筛选出包含“他家居住在上海”等非家居领域数据。因此,一种新型的、能更好的从通用数据获取专业领域数据的方法具有重要的应用价值。


技术实现思路

1、本专利技术旨在解决或改善上述技术问题的至少之一。

2、为此,本专利技术的第一目的在于提供一种目标数据信息的获取方法。

3、本专利技术的第二目的在于提供一种目标数据信息的获取装置。

4、本专利技术的第三目的在于提供一种电子设备。

5、本专利技术的第四目的在于提供一种存储介质。

6、本专利技术的第五目的在于提供一种计算机程序产品。

7、为实现本专利技术的第一目的,本专利技术的技术方案提供了一种目标数据信息的获取方法,包括:对第一数据信息进行主题词集提取得到主题词集合;根据主题词集合得到第一数据信息所属的第一数据集合;根据第一数据集合确定第一数据集合的专业领域;根据第一数据集合的专业领域确定第一数据集合中第一数据信息的专业领域;基于第一数据信息的专业领域与目标领域相同,则将第一数据信息作为目标数据信息。

8、本专利技术提供的目标数据信息的获取方法具体包括:对第一数据信息进行主题词集提取得到主题词集合,其中,主题词指的是能够表达第一数据信息的主题内容,并且具有实际检索意义的词汇,因此主题词集指的是多个能够表达第一数据信息内容的词汇集合。同时第一数据信息的数量可以为多个,对多个第一数据信息中的每个第一数据信息均进行主题词集提取,因此每个第一数据信息均会得到多个主题词,进而将多个主题词进行集合,从而得到主题词集合,也就是说,一条第一数据信息对应了一个主题词集合。然后对第一数据信息对应的主题词集合进行处理,从而得到第一数据集合,并且在第一数据集合中包括了第一数据信息,也就是说,通过对主题词集合的处理从而将主题词集合相似或相同的第一数据信息组合形成第一数据集合。进而根据该第一数据集合确定该第一数据集合的专业领域,其中,专业领域可以为家电、工业设备等。然后由于第一数据集合中的第一数据信息是因为主题词集合相似或相同才组合在一起的,因此第一数据集合中的第一数据信息与第一数据集合的专业领域是相同的,所以在确定好第一数据集合的专业领域后,也就确定好了第一数据信息的专业领域。在得知第一数据信息的专业领域后,可以与想要获取的目标数据信息的目标领域相匹配,如果第一数据信息的专业领域与目标领域相匹配即相同时,则说明该第一数据信息就是想要获取的目标数据信息,因此将该第一数据信息作为目标数据信息;如果第一数据信息的专业领域与目标领域不匹配即不相同,则不获取该第一数据信息。本专利技术通过获取第一数据信息的主题词集合,然后将主题词集合相同或相似的第一数据信息进行组合得到第一数据集合,进而通过确定第一数据集合的专业领域从而确定了第一数据信息的专业领域,如果第一数据信息的专业领域与目标领域相同,则获取该第一数据信息,从而避免了专业领域数据筛选中出现的关键词遗漏、筛选出的数据噪声多的问题。

9、另外,本专利技术提供的技术方案还可以具有如下附加技术特征:

10、在一些技术方案中,可选地,对第一数据信息进行主题词集提取得到主题词集合的步骤,包括:根据主题词数据模型对第一数据信息进行主题词集提取得到主题词集合。

11、在该技术方案中,对第一数据信息进行主题词集提取得到主题词集合的步骤,包括:首先选择一个合适的主题词数据模型,然后将第一数据信息中的特定文本数据输入至主题词数据模型中,通过主题词数据模型进行处理,得到多个具有代表性的主题词,进而将多个主题词进行组合,得到主题词集合,其中,主题词的个数可以为1至3个。此外,如果第一数据信息是图像数据或语音数据时,可以获取图像数据或语音数据的代表性特征,进而形成特征集合。本专利技术通过在第一数据信息的特定文本数据中获取主题词集合,能够较好的代表、概括第一数据信息。

12、在一些技术方案中,可选地,根据主题词集合得到第一数据信息所属的第一数据集合的步骤,包括:根据主题词集合得到词向量集合;根据词向量集合得到词向量集合所属的第二数据集合;根据词向量集合所属的第二数据集合得到第一数据信息所属的第一数据集合。

13、在该技术方案中,根据主题词集合得到第一数据信息所属的第一数据集合的步骤,包括:首先,根据主题词集合得到词向量集合,然后根据词向量集合得到词向量集合所属的第二数据集合。具体地,将主题词集合转换为对应的词向量集合,那么语义相近或相同的主题词集合在向量空间的距离也会更近,然后将距离相近的词向量集合组合在一起,从而形成了第二数据集合。然后根据词向量集合所属的第二数据集合得到第一数据信息所属的第一数据集合,可以理解的是,第一数据信息与主题词集合是一一对应的关系,主题词集合与词向量集合是一一对应的关系,那么第一数据信息与词向量集合也是一一对应的关系,那么可以将第二数据集合中的词向量集合对应的第一数据信息组成第一数据集合,并且该第一数据集合中的第一数据信息的专业领域都是相同的。本专利技术通过将主题词集合转换为词向量集合,并且将距离相近的词向量集合组合成第二数据集合,从而能够将专业领域相同的第一数据信息组合在第一数据集合中。

14、在一些技术方案中,可选地,根据主题词集合得到词向量集合的步骤,包括:根据词嵌入模型和主题词集合得到多个词向量;根据多个词向量得到词向量集合。

15、在该技术方案中,根据主题词集合得到词向量集合的步骤,包括:首先选择合适的词嵌入模型,然后将主题词集合输入至词嵌入模型中,由于主题词集合中多个主题词,因此在将主题词集合输入至词嵌入模型中进行处理后,会得到多个词向量。然后将多个词向量进行拼接即将多个词向量进行组合从而得到词向量集合。通过仅对主题词集合进行词嵌入相比于对文本摘要乃至全部文本进行词嵌入所花费的时间要少的多,因此对主题词集合进行词嵌入很适合工业场景。

16、在一些技术方案中,可选地,根据词向量集合得到词向量集合所属的第二数据集合的步骤,包括:根据词向量集合和层次聚类算法模型得到词向量集合所属的第二数据集合。

17、在该技术方案中,根据词向量集合得到词向量集合所属的第二数据集合的步骤,包括:首先选择合适的层次聚类算法模型,然后将得到的词向量集合输入至层次聚类算法模型中,也就是说,通过层次聚类将词向量集合进行聚类,从而得到第二数据集合,在该第二数据集合中包括了多个距离相近的词向量集合。通过层次聚类得到的树状聚类结构允许得到任意细粒度的本文档来自技高网...

【技术保护点】

1.一种目标数据信息的获取方法,其特征在于,包括:

2.根据权利要求1所述的目标数据信息的获取方法,其特征在于,所述对第一数据信息进行主题词集提取得到主题词集合的步骤,包括:

3.根据权利要求1所述的目标数据信息的获取方法,其特征在于,所述根据所述主题词集合得到所述第一数据信息所属的第一数据集合的步骤,包括:

4.根据权利要求3所述的目标数据信息的获取方法,其特征在于,所述根据所述主题词集合得到词向量集合的步骤,包括:

5.根据权利要求3所述的目标数据信息的获取方法,其特征在于,所述根据所述词向量集合得到所述词向量集合所属的第二数据集合的步骤,包括:

6.根据权利要求1至5中任一项所述的目标数据信息的获取方法,其特征在于,所述根据所述第一数据集合确定所述第一数据集合的专业领域的步骤,包括:

7.根据权利要求6所述的目标数据信息的获取方法,其特征在于,所述获取所述第一数据集合的主题词的步骤,包括:

8.一种目标数据信息的获取装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的目标数据信息的获取方法的步骤。

10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的目标数据信息的获取方法的步骤。

11.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现如权利要求1至7中任一项所述的目标数据信息的获取方法的步骤。

...

【技术特征摘要】

1.一种目标数据信息的获取方法,其特征在于,包括:

2.根据权利要求1所述的目标数据信息的获取方法,其特征在于,所述对第一数据信息进行主题词集提取得到主题词集合的步骤,包括:

3.根据权利要求1所述的目标数据信息的获取方法,其特征在于,所述根据所述主题词集合得到所述第一数据信息所属的第一数据集合的步骤,包括:

4.根据权利要求3所述的目标数据信息的获取方法,其特征在于,所述根据所述主题词集合得到词向量集合的步骤,包括:

5.根据权利要求3所述的目标数据信息的获取方法,其特征在于,所述根据所述词向量集合得到所述词向量集合所属的第二数据集合的步骤,包括:

6.根据权利要求1至5中任一项所述的目标数据信息的获取方法,其特征在于,所述根据所述第一数据集合确定所述第一数据集合的专...

【专利技术属性】
技术研发人员:李世龙徐国粮王逸鸣杨瑞华克儒王定
申请(专利权)人:美的集团上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1