模型确定方法、装置及设备制造方法及图纸

技术编号:21184646 阅读:83 留言:0更新日期:2019-05-22 15:15
本发明专利技术实施例提供一种模型确定方法、装置及设备,该方法包括:在主题库中获取第一数据集对应的目标主题,所述主题库中包括多个主题,所述主题库中的主题为根据数据集训练得到的用于构成模型的数据;根据所述目标主题确定所述第一数据集对应的目标模型。因此提高了确定模型的效率。

Model determination methods, devices and equipment

The embodiments of the present invention provide a model determination method, device and device. The method includes: acquiring the target theme corresponding to the first data set in the subject database, including multiple topics, the theme in the subject database is the data used to form the model trained according to the data set, and determining the target model corresponding to the first data set according to the target theme. \u3002 Therefore, the efficiency of determining the model is improved.

【技术实现步骤摘要】
模型确定方法、装置及设备
本专利技术实施例涉及计算机
,尤其涉及一种模型确定方法、装置及设备。
技术介绍
在机器学习
,通常需要对数据进行训练以得到模型,并根据训练得到的模型进行数据处理。在现有技术中,当需要确定一个模型时,通常先收集大量的数据,例如,可以在网页、新闻、小说中收集大量数据。对收集得到的大量数据进行学习,进而得到数据模型。然而,在实际应用过程中,对大量数据进行训练需要消耗巨大的资源,并且需要消耗较长的时间,导致现有技术中确定模型的效率低下。
技术实现思路
本专利技术实施例提供一种模型确定方法、装置及设备,提高了确定模型的效率。第一方面,本专利技术实施例提供一种模型确定方法,包括:在主题库中获取第一数据集对应的目标主题,所述主题库中包括多个主题,所述主题库中的主题为根据数据集训练得到的用于构成模型的数据;根据所述目标主题确定所述第一数据集对应的目标模型。在一种可能的实施方式中,所述在主题库中获取第一数据集对应的目标主题,包括:获取所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型;根据所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型,在主题库中获取第一数据集对应的目标主题。在一种可能的实施方式中,所述获取所述第一数据集与所述主题库中每个主题之间的相似度,包括:获取所述第一数据集的第一数据分布,所述第一数据分布包括多个词汇和每个词汇在所述第一数据集中出现的概率;根据所述第一数据分布和所述主题库中每个主题的数据分布,获取所述第一数据集与所述主题库中每个主题之间的相似度。在一种可能的实施方式中,所述根据所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型,在主题库中获取第一数据集对应的目标主题,包括:确定第一主题集合和第二主题集合,初始时,所述第一主题集合为空,所述第二主题集合与所述主题库相同;获取所述第一数据集与所述第二主题集合中各主题之间的相似度;执行目标主题确定操作,所述目标主题确定操作包括:根据所述第一数据集与所述第二主题集合中各主题的相似度、第二主题集合中各主题的类型和所述第一主题集合中各主题的类型,在所述第二主题集合中确定第一主题,将所述第一主题添加至所述第一主题集合,并在所述第二主题集合中删除所述第一主题;重复执行所述目标主题确定操作,直至所述第一主题集合中包括N个主题,或者所述第一数据集与所述第二主题集合中各主题的相似度均小于第一预设相似度时,将所述第一主题集合中的主题确定为所述目标主题,所述N为目标主题的个数,所述N为大于或等于1的整数。在一种可能的实施方式中,所述根据所述第一数据集与所述第二主题集合中各主题的相似度、第二主题集合中各主题的类型和所述第一主题集合中各主题的类型,在所述第二主题集合中确定第一主题,包括:在第二主题集合中确定第二主题,所述第二主题为所述第二主题集合中与所述第一数据集相似度最高的主题;在所述第二主题的类型与所述第一主题集合中各主题的类型均不相同时,则将所述第二主题确定为所述第一主题;在所述第二主题的类型与所述第一主题集合中至少一个主题的类型相同时,判断所述第二主题与所述第一数据集的相似度是否经过打折处理,若是,则将所述第二主题确定为所述第一主题,若否,则将所述第二主题与所述第一数据集的相似度进行打折处理,并根据打折处理后的所述第二主题与所述第一数据集的相似度重新在所述第二主题集合中确定所述第二主题,打折处理后的相似度小于打折处理前的相似度。在一种可能的实施方式中,所述在主题库中获取第一数据集对应的目标主题之前,还包括:获取数据集集合,所述数据集集合中包括多个数据集;对所述数据集集合中的数据集进行训练,得到多个待选主题;对所述多个待选主题进行去冗余处理,得到所述主题库。在一种可能的实施方式中,所述对所述多个待选主题进行去冗余处理,得到所述主题库,包括:根据所述多个待选主题确定至少一个主题组,一个主题组中每两个主题之间的相似度均大于第二预设相似度;将每个主题组中的一个主题确定为所述主题库中的主题。在一种可能的实施方式中,所述根据所述目标主题确定所述第一数据集对应的目标模型,包括:判断所述目标主题的个数是否小于构建所述目标模型所需的最小主题个数;若是,则对所述第一数据集进行训练得到M个主题,并根据所述目标主题和所述M个主题确定所述目标模型,所述目标模型中包括所述目标主题和所述M个主题,所述M为大于1的整数,所述M为构建所述目标模型所需的最小主题个数与所述目标主题的个数之差;若否,则根据所述目标主题确定所述第一数据集对应的目标模型,所述目标模型中包括所述目标主题。在一种可能的实施方式中,所述目标模型中包括所述目标主题和所述M个主题;所述根据所述目标主题确定所述第一数据集对应的目标模型之后,还包括:获取所述M个主题与所述主题库中各主题的相似度;根据所述M个主题与所述主题库中各主题的相似度,更新所述主题库。在一种可能的实施方式中,所述根据所述M个主题与所述主题库中各主题的相似度,更新所述主题库,包括:针对所述M个主题中的任意一个第三主题,判断所述主题库中是否存在至少一个主题的相似度与所述第三主题的相似度大于第三预设相似度;若否,则将所述第三主题添加至所述主题库。第二方面,本专利技术实施例提供一种模型确定装置,包括第一获取模块和第一确定模块,其中,所述第一获取模块用于,在主题库中获取第一数据集对应的目标主题,所述主题库中包括多个主题,所述主题库中的主题为根据数据集训练得到的用于构成模型的数据;所述第一确定模块用于,根据所述目标主题确定所述第一数据集对应的目标模型。在一种可能的实施方式中,所述第一获取模块具体用于:获取所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型;根据所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型,在主题库中获取第一数据集对应的目标主题。在一种可能的实施方式中,所述第一获取模块具体用于:获取所述第一数据集的第一数据分布,所述第一数据分布包括多个词汇和每个词汇在所述第一数据集中出现的概率;根据所述第一数据分布和所述主题库中每个主题的数据分布,获取所述第一数据集与所述主题库中每个主题之间的相似度。在一种可能的实施方式中,所述第一获取模块具体用于:确定第一主题集合和第二主题集合,初始时,所述第一主题集合为空,所述第二主题集合与所述主题库相同;获取所述第一数据集与所述第二主题集合中各主题之间的相似度;执行目标主题确定操作,所述目标主题确定操作包括:根据所述第一数据集与所述第二主题集合中各主题的相似度、第二主题集合中各主题的类型和所述第一主题集合中各主题的类型,在所述第二主题集合中确定第一主题,将所述第一主题添加至所述第一主题集合,并在所述第二主题集合中删除所述第一主题;重复执行所述目标主题确定操作,直至所述第一主题集合中包括N个主题,或者所述第一数据集与所述第二主题集合中各主题的相似度均小于第一预设相似度时,将所述第一主题集合中的主题确定为所述目标主题,所述N为目标主题的个数,所述N为大于或等于1的整数。在一种可能的实施方式中,所述第一获取模块具体用于:在第二主题集合中确定第二主题,所述第二主题为所述第二主题集合中与所述第一数据集相似度最高的主题;在所述第本文档来自技高网...

【技术保护点】
1.一种模型确定方法,其特征在于,包括:在主题库中获取第一数据集对应的目标主题,所述主题库中包括多个主题,所述主题库中的主题为根据数据集训练得到的用于构成模型的数据;根据所述目标主题确定所述第一数据集对应的目标模型。

【技术特征摘要】
1.一种模型确定方法,其特征在于,包括:在主题库中获取第一数据集对应的目标主题,所述主题库中包括多个主题,所述主题库中的主题为根据数据集训练得到的用于构成模型的数据;根据所述目标主题确定所述第一数据集对应的目标模型。2.根据权利要求1所述的方法,其特征在于,所述在主题库中获取第一数据集对应的目标主题,包括:获取所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型;根据所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型,在主题库中获取第一数据集对应的目标主题。3.根据权利要求2所述的方法,其特征在于,所述获取所述第一数据集与所述主题库中每个主题之间的相似度,包括:获取所述第一数据集的第一数据分布,所述第一数据分布包括多个词汇和每个词汇在所述第一数据集中出现的概率;根据所述第一数据分布和所述主题库中每个主题的数据分布,获取所述第一数据集与所述主题库中每个主题之间的相似度。4.根据权利要求2所述的方法,其特征在于,所述根据所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型,在主题库中获取第一数据集对应的目标主题,包括:确定第一主题集合和第二主题集合,初始时,所述第一主题集合为空,所述第二主题集合与所述主题库相同;获取所述第一数据集与所述第二主题集合中各主题之间的相似度;执行目标主题确定操作,所述目标主题确定操作包括:根据所述第一数据集与所述第二主题集合中各主题的相似度、第二主题集合中各主题的类型和所述第一主题集合中各主题的类型,在所述第二主题集合中确定第一主题,将所述第一主题添加至所述第一主题集合,并在所述第二主题集合中删除所述第一主题;重复执行所述目标主题确定操作,直至所述第一主题集合中包括N个主题,或者所述第一数据集与所述第二主题集合中各主题的相似度均小于第一预设相似度时,将所述第一主题集合中的主题确定为所述目标主题,所述N为目标主题的个数,所述N为大于或等于1的整数。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一数据集与所述第二主题集合中各主题的相似度、第二主题集合中各主题的类型和所述第一主题集合中各主题的类型,在所述第二主题集合中确定第一主题,包括:在第二主题集合中确定第二主题,所述第二主题为所述第二主题集合中与所述第一数据集相似度最高的主题;在所述第二主题的类型与所述第一主题集合中各主题的类型均不相同时,则将所述第二主题确定为所述第一主题;在所述第二主题的类型与所述第一主题集合中至少一个主题的类型相同时,判断所述第二主题与所述第一数据集的相似度是否经过打折处理,若是,则将所述第二主题确定为所述第一主题,若否,则将所述第二主题与所述第一数据集的相似度进行打折处理,并根据打折处理后的所述第二主题与所述第一数据集的相似度重新在所述第二主题集合中确定所述第二主题,打折处理后的相似度小于打折处理前的相似度。6.根据权利要求1-5任一项所述的方法,其特征在于,所述在主题库中获取第一数据集对应的目标主题之前,还包括:获取数据集集合,所述数据集集合中包括多个数据集;对所述数据集集合中的数据集进行训练,得到多个待选主题;对所述多个待选主题进行去冗余处理,得到所述主题库。7.根据权利要求6所述的方法,其特征在于,所述对所述多个待选主题进行去冗余处理,得到所述主题库,包括:根据所述多个待选主题确定至少一个主题组,一个主题组中每两个主题之间的相似度均大于第二预设相似度;将每个主题组中的一个主题确定为所述主题库中的主题。8.根据权利要求1-7任一项所述的方法,其特征在于,所述根据所述目标主题确定所述第一数据集对应的目标模型,包括:判断所述目标主题的个数是否小于构建所述目标模型所需的最小主题个数;若是,则对所述第一数据集进行训练得到M个主题,并根据所述目标主题和所述M个主题确定所述目标模型,所述目标模型中包括所述目标主题和所述M个主题,所述M为大于1的整数,所述M为构建所述目标模型所需的最小主题个数与所述目标主题的个数之差;若否,则根据所述目标主题确定所述第一数据集对应的目标模型,所述目标模型中包括所述目标主题。9.根据权利要求8所述的方法,其特征在于,所述目标模型中包括所述目标主题和所述M个主题;所述根据所述目标主题确定所述第一数据集对应的目标模型之后,还包括:获取所述M个主题与所述主题库中各主题的相似度;根据所述M个主题与所述主题库中各主题的相似度,更新所述主题库。10.根据权利要求9所述的方法,其特征在于,所述根据所述M个主题与所述主题库中各主题的相似度,更新所述主题库,包括:针对所述M个主题中的任意一个第三主题,判断所述主题库中是否存在至少一个主题的相似度与所述第三主题的相似度大于第三预设相似度;若否,则将所述第三主题添加至所述主题库。11.一种模型确定装置,其特征在于,包括第一获取模块和第一确定模块,其中,所述第一获取模块用于,在主题库中获取第一数据集对应的目标主题,...

【专利技术属性】
技术研发人员:宋元峰鲍思琪姜迪
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1