文档主题参数提取方法、产品推荐方法、设备及存储介质技术

技术编号:19341983 阅读:22 留言:0更新日期:2018-11-07 13:50
本发明专利技术提供一种文档主题参数提取方法,通过文档训练集,训练得到训练好的相关主题模型中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布。本发明专利技术还提供一种产品推荐方法:获取输入的产品描述,对所述产品描述进行处理,得到产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布。本发明专利技术还提供一种电子设备及存储介质。本发明专利技术能避免了只找内容相似的产品,提高了准确度,从而实现了更准确的产品。

Document topic parameter extraction method, product recommendation method, equipment and storage medium

The invention provides a method for extracting document subject parameters. Through document training set, the trained related subject model is obtained, and the distribution of the target document on the subject, the relationship between any two topics in multiple topics and the distribution between products and topics are obtained. The invention also provides a product recommendation method: obtaining the input product description, processing the product description, obtaining the distribution of the product description on the theme, the relationship between the topics in the related subject model and the probability distribution between the products and the topics. The invention also provides an electronic device and a storage medium. The invention can avoid only looking for products with similar contents, improve the accuracy and realize more accurate products.

【技术实现步骤摘要】
文档主题参数提取方法、产品推荐方法、设备及存储介质
本专利技术涉及人工智能领域,尤其涉及一种文档主题参数提取方法、产品推荐方法、设备及存储介质。
技术介绍
互联网的快速发展催化了海量信息的产生,并逐步让大数据成为当前信息技术的必然趋势,则需要快速,且有效的从各类信息中提取有价值的数据。而目前的产品推荐根据内容相似,或者通过关键词从海量的产品中进行找到包含关键词的产品推荐给用户,但遗漏了与用户描述内容不相似但主题相关的产品,例如“健康”与“基因”关键词不相关,但主题相关,但通过现有技术当输入“健康”关键词,无法找到与“基因”相关的产品,从而影响了推荐的准确度。
技术实现思路
鉴于以上内容,有必要提供一种文档主题参数提取方法、产品推荐方法、及电子设备,能避免了只找内容相似的产品,提高了准确度,从而实现了更准确的产品。一种文档主题参数提取方法,所述方法包括:对目标文档预处理,得到所述目标文档的词集;将所述目标文档的输入训练好的相关主题模型CTM中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布,所述训练好的相关主题模型是基于文档样本集训练得到,所述训练好的相关主题模型包含多个主题。根据本专利技术优选实施例,所述对目标文档预处理,得到所述目标文档的词集包括:去除所述目标文档中的特殊词语,得到处理后的文档;对所述处理后的文档进行分词,得到元组集。根据本专利技术优选实施例,所述方法还包括:在所述元组集中,移除在文本语料中出现次数居前预设位数的高频元组以及低于预设次数的低频元组,将处理后的元组集确定为所述目标文档的词集。一种产品推荐方法,所述方法包括:获取输入的产品描述,将获取的产品描述作为目标文档;利用如任意实施例中所述文档主题参数提取方法对所述产品描述进行处理,得到产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布;基于所述产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布,向用户推荐与所述产品描述的主题相关联的目标产品。根据本专利技术优选实施例,所述基于所述产品描述在主题上的分布及产品的主题之间的关系,向用户推荐与所述产品描述的主题相关联的目标产品包括以下一种或者多种的组合:基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中主题之间的关系,确定与所述至少一个目标主题中每个目标主题的关联度最高的主题,根据所述相关主题模型中产品与主题的概率分布,确定所述确定的主题占比排在前预设位数的产品作为所述目标产品的一部分;基于所述产品描述在主题上的分布,获取所述产品描述中占比最高的主题,根据所述相关主题模型中主题之间的关系,确定与所述占比最高的主题的关联度最高的目标主题,根据所述相关主题模型中产品与主题的概率分布,确定所述目标主题占比排在前预设位数的产品作为所述目标产品的一部分;基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中产品与主题的概率分布,确定包含所述至少一个目标主题的产品,将确定的产品作为所述目标产品的一部分。根据本专利技术优选实施例,所述基于所述产品描述在主题上的分布及产品的主题之间的关系,向用户推荐与所述产品描述的主题相关联的目标产品还包括:基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中主题之间的关系,确定与所述至少一个目标主题关联的第一主题,再确定只与第一主题关联的第二主题,根据所述相关主题模型中产品与主题的概率分布,确定所述第二主题占比排在前预设位数的产品作为所述目标产品的一部分。根据本专利技术优选实施例,所述方法还包括:将与所述产品描述中主题关联的产品分类显示,并显示每类产品推荐的方式。根据本专利技术优选实施例,所述方法还包括:获取用户根据推荐的目标产品选中的产品,确定所述选中的产品包含的主题,将所述选中的产品包含的主题占比排在前预设位数的产品作为所述目标产品的一部分。一种电子设备,所述电子设备包括存储器及处理器,所述存储器用于存储至少一个指令,所述处理器用于执行所述至少一个指令以实现任意实施例中任一项所述文档主题参数提取方法,及/或任意实施例中任一项所述产品推荐方法。一种计算机可读存储介质,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现任意实施例中任一项所述文档主题参数提取方法,及/或任意实施例中任一项所述产品推荐方法。由以上技术方案可知,本专利技术提供一种文档主题参数提取方法,通过文档训练集,训练得到训练好的相关主题模型中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布。获取输入的产品描述,对所述产品描述进行处理,得到产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布。本专利技术通过上述实施例中基于所述相关主题模型,能搜索到内容不相似,但主题相关的产品,从而推荐主题密切相关的产品,从而避免了只找内容相似的产品,提高了准确度,从而实现了更准确的产品。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1是本专利技术文档主题参数提取方法的第一较佳实施例的流程图。图2是本专利技术产品推荐方法的第一较佳实施例的流程图。图3是本专利技术文档主题参数提取装置的第一较佳实施例的程序模块图。图4是本专利技术产品推荐装置的第一较佳实施例的程序模块图。图5是本专利技术至少一个实例中电子设备的较佳实施例的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。如图1所示,是本专利技术文档主题参数提取方法的第一较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。S10、电子设备对目标文档预处理,得到所述目标本文档来自技高网
...

【技术保护点】
1.一种文档主题参数提取方法,其特征在于,所述方法包括:对目标文档预处理,得到所述目标文档的词集;将所述目标文档的输入训练好的相关主题模型CTM中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布,所述训练好的相关主题模型是基于文档样本集训练得到,所述训练好的相关主题模型包含多个主题。

【技术特征摘要】
1.一种文档主题参数提取方法,其特征在于,所述方法包括:对目标文档预处理,得到所述目标文档的词集;将所述目标文档的输入训练好的相关主题模型CTM中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布,所述训练好的相关主题模型是基于文档样本集训练得到,所述训练好的相关主题模型包含多个主题。2.如权利要求1所述的文档主题参数提取方法,其特征在于,所述对目标文档预处理,得到所述目标文档的词集包括:去除所述目标文档中的特殊词语,得到处理后的文档;对所述处理后的文档进行分词,得到元组集。3.如权利要求2所述的文档主题参数提取方法,其特征在于,所述方法还包括:在所述元组集中,移除在文本语料中出现次数居前预设位数的高频元组以及低于预设次数的低频元组,将处理后的元组集确定为所述目标文档的词集。4.一种产品推荐方法,其特征在于,所述方法包括:获取输入的产品描述,将获取的产品描述作为目标文档;利用如权利要求1至3中任一项所述文档主题参数提取方法对所述产品描述进行处理,得到产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布;基于所述产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布,向用户推荐与所述产品描述的主题相关联的目标产品。5.如权利要求4所述的产品推荐方法,其特征在于,所述基于所述产品描述在主题上的分布及产品的主题之间的关系,向用户推荐与所述产品描述的主题相关联的目标产品包括以下一种或者多种的组合:基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中主题之间的关系,确定与所述至少一个目标主题中每个目标主题的关联度最高的主题,根据所述相关主题模型中产品与主题的概率分布,确定所述确定的主题占比排在前预设位数的产品作为所述目标产品的一部分;基于所述产品描述在主题上的分布,获取所述产品描述中占比...

【专利技术属性】
技术研发人员:王义文王健宗肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1