The invention provides a method for extracting document subject parameters. Through document training set, the trained related subject model is obtained, and the distribution of the target document on the subject, the relationship between any two topics in multiple topics and the distribution between products and topics are obtained. The invention also provides a product recommendation method: obtaining the input product description, processing the product description, obtaining the distribution of the product description on the theme, the relationship between the topics in the related subject model and the probability distribution between the products and the topics. The invention also provides an electronic device and a storage medium. The invention can avoid only looking for products with similar contents, improve the accuracy and realize more accurate products.
【技术实现步骤摘要】
文档主题参数提取方法、产品推荐方法、设备及存储介质
本专利技术涉及人工智能领域,尤其涉及一种文档主题参数提取方法、产品推荐方法、设备及存储介质。
技术介绍
互联网的快速发展催化了海量信息的产生,并逐步让大数据成为当前信息技术的必然趋势,则需要快速,且有效的从各类信息中提取有价值的数据。而目前的产品推荐根据内容相似,或者通过关键词从海量的产品中进行找到包含关键词的产品推荐给用户,但遗漏了与用户描述内容不相似但主题相关的产品,例如“健康”与“基因”关键词不相关,但主题相关,但通过现有技术当输入“健康”关键词,无法找到与“基因”相关的产品,从而影响了推荐的准确度。
技术实现思路
鉴于以上内容,有必要提供一种文档主题参数提取方法、产品推荐方法、及电子设备,能避免了只找内容相似的产品,提高了准确度,从而实现了更准确的产品。一种文档主题参数提取方法,所述方法包括:对目标文档预处理,得到所述目标文档的词集;将所述目标文档的输入训练好的相关主题模型CTM中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布,所述训练好的相关主题模型是基于文档样本集训练得到,所述训练好的相关主题模型包含多个主题。根据本专利技术优选实施例,所述对目标文档预处理,得到所述目标文档的词集包括:去除所述目标文档中的特殊词语,得到处理后的文档;对所述处理后的文档进行分词,得到元组集。根据本专利技术优选实施例,所述方法还包括:在所述元组集中,移除在文本语料中出现次数居前预设位数的高频元组以及低于预设次数的低频元组,将处理后的元组集确定为所述目标文档的词集。一种产品推荐 ...
【技术保护点】
1.一种文档主题参数提取方法,其特征在于,所述方法包括:对目标文档预处理,得到所述目标文档的词集;将所述目标文档的输入训练好的相关主题模型CTM中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布,所述训练好的相关主题模型是基于文档样本集训练得到,所述训练好的相关主题模型包含多个主题。
【技术特征摘要】
1.一种文档主题参数提取方法,其特征在于,所述方法包括:对目标文档预处理,得到所述目标文档的词集;将所述目标文档的输入训练好的相关主题模型CTM中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布,所述训练好的相关主题模型是基于文档样本集训练得到,所述训练好的相关主题模型包含多个主题。2.如权利要求1所述的文档主题参数提取方法,其特征在于,所述对目标文档预处理,得到所述目标文档的词集包括:去除所述目标文档中的特殊词语,得到处理后的文档;对所述处理后的文档进行分词,得到元组集。3.如权利要求2所述的文档主题参数提取方法,其特征在于,所述方法还包括:在所述元组集中,移除在文本语料中出现次数居前预设位数的高频元组以及低于预设次数的低频元组,将处理后的元组集确定为所述目标文档的词集。4.一种产品推荐方法,其特征在于,所述方法包括:获取输入的产品描述,将获取的产品描述作为目标文档;利用如权利要求1至3中任一项所述文档主题参数提取方法对所述产品描述进行处理,得到产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布;基于所述产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布,向用户推荐与所述产品描述的主题相关联的目标产品。5.如权利要求4所述的产品推荐方法,其特征在于,所述基于所述产品描述在主题上的分布及产品的主题之间的关系,向用户推荐与所述产品描述的主题相关联的目标产品包括以下一种或者多种的组合:基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中主题之间的关系,确定与所述至少一个目标主题中每个目标主题的关联度最高的主题,根据所述相关主题模型中产品与主题的概率分布,确定所述确定的主题占比排在前预设位数的产品作为所述目标产品的一部分;基于所述产品描述在主题上的分布,获取所述产品描述中占比...
【专利技术属性】
技术研发人员:王义文,王健宗,肖京,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。