一种基于用户文本生成内容的小众偏好学习方法技术

技术编号：37992414 阅读：22 留言：0更新日期：2023-06-30 10:06

本发明专利技术公开了信息检索领域的一种基于用户文本生成内容的小众偏好学习方法，包括以下步骤：对于获取到的用户文本生成内容进行数据预处理操作；将预处理得到的数据建立一个分层贝叶斯模型，得到联合分布模型；通过吉布斯抽样方法学习模型参数，得到大众偏好分布和小众偏好分布公式；利用学习到的模型参数，分析基于用户文本生成内容的用户小众偏好的含义；利用用户小众偏好分布寻找小众偏好下的目标用户。本发明专利技术方法从用户偏好的角度，区分了大众偏好和小众偏好，利用分层贝叶斯方法良好的可解释性，识别用户小众偏好的具体含义，为中小企业提供了进入合适小众市场的机会，同时每个用户的小众偏好分布有益于企业找出相关小众市场的目标用户。市场的目标用户。市场的目标用户。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于用户文本生成内容的小众偏好学习方法

[0001]本专利技术属于信息检索领域，具体涉及一种基于用户文本生成内容的小众偏好学习方法。

技术介绍

[0002]网上购物网站的发展，给中小企业提供了一个方便快捷的销售产品和服务的渠道，由于进入大规模的成熟市场必须面对庞大而强大的竞争对手和垄断者，因此小众市场是中小企业获得小市场份额并在未来扩大市场份额的合适场所，中小企业选择小众市场不仅是因为竞争较少和相对便宜的营销费用的优点，而且有相对较高的投资回报和长期成功的机会。
[0003]以往对于小众市场的研究预先确定了小众市场或小众产品，通常基于经验和先验知识，利用分类方法是选择合适的小众市场是研究的常用手段；随后，根据预先确定的小众市场和小众产品，分析和识别偏好是常规操作。然而，小众市场是小众产品的结果，小众产品是根据小众偏好的影响并最终产生的，帮助中小企业更好地进入合适的小众市场并生产产品，研究的顺序应该是首先分析小众偏好，然后发现市场。
[0004]虽然对小众偏好的分析可以加强对试图轻松进入小众市场的用户和中小...

【技术保护点】

【技术特征摘要】
1.一种基于用户文本生成内容的小众偏好学习方法，其特征在于，包括以下步骤：步骤1、对于获取到的用户文本生成内容进行数据预处理操作；步骤2、将步骤1预处理得到的数据建立一个分层贝叶斯模型，得到联合分布模型；步骤3、通过吉布斯抽样方法学习步骤2的模型参数，得到大众偏好分布和小众偏好分布公式；步骤4、利用步骤3学习到的模型参数，分析基于用户文本生成内容的用户小众偏好的含义；步骤5、利用用户小众偏好分布寻找小众偏好下的目标用户。2.根据权利要求1所述的一种基于用户文本生成内容的小众偏好学习方法，其特征在于，所述数据预处理操作首先对获取的文档去除非文本的部分，然后对文档进行分词操作，最后对分词后的文档进行清洗工作，得到数据预处理完成的U个文档。3.根据权利要求1所述的一种基于用户文本生成内容的小众偏好学习方法，其特征在于，所述分层贝叶斯模型中得到联合分布如下式：式中，w表示文档中的单词；Z
*
,Z
*
表示每个单词属于的偏好，前面表示单词属于大众偏好，后面为小众偏好；y为二元变量，表示单词生成过程是受大众偏好的影响还是小众偏好的影响；α
*
,α
*
,β
*
,β
*
,γ0,γ1为先验分布的超参数；first表示二元变量y的联合分布；second表示用户u的大众偏好分布；third表示大众偏好z
*
单词的分布；fourth表示用户u的小众偏好分布；fifth表示小众偏好z
*
下的单词分布。4.根据权利要求3所述的一种基于用户文本生成内容的小众偏好学习方法，其特征在于，所述步骤3需要对联合分布中的first,second,third,fourth,fifth进行学习求解；所述first的求解公式如下式：所述first的求解公式如下式：式中，n
u(y)
表示指数y在用户u中出现的次数；π为每一个单词的伯努利分布；所述second的求解公式如下式：所述second的求解公式如下式：式中，n
*,u(w)(m)
表示文档u中大众偏好m中单词w出现的次数；θ
*
表示文档
‑
大众偏好的分布；
所述Third的求解公式如式如下式：所述Third的求解公式如式如下式：式中，n
*,m(v,～)
表示词汇v在大众偏好m中出现的次数；ψ...

【专利技术属性】
技术研发人员：朱婷婷，邱玉琢，王蒙蒙，毕鹏飞，唐璇，张征若，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人