一种提案主题的推荐方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:34987357 阅读:20 留言:0更新日期:2022-09-21 14:32
本申请属于计算机领域,涉及一种提案主题的推荐方法,包括:获取新闻数据以及用户的历史行为数据;新闻数据包括新闻词;历史行为数据包括文档;根据新闻数据,结合贝叶斯变换,得到每个新闻词的热度值;根据用户的历史行为数据,计算提案用户和其他用户之间的新闻阅读相似度和新闻内容相似度,得到最终相似度,计算用户对每个文档的兴趣度,得到感兴趣文档;对感兴趣文档进行分词,得到文档词,计算每个文档词的TF

【技术实现步骤摘要】
一种提案主题的推荐方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种提案主题的推荐方法、装置、计算机设备和存储介质。

技术介绍

[0002]提案是与会单位、团体和参会人员,向会议提出的书面意见和建议。
[0003]现有技术中,参会人员在提交提案时,因为没有合适的资料和数据参考,往往依靠主观命题。
[0004]然而,主观命题反映不了真正的需求和热点;提交的提案缺乏相关数据的支撑,所以质量不高。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种提案主题的推荐方法、装置、计算机设备和存储介质,能够推荐提案主题,提高提案质量。
[0006]一种提案主题的推荐方法,包括:获取新闻数据以及用户的历史行为数据;所述新闻数据包括若干新闻词;所述历史行为数据包括若干文档;根据所述新闻数据,结合贝叶斯变换,得到每个新闻词的热度值;根据所述用户的历史行为数据,计算提案用户和其他用户之间的新闻阅读相似度和新闻内容相似度,得到最终相似度,并根据最终相似度计算用户对每个文档的兴趣度,得到感兴趣文档;对所述感兴趣文档进行分词,得到若干文档词,并计算每个文档词的TF

IDF值;根据新闻词和文档词,得到词条集合;根据每个新闻词的热度值和每个文档词的TF

IDF值,得到词条集合中每个词条的推荐值;根据所述推荐值,得到推荐词,完成提案主题的推荐。
[0007]在一个实施例中,还包括:获取历史提案数据;所述历史提案数据包括若干提案文档;对所述提案文档进行分词,得到若干提案词,并计算每个提案词的TF

IDF值;根据新闻词、文档词和提案词,得到词条集合;根据每个新闻词的热度值、每个文档词的TF

IDF值和每个提案词的TF

IDF值,得到词条集合中每个词条的推荐值。
[0008]在一个实施例中,根据所述新闻数据,结合贝叶斯变换,得到每个新闻词的热度值包括:根据某一天的词频与总统计天数的词频,计算新闻词在某一天的初始热度值:其中,表示新闻词在第i天的初始热度值;表示新闻词在第天的出现频数;表示新闻词在H天的出现频数;表示某个新闻词;表示第i个统
计日;H为总的统计天数;利用贝叶斯变换对初始热度值进行修正,得到新闻词在某一天的修正热度值:利用贝叶斯变换对初始热度值进行修正,得到新闻词在某一天的修正热度值:利用贝叶斯变换对初始热度值进行修正,得到新闻词在某一天的修正热度值:其中,表示新闻词在第i天的修正热度值,C为平均词频,j为第j个新闻词,I为新闻词总数,m是一个先验的平均分;根据新闻词在某一天的修正热度值,得到新闻词的最终的热度值:其中,表示新闻词的最终的热度值。
[0009]在一个实施例中,根据所述用户的历史行为数据,计算提案用户和其他用户之间的新闻阅读相似度和新闻内容相似度,得到最终相似度,并根据最终相似度计算用户对每个文档的兴趣度,得到感兴趣文档包括:计算提案用户u和其他用户q的新闻阅读相似度:式中,sim1表示提案用户u和其他用户q的新闻阅读相似度;s为此数据集包含的文档总数,表示用户u对第i条文档的点击次数,表示用户q对第i条文档的点击次数;计算提案用户u和其他用户q的新闻内容相似度:式中,表示用户u和用户q均浏览过的文档数量,和分别表示用户u和用户q产生过历史行为的文档数量;根据新闻阅读相似度和新闻内容相似度,得到提案用户u和其他用户q的最终相似度:其中,为权重因子;取最终相似度最大的前M名用户为用户u的M名近邻用户集合,分别计算提案用户u与此M名用户点击过的文档之间的兴趣度,提案用户u对文档j的兴趣度:
其中,为提案用户u的M名近邻用户集合,为用户u和用户q的最终相似度,表示用户q对第j条文档的点击次数,表示文档j的流行度;根据所述兴趣度,得到用户的感兴趣文档。
[0010]在一个实施例中,对所述感兴趣文档进行分词,得到若干文档词,并计算每个文档词的TF

IDF值,对所述提案文档进行分词,得到若干提案词,并计算每个提案词的TF

IDF值包括:计算文档词或提案词的初始TF值:式中,是感兴趣文档或提案文档的总词数,表示文档词或提案词d的总次数;引入词频控制模型对初始TF值进行优化:其中,表示词频控制系数,为引入的样本总数,表示样本平均文档长度,表示文档词或提案词的TF值;计算文档词或提案词的IDF值:计算文档词或提案词的IDF值:其中,idf
d
表示文档词或提案词的IDF值,为包含文档词的感兴趣文档的数量或包含提案词的提案文档的数量,,表示文档词与感兴趣文档的相关性或提案词与提案文档的相关性;和是调节因子;根据文档词或提案词的TF值以及文档词或提案词的IDF值,计算文档词或提案词d的TF

IDF值:式中,ididf
d
表示文档词或提案词的TF

IDF值。
[0011]在一个实施例中,根据新闻词、文档词和提案词,得到词条集合;根据每个新闻词的热度值、每个文档词的TF

IDF值和每个提案词的TF

IDF值,得到词条集合中每个词条的推荐值包括:新闻词、文档词和提案词均为词条,共同构成词条集合;根据每个新闻词的热度值、每个文档词的TF

IDF值和每个提案词的TF

IDF值,得到词条集合中每个词条的推荐值:到词条集合中每个词条的推荐值:到词条集合中每个词条的推荐值:
式中,表示词条的推荐值,表示新闻词的热度值的归一化处理结果,表示文档词的TF

IDF值的归一化处理结果,表示提案词的TF

IDF值的归一化处理结果,表示新闻词d的热度值,表示集合A中所有新闻词的热度值之和,表示文档词d的TF

IDF值,表示集合B中所有文档词的TF

IDF值之和,表示提案词d的TF

IDF值,表示集合C中所有提案词的TF

IDF值之和。
[0012]在一个实施例中,所述新闻词是对新闻数据进行分词、去停用词和未登录词处理之后得到的。
[0013]一种提案主题的推荐装置,包括:获取模块,用于获取新闻数据以及用户的历史行为数据;所述新闻数据包括若干新闻词;所述历史行为数据包括若干文档;热度模块,用于根据所述新闻数据,结合贝叶斯变换,得到每个新闻词的热度值;词频模块,用于根据所述用户的历史行为数据,计算提案用户和其他用户之间的新闻阅读相似度和新闻内容相似度,得到最终相似度,并根据最终相似度计算用户对每个文档的兴趣度,得到感兴趣文档;对所述感兴趣文档进行分词,得到若干文档词,并计算每个文档词的TF

IDF值;推荐模块,用于根据新闻词和文档词,得到词条集合;根据每个新闻词的热度值和每个文档词的TF

IDF值,得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提案主题的推荐方法,其特征在于,包括:获取新闻数据以及用户的历史行为数据;所述新闻数据包括若干新闻词;所述历史行为数据包括若干文档;根据所述新闻数据,结合贝叶斯变换,得到每个新闻词的热度值;根据所述用户的历史行为数据,计算提案用户和其他用户之间的新闻阅读相似度和新闻内容相似度,得到最终相似度,并根据最终相似度计算用户对每个文档的兴趣度,得到感兴趣文档;对所述感兴趣文档进行分词,得到若干文档词,并计算每个文档词的TF

IDF值;根据新闻词和文档词,得到词条集合;根据每个新闻词的热度值和每个文档词的TF

IDF值,得到词条集合中每个词条的推荐值;根据所述推荐值,得到推荐词,完成提案主题的推荐。2.根据权利要求1所述的方法,其特征在于,还包括:获取历史提案数据;所述历史提案数据包括若干提案文档;对所述提案文档进行分词,得到若干提案词,并计算每个提案词的TF

IDF值;根据新闻词、文档词和提案词,得到词条集合;根据每个新闻词的热度值、每个文档词的TF

IDF值和每个提案词的TF

IDF值,得到词条集合中每个词条的推荐值。3.根据权利要求2所述的方法,其特征在于,根据所述新闻数据,结合贝叶斯变换,得到每个新闻词的热度值包括:根据某一天的词频与总统计天数的词频,计算新闻词在某一天的初始热度值:其中,表示新闻词在第i天的初始热度值;表示新闻词在第i天的出现频数;表示新闻词在H天的出现频数;表示某个新闻词;表示第i个统计日;H为总的统计天数;利用贝叶斯变换对初始热度值进行修正,得到新闻词在某一天的修正热度值:利用贝叶斯变换对初始热度值进行修正,得到新闻词在某一天的修正热度值:利用贝叶斯变换对初始热度值进行修正,得到新闻词在某一天的修正热度值:其中,表示新闻词在第i天的修正热度值,C为平均词频,j为第j个新闻词,I为新闻词总数,m是一个先验的平均分;根据新闻词在某一天的修正热度值,得到新闻词的最终的热度值:其中,表示新闻词的最终的热度值。4.根据权利要求3所述的方法,其特征在于,根据所述用户的历史行为数据,计算提案
用户和其他用户之间的新闻阅读相似度和新闻内容相似度,得到最终相似度,并根据最终相似度计算用户对每个文档的兴趣度,得到感兴趣文档包括:计算提案用户u和其他用户q的新闻阅读相似度:式中,sim1表示提案用户u和其他用户q的新闻阅读相似度;s为此数据集包含的文档总数,表示用户u对第i条文档的点击次数,表示用户q对第i条文档的点击次数;计算提案用户u和其他用户q的新闻内容相似度:式中,表示用户u和用户q均浏览过的文档数量,和分别表示用户u和用户q产生过历史行为的文档数量;根据新闻阅读相似度和新闻内容相似度,得到提案用户u和其他用户q的最终相似度:其中,为权重因子;取最终相似度最大的前M名用户为用户u的M名近邻用户集合,分别计算提案用户u与此M名用户点击过的文档之间的兴趣度,提案用户u对文档j的兴趣度:其中,为提案用户u的M名近邻用户集合,为用户u和用户q的最终相似度,表示用户q对第j条文档的点击次数,表示文档j的流行度;根据所述兴趣度,得到用户的感兴趣文档。5.根据权利要求2至4任一项所述的方法,其特征在于,对所述感兴趣文档进行分词,得到若干文档词,并计算每个文档词的TF

IDF值,对所述提案文档进行分词,得到若干提案词,并计算每个提案词的TF
...

【专利技术属性】
技术研发人员:刘跃华王新
申请(专利权)人:湖南正宇软件技术开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1