【技术实现步骤摘要】
一种基于用户需求结合倒排表的专利推荐方法
[0001]本专利技术属于数据推荐的计算机信息领域,更具体地,涉及一种基于用户需求结合倒排表的专利推荐方法。
技术介绍
[0002]随着社会和科技的发展,知识产权在我国越来越被重视,知识产权是企业和国家核心竞争力的关键一环,知识产权代表着企业的核心竞争力也代表了国家的综合国力,专利对于企业和国家的核心技术保护至关重要,对企业生存和竞争策略同样至关重要。在平台中为用户推荐与用户信息和用户需求相关的专利,一方面可以提高用户对该网站的兴趣,增加用户的对专利的阅读量和用户停留在该平台中的时长,有利于用户了解该平台的功能发现它的优点,吸引更多的用户注册,对该平台的发展起到积极的作用;另一方面专利的推荐提高用户的办公效率,自动推荐技术可以根据用户的基本信息和需求信息为用户提供既精准又广泛的专利推荐。据调查如果没有专利推荐技术,平台中的客户流量以及客户的忠诚度都会有所下降。
[0003]中国专利文献CN107943910A公开了一种基于组合算法的个性化图书推荐方法,包括如下步骤:对图书的内容信息进行关键词提取,求得图书的特征向量;求得用户对某个新书的评分值;生成“用户行为倒排表和查询索引”和“图书行为倒排表和查询索引”;生成相似度文件和查询索引:相似用户索引和查询索引、相似图书索引和查询索引;根据相似用户索引和查询索引、相似图书索引和查询索引计算给用户的图书推荐指数。
[0004]现有技术情况的数据推荐方法多是根据数据特征向量生成推荐集,都存在一定的局限性,难以做到既能快速 ...
【技术保护点】
【技术特征摘要】
1.一种基于用户需求结合倒排表的专利推荐方法,其特征在于,包括S1、根据用户需求对专利数据集构建初始倒排表并加入相似词机制形成最终的倒排表;所述倒排表包括:单词编号、单词和专利编号列表;S2、对专利数据集中的专利信息进行编号,形成文档列表,为文档列表中的每一个专利的专利信息使用bert模型获取句子向量表示;所述文档列表包括:专利编号、专利信息、专利信息句子向量表示;S3、根据用户需求信息分为精准需求和广泛需求,进行双轨推荐,所述双轨推荐包括精准推荐和广泛推荐;所述精准推荐是对用户需求进行压缩和前处理后结合倒排表生成精准候选集,再从精准候选集中的专利编号中查找文档列表获取每一个专利编号对应的专利信息,最后对用户需求与每个专利信息进行匹配,得到精准推荐列表;所述广泛推荐是对用户需求进行分段,每段进行前处理后结合倒排表生成对应候选集,再根据对应候选集中的专利编号查找文档列表获取每一个专利编号对应的专利信息,最后对该段用户需求与每个专利信息进行匹配,得到该段的推荐列表,最后将每个段落的推荐列表合并形成广泛推荐列表。2.根据权利要求1所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述S1具体包括:S11、对专利数据集中的用户需求部分的数据进行分词,得到单词;对单词进行编号,以单词创建索引,然后记录下包含单词的所有的专利所对应的编号,形成初始倒排表;S12、对单词加入改进的相似词机制,结合预训练好的中文词向量文件构建单词的相似度关系,形成最终的倒排表。3.根据权利要求2所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述改进的相似词机制为:遍历初始倒排表中每一个词,结合预训练好的中文词向量文件,获取相似度高的前d个词,再使用综合相似度排序的方法从中选取前c
’
个相似词,遍历这c
’
个相似词,若倒排表中含有该词的相似词,将该相似词的专利编号加入该词的倒排表专利编号列表中,经过以上遍历过程形成最终倒排表;所述综合相似度排序的方法是指选取与词存在重复字的他词并计算重复度p,结合他词与单词的相似度h,计算单词的综合相似度f,γ为可调整参数:f=(1
‑
γ)p+γh,其中γ∈(0,1)
ꢀꢀꢀꢀꢀꢀꢀ
(1)。4.根据权利要求2所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述精准推荐具体包括:S311、使用改进的基于GPT2的需求压缩模型对用户需求信息进行压缩;S312、压缩后的用户需求信息进行前处理,包括分词、去停用词、去特殊停用词操作;例如,“可控制的有基准的文本生成机器学习模型”操作后“可控制有基准文本生成机器学习模型”,用前处理完后的用户需求信息去查找倒排表并生成精准候选集;S313、对压缩后的用户需求信息使用bert模型获取其句子向量表示;S314、由精准候选集中的专利编号查找文档列表获取每一个专利编号对应的专利信息
句子向量;S315、将压缩后的用户需求信息的句子向量与精准候选集中的每一个专利的专利信息句子向量进行余弦相似度计算,根据余弦相似度计算结果选取相似度最高的前n条专利信息作为精准推荐结果。5.根据权利要求4所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述改进的基于GPT2的需求压缩模型包括:...
【专利技术属性】
技术研发人员:丁青艳,郑婉,李娜,潘雨,董学成,
申请(专利权)人:山东省计算中心国家超级计算济南中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。