一种基于用户需求结合倒排表的专利推荐方法技术

技术编号:39176510 阅读:13 留言:0更新日期:2023-10-27 08:24
本发明专利技术属于数据推荐的计算机信息领域,提供了一种基于用户需求结合倒排表的专利推荐方法,包括根据用户需求对专利数据集构建初始倒排表并加入相似词机制形成最终的倒排表;所述倒排表包括:单词编号、单词和专利编号列表;对专利数据集中的专利信息进行编号,形成文档列表,为文档列表中的每一个专利的专利信息使用bert模型获取句子向量表示;所述文档列表包括:专利编号、专利信息、专利信息句子向量表示;根据用户需求信息分为精准需求和广泛需求,进行双轨推荐。本发明专利技术解决了现有技术中由于专利推荐涉及到各个领域的专利,数量庞大,使用单一领域的专利信息进行推荐,导致推荐效果不佳和专利推荐不够准确的问题。果不佳和专利推荐不够准确的问题。果不佳和专利推荐不够准确的问题。

【技术实现步骤摘要】
一种基于用户需求结合倒排表的专利推荐方法


[0001]本专利技术属于数据推荐的计算机信息领域,更具体地,涉及一种基于用户需求结合倒排表的专利推荐方法。

技术介绍

[0002]随着社会和科技的发展,知识产权在我国越来越被重视,知识产权是企业和国家核心竞争力的关键一环,知识产权代表着企业的核心竞争力也代表了国家的综合国力,专利对于企业和国家的核心技术保护至关重要,对企业生存和竞争策略同样至关重要。在平台中为用户推荐与用户信息和用户需求相关的专利,一方面可以提高用户对该网站的兴趣,增加用户的对专利的阅读量和用户停留在该平台中的时长,有利于用户了解该平台的功能发现它的优点,吸引更多的用户注册,对该平台的发展起到积极的作用;另一方面专利的推荐提高用户的办公效率,自动推荐技术可以根据用户的基本信息和需求信息为用户提供既精准又广泛的专利推荐。据调查如果没有专利推荐技术,平台中的客户流量以及客户的忠诚度都会有所下降。
[0003]中国专利文献CN107943910A公开了一种基于组合算法的个性化图书推荐方法,包括如下步骤:对图书的内容信息进行关键词提取,求得图书的特征向量;求得用户对某个新书的评分值;生成“用户行为倒排表和查询索引”和“图书行为倒排表和查询索引”;生成相似度文件和查询索引:相似用户索引和查询索引、相似图书索引和查询索引;根据相似用户索引和查询索引、相似图书索引和查询索引计算给用户的图书推荐指数。
[0004]现有技术情况的数据推荐方法多是根据数据特征向量生成推荐集,都存在一定的局限性,难以做到既能快速又能准确把与用户相关的专利推荐给用户使用。就现有的专利推荐技术,它是在原始的推荐过程中,输入原始的专利信息,包括专利的名称和摘要等,利用分词技术和关键词技术为系统中的每一个专利构建专利画像,利用用户收藏的专利列表和搜索关键词列表来构建用户画像,利用神经网络模型分别把所有的专利画像和用户的用户画像转化为句子向量表示,计算两者的相似度,按照相似度排序输出推荐列表给用户。由于专利推荐涉及到各个领域的专利,数量庞大,为了提高推荐的可行性,使用单一领域的专利信息进行推荐,会导致推荐速度慢、推荐领域不够精确和广泛。

技术实现思路

[0005]本专利技术旨在克服上述现有技术的至少一种缺陷,提供一种基于用户需求结合倒排表的专利推荐方法。
[0006]本专利技术详细的技术方案如下:
[0007]本专利技术为了解决上述技术问题,提供了一种基于用户需求结合倒排表的专利推荐方法,以解决现有技术推荐速度慢、推荐领域不够精确和广泛等问题。
[0008]首先对专利数据集构建倒排表以及文档列表,并将用户需求信息分为精准需求和广泛需求;其次对精准需求进行压缩及前处理后与倒排表以及文档列表结合给出精准推荐
结果;再者对广泛需求进行分段,再对每一段与倒排表以及文档列表结合给出推荐结果,将每一段的推荐结果汇总形成最后的广泛推荐结果,具体如下:
[0009]一种基于用户需求结合倒排表的专利推荐方法,其特征在于,包括以下步骤:
[0010]S1、根据用户需求对专利数据集构建初始倒排表并加入相似词机制形成最终的倒排表;
[0011]所述倒排表包括:单词编号、单词和专利编号列表;
[0012]S2、对专利数据集中的专利信息进行编号,形成文档列表,为文档列表中的每一个专利的专利信息使用bert模型获取句子向量表示;
[0013]所述文档列表包括:专利编号、专利信息、专利信息句子向量表示;
[0014]S3、根据用户需求信息分为精准需求和广泛需求,进行双轨推荐,所述双轨推荐包括精准推荐和广泛推荐;
[0015]所述精准推荐是对用户需求进行压缩和前处理后结合倒排表生成精准候选集,再从精准候选集中的专利编号中查找文档列表获取每一个专利编号对应的专利信息,最后对用户需求与每个专利信息进行匹配,得到精准推荐列表;
[0016]所述广泛推荐是对用户需求进行分段,每段进行前处理后结合倒排表生成对应候选集,再根据对应候选集中的专利编号查找文档列表获取每一个专利编号对应的专利信息,最后对该段用户需求与每个专利信息进行匹配,得到该段的推荐列表,最后将每个段落的推荐列表合并形成广泛推荐列表。
[0017]通过将用户需求信息分为精准需求和广泛需求能够满足用户不同程度的需求;精准推荐可集中于在与用户技术所属领域以及相似几个领域进行专利推荐,用以满足用户对于特定技术的要求;而广泛需求可实现跨领域推荐,可以为用户提供不同领域但可能提供帮助的专利,可以为用户的新技术提供参考和思路。
[0018]所述S1具体包括:
[0019]S11、对专利数据集中的用户需求部分的数据进行分词,得到单词;对单词进行编号,以单词创建索引,然后记录下包含单词的所有的专利所对应的编号,形成初始倒排表;
[0020]所述用户需求部分为专利说明书摘要部分、权利要求部分以及说明书有益效果部分组成,包含了通过技术要点、效果要点的可适配单词的多道路,能够多方面为用户推荐适配的专利;
[0021]S12、对单词加入改进的相似词机制,结合预训练好的中文词向量文件构建单词的相似度关系,形成最终的倒排表;
[0022]所述的改进的相似词机制具体为:遍历初始倒排表中每一个单词,结合使用预训练好的中文词向量文件(从外部已知渠道下载的预训练好的中文词向量文件sgns.zhihu.word,优选为https://github.com/Embedding/Chinese

Word

Vectors)获取相似度高的前d个单词,再使用综合相似度排序的方法从中选取前c'个相似词,遍历这c'个相似词,若倒排表中含有该词的相似词,将该相似词的专利编号加入该词倒排表专利编号列表中,经过上述遍历过程形成最终倒排表;
[0023]其中综合相似度排序的方法是指选取与词存在重复字的他词并计算重复度p,结合他词与单词的相似度h,计算单词的综合相似度f,γ为可调整参数,即在调试时根据相似度和重复度调整出一个合适的值,调整的目的是使综合相似度计算输出的结果在字面上更
符合用户输入的需求文字:
[0024]f=(1

γ)p+γh,其中γ∈(0,1)
ꢀꢀꢀꢀꢀꢀ
(1)。
[0025]所述精准推荐具体包括:
[0026]S311、使用改进的基于GPT2的需求压缩模型对用户需求信息进行压缩;
[0027]S312、压缩后的用户需求信息进行前处理,包括分词、去停用词、去特殊停用词操作;例如,“可控制的有基准的文本生成机器学习模型”操作后“可控制有基准文本生成机器学习模型”,用前处理完后的用户需求信息去查找倒排表并生成精准候选集;
[0028]S313、对压缩后的用户需求信息使用bert模型获取其句子向量表示;
[0029]S314、由精准候选集中的专利编号查找文档列表获取每一个专利编号对应的专利信息句子向量;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于用户需求结合倒排表的专利推荐方法,其特征在于,包括S1、根据用户需求对专利数据集构建初始倒排表并加入相似词机制形成最终的倒排表;所述倒排表包括:单词编号、单词和专利编号列表;S2、对专利数据集中的专利信息进行编号,形成文档列表,为文档列表中的每一个专利的专利信息使用bert模型获取句子向量表示;所述文档列表包括:专利编号、专利信息、专利信息句子向量表示;S3、根据用户需求信息分为精准需求和广泛需求,进行双轨推荐,所述双轨推荐包括精准推荐和广泛推荐;所述精准推荐是对用户需求进行压缩和前处理后结合倒排表生成精准候选集,再从精准候选集中的专利编号中查找文档列表获取每一个专利编号对应的专利信息,最后对用户需求与每个专利信息进行匹配,得到精准推荐列表;所述广泛推荐是对用户需求进行分段,每段进行前处理后结合倒排表生成对应候选集,再根据对应候选集中的专利编号查找文档列表获取每一个专利编号对应的专利信息,最后对该段用户需求与每个专利信息进行匹配,得到该段的推荐列表,最后将每个段落的推荐列表合并形成广泛推荐列表。2.根据权利要求1所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述S1具体包括:S11、对专利数据集中的用户需求部分的数据进行分词,得到单词;对单词进行编号,以单词创建索引,然后记录下包含单词的所有的专利所对应的编号,形成初始倒排表;S12、对单词加入改进的相似词机制,结合预训练好的中文词向量文件构建单词的相似度关系,形成最终的倒排表。3.根据权利要求2所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述改进的相似词机制为:遍历初始倒排表中每一个词,结合预训练好的中文词向量文件,获取相似度高的前d个词,再使用综合相似度排序的方法从中选取前c

个相似词,遍历这c

个相似词,若倒排表中含有该词的相似词,将该相似词的专利编号加入该词的倒排表专利编号列表中,经过以上遍历过程形成最终倒排表;所述综合相似度排序的方法是指选取与词存在重复字的他词并计算重复度p,结合他词与单词的相似度h,计算单词的综合相似度f,γ为可调整参数:f=(1

γ)p+γh,其中γ∈(0,1)
ꢀꢀꢀꢀꢀꢀꢀ
(1)。4.根据权利要求2所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述精准推荐具体包括:S311、使用改进的基于GPT2的需求压缩模型对用户需求信息进行压缩;S312、压缩后的用户需求信息进行前处理,包括分词、去停用词、去特殊停用词操作;例如,“可控制的有基准的文本生成机器学习模型”操作后“可控制有基准文本生成机器学习模型”,用前处理完后的用户需求信息去查找倒排表并生成精准候选集;S313、对压缩后的用户需求信息使用bert模型获取其句子向量表示;S314、由精准候选集中的专利编号查找文档列表获取每一个专利编号对应的专利信息
句子向量;S315、将压缩后的用户需求信息的句子向量与精准候选集中的每一个专利的专利信息句子向量进行余弦相似度计算,根据余弦相似度计算结果选取相似度最高的前n条专利信息作为精准推荐结果。5.根据权利要求4所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述改进的基于GPT2的需求压缩模型包括:...

【专利技术属性】
技术研发人员:丁青艳郑婉李娜潘雨董学成
申请(专利权)人:山东省计算中心国家超级计算济南中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1