一种基于语义相似性的检索方法、系统、存储介质技术方案

技术编号:41666896 阅读:27 留言:0更新日期:2024-06-14 15:25
本发明专利技术公开了一种基于语义相似性的检索方法、系统、存储介质,通过该方法公开了基于语义相似度检索专利的方法,该方法融合了IPC、关键词的布尔检索和语义检索,进一步的还公开了基于语义相似性的检索系统公开了相关模块,存储介质。本发明专利技术通过词扩散技术以及IPC分类号预测技术可以在保证技术主题相关的前提下尽可能的缩小检索范围,提高检索效率,节约硬件成本,提升召回时间。

【技术实现步骤摘要】

本专利技术属于人工智能,具体涉及专利的ipc预分类模型。


技术介绍

1、目前大部分的专利检索采用的是布尔检索逻辑,布尔检索具有查找精确,检索人员可选择的字段较多,更适合专业的检索人员使用。布尔检索的缺点在于学习成本较高,无法满足普通用户或小白用户的需求。

2、随着人工智能以及自然语言处理技术的发展,语义检索在搜索领域逐渐取代或融合了传统的字段检索,在专利领域,语义检索能更好的帮助普通用户和一般用户进行专利查找,可以更快的帮助用户进行意图搜索,使得检索结果与输入的查询信息更加语义相关。

3、随着新技术的发展, 现有的专利检索算法进行文本向量化时大都采用doc2vec、word2vec、glove等静态词向量技术,不能根据上下文的变化动态的改变词向量,doc2vec、word2vec、glove等模型训练的词向量不能跟随文本中上下文语境的变化而动态的改变,对于大文本的理解存在一定的限制,特别是在一些新技术的理解上,导致检索结果不全面的问题。

4、其次,随着专利数据量越来越多,用户的使用查询结果速度的需求不变,进行查询返回结果本文档来自技高网...

【技术保护点】

1.一种基于语义相似性的检索方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的基于语义相似性的检索方法,其特征在于:S7中的相似度计算方法包括采用皮尔逊相关系数法、余弦相似度、之中的一种或多种组合。

3.根据权利要求1所述的基于语义相似性的检索方法,其特征在于:其中S3步骤中屏蔽词包括基于词性的屏蔽词和无专利语义屏蔽词。

4.根据权利要求3述的基于语义相似性的检索方法,其特征在于:所述的基于词性的屏蔽词包括代词、形容词、数词、量词、副词、连词、冠词、介词、助词。

5.根据权利要求3述的基于语义相似性的检索方法,其特征在于:所述的无专...

【技术特征摘要】

1.一种基于语义相似性的检索方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的基于语义相似性的检索方法,其特征在于:s7中的相似度计算方法包括采用皮尔逊相关系数法、余弦相似度、之中的一种或多种组合。

3.根据权利要求1所述的基于语义相似性的检索方法,其特征在于:其中s3步骤中屏蔽词包括基于词性的屏蔽词和无专利语义屏蔽词。

4.根据权利要求3述的基于语义相似性的检索方法,其特征在于:所述的基于词性的屏蔽词包括代词、形容词、数词、量词、副词、连词、冠词、介词、助词。

5.根据权利要求3述的基于语义相似性的检索方法,其特征在于:所述的无专利语义屏蔽词为通过专利文本构建的倒排序索引,计算词频,将高频词作为无专利语义屏蔽词。

6.根据权利要求1所述的基于语义相似性的检索方法,其特征在于:其中s2所述的bert模型为经过增量训练以及相似度训练的bert模型;所述的增量训练采用无监督的masklm预训练任务,语料采用专利语料库,所述的相似度训练为基于相似专利语料标签的finetune任务。

7.根据权利要求1所述的基于语义相似性的检索方法,其特征在于:ipc预分类模型为基于sbert的深度学习网络模型,所述的sbert的深...

【专利技术属性】
技术研发人员:王峻岭叶广海王亚莉熊呈润吴鹏莫淑欢李静雅张孟迪庄序填陈冰川赵淦森唐华麦家健卢敏杰钟金龙
申请(专利权)人:广州奥凯信息咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1