【技术实现步骤摘要】
本专利技术属于人工智能,具体涉及专利的ipc预分类模型。
技术介绍
1、目前大部分的专利检索采用的是布尔检索逻辑,布尔检索具有查找精确,检索人员可选择的字段较多,更适合专业的检索人员使用。布尔检索的缺点在于学习成本较高,无法满足普通用户或小白用户的需求。
2、随着人工智能以及自然语言处理技术的发展,语义检索在搜索领域逐渐取代或融合了传统的字段检索,在专利领域,语义检索能更好的帮助普通用户和一般用户进行专利查找,可以更快的帮助用户进行意图搜索,使得检索结果与输入的查询信息更加语义相关。
3、随着新技术的发展, 现有的专利检索算法进行文本向量化时大都采用doc2vec、word2vec、glove等静态词向量技术,不能根据上下文的变化动态的改变词向量,doc2vec、word2vec、glove等模型训练的词向量不能跟随文本中上下文语境的变化而动态的改变,对于大文本的理解存在一定的限制,特别是在一些新技术的理解上,导致检索结果不全面的问题。
4、其次,随着专利数据量越来越多,用户的使用查询结果速度的需求不
...【技术保护点】
1.一种基于语义相似性的检索方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的基于语义相似性的检索方法,其特征在于:S7中的相似度计算方法包括采用皮尔逊相关系数法、余弦相似度、之中的一种或多种组合。
3.根据权利要求1所述的基于语义相似性的检索方法,其特征在于:其中S3步骤中屏蔽词包括基于词性的屏蔽词和无专利语义屏蔽词。
4.根据权利要求3述的基于语义相似性的检索方法,其特征在于:所述的基于词性的屏蔽词包括代词、形容词、数词、量词、副词、连词、冠词、介词、助词。
5.根据权利要求3述的基于语义相似性的检索方法,其
...【技术特征摘要】
1.一种基于语义相似性的检索方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的基于语义相似性的检索方法,其特征在于:s7中的相似度计算方法包括采用皮尔逊相关系数法、余弦相似度、之中的一种或多种组合。
3.根据权利要求1所述的基于语义相似性的检索方法,其特征在于:其中s3步骤中屏蔽词包括基于词性的屏蔽词和无专利语义屏蔽词。
4.根据权利要求3述的基于语义相似性的检索方法,其特征在于:所述的基于词性的屏蔽词包括代词、形容词、数词、量词、副词、连词、冠词、介词、助词。
5.根据权利要求3述的基于语义相似性的检索方法,其特征在于:所述的无专利语义屏蔽词为通过专利文本构建的倒排序索引,计算词频,将高频词作为无专利语义屏蔽词。
6.根据权利要求1所述的基于语义相似性的检索方法,其特征在于:其中s2所述的bert模型为经过增量训练以及相似度训练的bert模型;所述的增量训练采用无监督的masklm预训练任务,语料采用专利语料库,所述的相似度训练为基于相似专利语料标签的finetune任务。
7.根据权利要求1所述的基于语义相似性的检索方法,其特征在于:ipc预分类模型为基于sbert的深度学习网络模型,所述的sbert的深...
【专利技术属性】
技术研发人员:王峻岭,叶广海,王亚莉,熊呈润,吴鹏,莫淑欢,李静雅,张孟迪,庄序填,陈冰川,赵淦森,唐华,麦家健,卢敏杰,钟金龙,
申请(专利权)人:广州奥凯信息咨询有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。