一种基于预训练语言模型的可视化专利检索方法技术

技术编号:41743010 阅读:30 留言:0更新日期:2024-06-19 13:03
本发明专利技术涉及自然语言处理技术领域,具体是一种基于预训练语言模型的可视化专利检索方法,本发明专利技术在专利关键词检索场景下,基于预训练语言模型对专利文本进行关键词的抽取和词向量表示,并对检索返回的专利特征降维,以散点图的形式可视化展示检索结果,相比于列表形式展示的检索结果,更加直观,并且提供了专利之间相似程度、专利分簇情况等更加丰富的检索信息。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体是一种基于预训练语言模型的可视化专利检索方法


技术介绍

1、专利检索的首要任务是从海量的专利数据库中检索出相关的专利文本。目前,比较常用的专利文本检索策略为关键词检索,基于待检索关键词构建检索式,从专利数据库中检索出相关的专利文本。

2、关键词检索策略存在漏检的情况,很容易遗漏一定量重要且技术相似度高的专利文本,进而难以实现高精度的专利检索需求。于是为了解决上述存在的技术问题,专利cn112000783a中公开了一种基于文本相似性分析的专利推荐方法、装置、设备及存储介质。该专利推荐方法通过获取主体关键词及描述性关键词,并以主体关键词和所有的描述性关键词作为检索词获得基础相似文本集,又以主体关键词和各描述性关键词作为检索词获得扩展相似文本集。接着遍历扩展相似文本集,针对每个扩展相似文本,基于该扩展相似文本的文本特征词和该扩展相似文本对应的检索词计算该扩展相似文本与基础相似文本集中的基础相似文本之间的相似度;并当该扩展相似文本与基础相似文本集中的任一基础相似文本之间的相似度高于预定阈值时,将该扩展相似文本移入至基础本文档来自技高网...

【技术保护点】

1.一种基于预训练语言模型的可视化专利检索方法,其特征在于,包括以下检索步骤:

2.根据权利要求1所述的一种基于预训练语言模型的可视化专利检索方法,其特征在于,在将专利数据库中的专利文本输入RoBERTa模型之前,需要对专利文本进行数据处理,将专利文本的输入格式转化为T1,T1=([CLS],TITLE,[SEP],ABSTRACT,[SEP],IPC_TEXT,[SEP],MAIN_TEXT),其中,[CLS]是标识文本开始的占位符;[SEP]是分割符;TITLE表示专利文本中的文本序列展开后的专利名称的位置;ABSTRACT表示专利文本中的文本序列展开后的专利说明书摘要的...

【技术特征摘要】

1.一种基于预训练语言模型的可视化专利检索方法,其特征在于,包括以下检索步骤:

2.根据权利要求1所述的一种基于预训练语言模型的可视化专利检索方法,其特征在于,在将专利数据库中的专利文本输入roberta模型之前,需要对专利文本进行数据处理,将专利文本的输入格式转化为t1,t1=([cls],title,[sep],abstract,[sep],ipc_text,[sep],main_text),其中,[cls]是标识文本开始的占位符;[sep]是分割符;title表示专利文本中的文本序列展开后的专利名称的位置;abstract表示专利文本中的文本序列展开后的专利说明书摘要的位置;该处的ipc_text表示专利文本中的文本序列展开后的专利ipc分类号的位置;main_text表示专利文本中的文本序列展开后的专利发明内容的位置。

3.根据权利要求3所述的一种基于预训练语言模型的可视化专利检索方法,其特征在于,待检索关键词为一个或者多个,各个待检索关键词依次排列构成待检索关键词序列,并将待检索关键词序列输入到roberta模型中;将待检索关键词序列输入roberta模型之前,需要对待检索关键词进行数据处理,将待检索关键词的输入格式转化为t2,t2=([cls],ipc_text,[sep],keyword_1,[sep],keyword_2,...,[sep],key wor...

【专利技术属性】
技术研发人员:王建张晞曈王佐成吕孝忠李浩张文婷王淑莹
申请(专利权)人:数据空间研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1