一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质制造方法及图纸

技术编号：27136007 阅读：14 留言：0更新日期：2021-01-25 20:47

本发明专利技术提供一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质，对专利数据库中的所有文献进行词袋统计和词向量计算，得到对应的词袋数据和词距离数据；建立模型，输入内容或考题号，在题库数据中获取待审专利的标题、摘要、权利要求书、说明书进行多种组合，并分别根据词袋算法和语义算法进行粗选和细选，针对选择后数据进行文本相似度分析，将分析结果融合排序得到综合相似度，经查重筛选，给出待查专利的可疑答案集合。本发明专利技术提升了检索速度，采用两轮筛选，第一轮粗选旨在快速缩小对比范围，第二轮细选旨在兼顾提高准确率；可以有效节省人力和时间，帮助专利审查员缩减相关专利审查范围，提高审查效率。效率。效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质

[0001]本专利技术属于数据查重
，尤其涉及一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质。

技术介绍

[0002]专利是一种受法律保护的特殊文件，是政府对社会专利技术创造的一种保护手段，在国家专利管理部门受理专利申请后，需要对专利进行有效审查，而审查过程中的查重工作无疑是重要环节之一，现有查重系统常用的查重算法是词袋算法或者语义算法。
[0003]词袋算法，是指根据文本内容的分词统计词袋结果进行相似度计算，源于文本分类技术。在信息检索中，它假定对于一个文本，忽略其词序、语法和句法，将其仅仅看作是一个词集合，或者说是词的一个组合。文本中每个词的出现都是独立的，不依赖于其它词是否出现，或者说这篇文章的任意一个位置词汇都不受前面句子的影响而独立选择的。
[0004]语义算法，是指将文本内容转化为特征向量进行相似度计算。首先把词处理成实数向量，完成向量化，把特征从词汇表大小的高维度空间降低到一个相对低的维度空间；再使用简单的代数运算来发现它们之间的语义相似度，并且保证向量间的相对相似度和语义相似度是相关的。计算向量间的相似度可以采用诸如余弦相似度的方法。
[0005]但是，现有技术针对专利查重算法使用方式单一且结果准确率不高，审查人员在专利审查过程中需要付出大量的时间和精力，工作效率较低且存在审核意见主观性强的问题。

技术实现思路

[00...

【技术保护点】

【技术特征摘要】
1.一种基于词频和语义计算专利文献相似度的智能检索方法，其特征在于：包括以下步骤：S101、针对题库的全部专利数据，提取与考题内容相关的文本信息，整理成结构化数据，形成分词结果；S102、针对上述全部专利数据的分词结果进行词袋统计和词向量转化计算，得到每个词的权重值，作为模型预测的预加载数据；S103、加载上述全部词袋、词向量、词汇数据，根据考题公开号进行全量匹配查询，比较模型预测的相似度，返回排名靠前的考题结果。2.如权利要求1所述的一种基于词频和语义计算专利文献相似度的智能检索方法，其特征在于：所述S101进一步包括以下步骤：S1011、获取题库的全部专利数据；S1012、提取与考题内容相关的文本信息；S1013、分词处理，形成结构化数据；S1014、得到分词结果。3.如权利要求1所述的一种基于词频和语义计算专利文献相似度的智能检索方法，其特征在于：所述S102进一步包括以下步骤：S1021、针对上述分词结果进行词袋统计，完成粗选；S1022、针对粗选结果再次进行词袋统计和词向量转化计算，完成细选；S1023、计算细选结果的权重值；S1024、构建数据向量模型。4.如权利要求1所述的一种基于词频和语义计算专利文献相似度的智能检索方法，其特征在于：所述S103进一步包括以下步骤：S1031、加载数据向量模型的全部词袋、词向量、词汇数据；S1032、根据考题公开号进行全量匹配查询，得到模型预测数据；S1033、比较模型预测数据的相似度；S1034、返回排名靠前的专利公开号，得到考题结果。5.如权利要求3所述的一种基于词频和语义计算专利文献相似度的智能检索方法，其特征在于：所述S1021进一步包括以下步骤：S10211、根据分词结果从专利语料库中生成字典和词典；S10212、结合生成的字典和词典，从专利数据库中为每篇专利获取词袋，根据词袋的不同属性生成词袋文件，词袋文件的集合形成词袋库；S10213、根据考题内容，从词袋库中取出对应专利的词袋，由词袋得到文本内容；S10214、根据词袋算法将每条考题不同字段的组合词袋与全量专利的相应词袋进行逐一比较，计算得出语义相似值；将对应的每篇专利的不同组合词袋的TopN1结果融合取交集，再对剩余组合词袋按语义相似值从大到小排序，取出一定数量凑足TopN1作为粗选的结果集，从而形成粗选集；S10215、统计出所有考题对应的粗选集，将其传给细选算法模型作为输入。6.如权利要求3所述的一种基于词频和语义计算专利文献相似度的智能检索方法，其特征在于：所述S1022进一步包括以下步骤：
S10221、对词袋再次执行S1021所述粗选算法，对各个不同组合词袋的结果集进行词袋算法相似值计算，并赋予一定权重；S10222、使用语义算法，将词袋中所有词和考题中词逐一进行余弦相似度计算得到相似值，并将所有相似值累加，得到两篇专利整体的语义相似度；不同字段的组合词袋分别对应一个总相似值，并赋予一个权重；S10223、对多个词袋和语义的相似值连同权重进行计算和累加，将结果作为相似值进行排序，得到TopN2作为细选的结果...

【专利技术属性】
技术研发人员：汪敏，严妍，肖国泉，裴非，肖克，彭祖剑，邵罗树，赵达，石鑫，
申请(专利权)人：北京开普云信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人