一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质制造方法及图纸

技术编号:27136007 阅读:14 留言:0更新日期:2021-01-25 20:47
本发明专利技术提供一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质,对专利数据库中的所有文献进行词袋统计和词向量计算,得到对应的词袋数据和词距离数据;建立模型,输入内容或考题号,在题库数据中获取待审专利的标题、摘要、权利要求书、说明书进行多种组合,并分别根据词袋算法和语义算法进行粗选和细选,针对选择后数据进行文本相似度分析,将分析结果融合排序得到综合相似度,经查重筛选,给出待查专利的可疑答案集合。本发明专利技术提升了检索速度,采用两轮筛选,第一轮粗选旨在快速缩小对比范围,第二轮细选旨在兼顾提高准确率;可以有效节省人力和时间,帮助专利审查员缩减相关专利审查范围,提高审查效率。效率。效率。

【技术实现步骤摘要】
一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质


[0001]本专利技术属于数据查重
,尤其涉及一种基于词频和语义计算专利 文献相似度的智能检索方法、装置、电子设备及其存储介质。

技术介绍

[0002]专利是一种受法律保护的特殊文件,是政府对社会专利技术创造的一种保护 手段,在国家专利管理部门受理专利申请后,需要对专利进行有效审查,而审查 过程中的查重工作无疑是重要环节之一,现有查重系统常用的查重算法是词袋算 法或者语义算法。
[0003]词袋算法,是指根据文本内容的分词统计词袋结果进行相似度计算,源 于文本分类技术。在信息检索中,它假定对于一个文本,忽略其词序、语法和句 法,将其仅仅看作是一个词集合,或者说是词的一个组合。文本中每个词的出现 都是独立的,不依赖于其它词是否出现,或者说这篇文章的任意一个位置词汇都 不受前面句子的影响而独立选择的。
[0004]语义算法,是指将文本内容转化为特征向量进行相似度计算。首先把词 处理成实数向量,完成向量化,把特征从词汇表大小的高维度空间降低到一个相 对低的维度空间;再使用简单的代数运算来发现它们之间的语义相似度,并且保 证向量间的相对相似度和语义相似度是相关的。计算向量间的相似度可以采用诸 如余弦相似度的方法。
[0005]但是,现有技术针对专利查重算法使用方式单一且结果准确率不高,审 查人员在专利审查过程中需要付出大量的时间和精力,工作效率较低且存在审核 意见主观性强的问题。

技术实现思路

[0006]本专利技术为了弥补现有技术的不足,提供一种基于词频和语义计算专利文 献相似度的智能检索方法、装置、电子设备及其存储介质,本技术方案权衡了针 对字面的词袋算法和针对语义的语义算法的优缺点,旨在从字面和语义两方面双 管齐下,将两种算法相融合来综合审查专利文献的重复度,提升专利审查效率。
[0007]本专利技术的实施例是这样实现的:
[0008]第一方面,本专利技术实施例提供了基于词频和语义计算专利文献相似度的 智能检索方法,应用于服务器,具体实现步骤是:首先对专利数据库中的所有文 献进行词袋统计和词向量计算,得到对应的词袋数据和词距离数据;然后建立模 型,待用户输入内容或考题号,在目前加载的题库数据中获取待审专利的标题、 摘要、权利要求书、说明书四部分内容进行多种组合,并分别根据词袋算法和语 义算法进行粗选和细选,针对选择后数据进行文本相似度分析,将分析结果融合 排序得到综合相似度,以此为标准进行客观有效的查重筛选,最后给出待查专利 的可疑答案集合。
[0009]进一步地,粗选是指:根据组合结果从专利语料库中生成字典和词典; 结合生成的字典和词典,从专利数据库中为每篇专利获取词袋,根据词袋的不同 属性生成词袋文
件,词袋文件的集合形成词袋库;根据考题内容,从词袋库中取 出对应专利的词袋,由词袋得到文本内容;根据词袋算法将每条考题不同字段的 组合词袋与全量专利的相应词袋进行逐一比较,计算得出语义相似值;将对应的 每篇专利的不同组合词袋的TopN1结果融合取交集,再对剩余组合词袋按语义相 似值从大到小排序,取出一定数量凑足TopN1作为粗选的结果集,从而形成粗选 集;统计出所有考题对应的粗选集,将其传给细选算法模型作为输入。
[0010]进一步地,细选是指:对词袋使用粗选算法,对各个不同组合词袋的结 果集进行词袋算法相似值计算,并赋予一定权重;再使用语义算法,将词袋中所 有词和考题中词逐一进行余弦相似度计算得到相似值,并将所有相似值累加,得 到两篇专利整体的语义相似度;不同字段的组合词袋分别对应一个总相似值,并 赋予一个权重;对多个词袋和语义的相似值连同权重进行计算和累加,将结果作 为相似值进行排序,得到TopN2作为细选的结果集,从而形成细选集,作为检索 结果。
[0011]第二方面,本专利技术实施例还提供了一种基于单台服务器的数据智能检索 的方法,具体实现步骤是:从题库的XML文件中提取专利信息和内容并进行入库 操作,提取的内容在专利数据库内经初步清洗和整理后,下载成指定字段的CSV 文件;对全量内容进行分词、去停用词、筛选高频词汇后,构建向量模型;对向 量模型数据进行加载,结合基于字面的词袋算法和基于语义的语义算法的多组融 合结果,预测出排名靠前的专利。
[0012]进一步地,预测是指:对从原始专利数据中提取的所有文本形式的内容 数据进行分词,将分词结果作为待训练的文本信息文件;调用word2vec模型, 将分词结果转化为可计算的特征向量形式;结合停用词和高频词筛选得到一定数 量的有效词汇,计算每个词与其它所有词汇的余弦相似值,从而得到词距离;统 计筛选后所有词的词袋和权重,预测检索结果。
[0013]第三方面,本专利技术实施例还提供了一种基于词频和语义计算专利文献相 似度的智能检索装置,应用于服务器,该装置包括以下组件:数据处理模块:用于从题库中将所有专利文本内容按照字段和重要性进行提取, 得到用于建模的数据标准格式;智能计算模块:用于对提取的标准数据进行各类计算,得到文本中体现其频率、 语义、权重的模型数据;模型构建模块:用于对模型数据进行建模计算,对计算结果进行组合优化,再结 合业务要求构建智能检索模型;模型预测模块:用于将智能检索模型进行封装,根据用户输入信息预测出相似结 果排名。
[0014]进一步地,数据处理模块中专利文本内容主要是指专利的字段内容,包 括标题、摘要、权利声明、说明书等内容数据。
[0015]进一步地,智能计算模块中各类计算是指各种数据处理方法,包括分词、 构建词向量、统计词袋、计算词距离、计算词权重等,得到的建模数据质量直接 关联后续建模的效果和质量,有大约150万的词用于词频计算,11万的词向量 用于语义计算。
[0016]进一步地,模型构建模块中建模计算是指粗选方式和细选方式,采用粗 选方式对标题、摘要、权利声明三个字段组合进行快速筛选,再采用细选方式对 标题、摘要、权利声
明和说明书四个字段组合进行词频加语义计算。
[0017]第四方面,本专利技术实施例还提供了一种电子设备,包括:存储器和处理 器,存储器与处理器连接,存储器用于存储程序代码指令,处理器用于调用存储 器中存储的程序代码指令,按照获得的程序执行如第一方面、第二方面实施例所 提供的方法。
[0018]第五方面,本专利技术实施例还提供了一种存储介质,该存储介质存储有处 理器可执行的程序代码指令,存储介质包括多条程序代码指令,多条指令被配置 成使处理器执行如第一方面、第二方面实施例所提供的方法。
[0019]本专利技术提供的一种基于词频和语义计算专利文献相似度的智能检索方 法、装置、电子设备及其存储介质,相比于现有技术具有以下优点:本专利技术首先提升了检索速度,采用两轮筛选,第一轮粗选旨在快速缩小对比范围, 第二轮细选旨在兼顾提高准确率,其查询结果的前十名大概率是审查员需要的结 果;其次,机器检索是按照统一的算法进行相似度计算,评判标准比人工审查更 为客观。使用计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词频和语义计算专利文献相似度的智能检索方法,其特征在于:包括以下步骤:S101、针对题库的全部专利数据,提取与考题内容相关的文本信息,整理成结构化数据,形成分词结果;S102、针对上述全部专利数据的分词结果进行词袋统计和词向量转化计算,得到每个词的权重值,作为模型预测的预加载数据;S103、加载上述全部词袋、词向量、词汇数据,根据考题公开号进行全量匹配查询,比较模型预测的相似度,返回排名靠前的考题结果。2.如权利要求1所述的一种基于词频和语义计算专利文献相似度的智能检索方法,其特征在于:所述S101进一步包括以下步骤:S1011、获取题库的全部专利数据;S1012、提取与考题内容相关的文本信息;S1013、分词处理,形成结构化数据;S1014、得到分词结果。3.如权利要求1所述的一种基于词频和语义计算专利文献相似度的智能检索方法,其特征在于:所述S102进一步包括以下步骤:S1021、针对上述分词结果进行词袋统计,完成粗选;S1022、针对粗选结果再次进行词袋统计和词向量转化计算,完成细选;S1023、计算细选结果的权重值;S1024、构建数据向量模型。4.如权利要求1所述的一种基于词频和语义计算专利文献相似度的智能检索方法,其特征在于:所述S103进一步包括以下步骤:S1031、加载数据向量模型的全部词袋、词向量、词汇数据;S1032、根据考题公开号进行全量匹配查询,得到模型预测数据;S1033、比较模型预测数据的相似度;S1034、返回排名靠前的专利公开号,得到考题结果。5.如权利要求3所述的一种基于词频和语义计算专利文献相似度的智能检索方法,其特征在于:所述S1021进一步包括以下步骤:S10211、根据分词结果从专利语料库中生成字典和词典;S10212、结合生成的字典和词典,从专利数据库中为每篇专利获取词袋,根据词袋的不同属性生成词袋文件,词袋文件的集合形成词袋库;S10213、根据考题内容,从词袋库中取出对应专利的词袋,由词袋得到文本内容;S10214、根据词袋算法将每条考题不同字段的组合词袋与全量专利的相应词袋进行逐一比较,计算得出语义相似值;将对应的每篇专利的不同组合词袋的TopN1结果融合取交集,再对剩余组合词袋按语义相似值从大到小排序,取出一定数量凑足TopN1作为粗选的结果集,从而形成粗选集;S10215、统计出所有考题对应的粗选集,将其传给细选算法模型作为输入。6.如权利要求3所述的一种基于词频和语义计算专利文献相似度的智能检索方法,其特征在于:所述S1022进一步包括以下步骤:
S10221、对词袋再次执行S1021所述粗选算法,对各个不同组合词袋的结果集进行词袋算法相似值计算,并赋予一定权重;S10222、使用语义算法,将词袋中所有词和考题中词逐一进行余弦相似度计算得到相似值,并将所有相似值累加,得到两篇专利整体的语义相似度;不同字段的组合词袋分别对应一个总相似值,并赋予一个权重;S10223、对多个词袋和语义的相似值连同权重进行计算和累加,将结果作为相似值进行排序,得到TopN2作为细选的结果...

【专利技术属性】
技术研发人员:汪敏严妍肖国泉裴非肖克彭祖剑邵罗树赵达石鑫
申请(专利权)人:北京开普云信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1