知识产权检索系统及其检索方法技术方案

技术编号:35296502 阅读:20 留言:0更新日期:2022-10-22 12:44
本申请公开了一种知识产权检索系统及其检索方法,其通过对数据库中的专利进行半结构化高维语义编码以得到专利的特征表示,其融合了专利文本内容中的全文隐含关联特征以及关键字段的全局性隐含关联特征,继而就可以通过检索式与所述专利的特征表示之间的关联表达来进行分类,在融合这两个特征时,进一步计算全文特征向量与关键字段特征向量之间的数据密集簇修正因数以进行修正,这样可以使得计算得到的关联矩阵通过不同数据密集度的特征向量之间的自适应依赖来提升所述关联矩阵对于分类目标函数的参数自适应性,也就提高了专利特征表达矩阵的分类准确性,进而提高了检索的精准度。精准度。精准度。

【技术实现步骤摘要】
知识产权检索系统及其检索方法


[0001]本专利技术涉及知识产权领域下的智能检索,且更为具体地,涉及一种知识产权检索系统及其检索方法。

技术介绍

[0002]现代企业间竞争日趋激烈,竞争的手段是多种多样的,其中企业信息化的竞争更是重中之重,尤其是知识产权的竞争。现有的知识产权检索系统基于传统的关键词匹配和分类检索,导致匹配精度不高,客户想要检索到精准匹配的专利需耗费较长时间。
[0003]因此,期待一种优化的知识产权检索系统。

技术实现思路

[0004]为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种知识产权检索系统及其检索方法,其通过对数据库中的专利进行半结构化高维语义编码以得到专利的特征表示,其融合了专利文本内容中的全文隐含关联特征以及关键字段的全局性隐含关联特征,继而就可以通过检索式与所述专利的特征表示之间的关联表达来进行分类,在融合这两个特征时,进一步计算全文特征向量与关键字段特征向量之间的数据密集簇修正因数以进行修正,这样可以使得计算得到的关联矩阵通过不同数据密集度的特征向量之间的自适应依赖来提升所述关联矩阵对于分类目标函数的参数自适应性,也就提高了专利特征表达矩阵的分类准确性,进而提高了检索的精准度。
[0005]根据本申请的一个方面,提供了一种知识产权检索系统,其包括:
[0006]专利文本语义编码模块,用于将数据库中待匹配的专利的所有文本内容通过包含嵌入层的上下文编码器以得到全文特征向量;
[0007]关键字段提取模块,用于提取所述待匹配的专利中的关键数据,所述关键数据包括标题、分类号、独权和技术背景;
[0008]关键字段编码模块,用于将所述待匹配的专利中的关键数据通过所述包含嵌入层的上下文编码器以得到关键字段特征向量;
[0009]向量长度调整模块,用于通过线性变换将所述全文特征向量和所述关键字段特征向量调整为相同长度的特征向量;
[0010]密集簇修正因数计算模块,用于计算所述全文特征向量和所述关键字段特征向量之间的密集簇修正因数,其中,所述密集簇修正因数为所述关键字段特征向量通过Softmax分类函数所得到的概率值乘以以所述全文特征向量与所述关键字段特征向量的按位置点乘所得到的特征向量除以两者之间的距离值所得到特征向量再通过所述Softmax分类函数所得到的概率值;
[0011]加权修正模块,用于以所述密集簇修正因数作为权重对所述全文特征向量进行加权以得到加权后全文特征向量;
[0012]关联编码模块,用于计算所述加权后全文特征向量与所述关键字段特征向量之间
的关联矩阵作为专利特征表达矩阵;
[0013]检索式获取模块,用于获取用户输入的检索式;
[0014]检索式编码模块,用于对所述检索式进行语义编码以得到检索式特征向量;
[0015]分类特征向量生成模块,用于将所述检索式特征向量作为查询特征向量与所述待匹配的专利的专利特征表达矩阵进行矩阵相乘以得到分类特征向量;以及
[0016]匹配结果生成模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待匹配专利是否与检索式相适配。
[0017]在上述知识产权检索系统中,所述专利文本语义编码模块,包括:第一分词单元,用于对所述数据库中待匹配的专利的所有文本内容进行分词以获得词序列;第一词嵌入单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射为词向量以获得词向量序列;第一上下文语义编码单元,用于使用所述包含嵌入层的上下文编码器的基于转换器的Bert模型对所述词向量序列进行基于全局掩码结构的全局语义编码以得到多个全局特征向量;第一级联单元,用于将所述多个全局特征向量进行级联以生成所述全文特征向量。
[0018]在上述知识产权检索系统中,所述关键字段编码模块,包括:第二分词单元,用于对所述待匹配的专利中的关键数据进行分词以获得关键词序列;第二词嵌入单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述关键词序列中各个词映射为词向量以获得关键词向量序列;第二上下文语义编码单元,用于使用所述包含嵌入层的上下文编码器的基于转换器的Bert模型对所述关键词向量序列进行基于全局掩码结构的全局语义编码以得到多个关键特征向量;第二级联单元,用于将所述多个关键特征向量进行级联以生成所述关键字段特征向量。
[0019]在上述知识产权检索系统中,所述向量长度调整单元,进一步用于通过所述线性变换将所述全文特征向量压缩至与所述关键字段特征向量具有相同的长度。
[0020]在上述知识产权检索系统中,所述密集簇修正因数计算模块,进一步用于以如下公式来计算所述全文特征向量和所述关键字段特征向量之间的所述密集簇修正因数;
[0021]其中,所述公式为:
[0022][0023]其中,V1是所述全文特征向量,V2是所述关键字段特征向量,

表示点乘,softmax(
·
)表示特征向量通过分类器得到的概率值,d(
·
,
·
)表示特征向量之间的距离,exp(
·
)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,特征向量除以参数表示以特征向量中各个位置的特征值分别除以参数。
[0024]在上述知识产权检索系统中,所述关联编码模块,用于以如下公式计算所述加权后全文特征向量与所述关键字段特征向量之间的所述关联矩阵;
[0025]其中,所述公式为:
[0026][0027]其中,M为所述关联矩阵,V1′
为所述加权后全文特征向量,V1′
T
为所述加权后全文特征向量的转置,V2为所述关键字段特征向量。
[0028]在上述知识产权检索系统中,所述匹配结果生成模块,进一步用于:使用所述分类
器以如下公式对所述分类特征向量进行处理以获得所述分类结果,其中,所述公式为:softmax{(W
n
,B
n
):

:(W1,B1)|X},其中,W1到W
n
为权重矩阵,B1到B
n
为偏置向量,X为所述分类特征向量。
[0029]根据本申请的另一方面,一种知识产权检索系统的检索方法,其包括:
[0030]将数据库中待匹配的专利的所有文本内容通过包含嵌入层的上下文编码器以得到全文特征向量;
[0031]提取所述待匹配的专利中的关键数据,所述关键数据包括标题、分类号、独权和技术背景;
[0032]将所述待匹配的专利中的关键数据通过所述包含嵌入层的上下文编码器以得到关键字段特征向量;
[0033]通过线性变换将所述全文特征向量和所述关键字段特征向量调整为相同长度的特征向量;
[0034]计算所述全文特征向量和所述关键字段特征向量之间的密集簇修正因数,其中,所述密集簇修正因数为所述关键字段特征向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识产权检索系统,其特征在于,包括:专利文本语义编码模块,用于将数据库中待匹配的专利的所有文本内容通过包含嵌入层的上下文编码器以得到全文特征向量;关键字段提取模块,用于提取所述待匹配的专利中的关键数据,所述关键数据包括标题、分类号、独权和技术背景;关键字段编码模块,用于将所述待匹配的专利中的关键数据通过所述包含嵌入层的上下文编码器以得到关键字段特征向量;向量长度调整模块,用于通过线性变换将所述全文特征向量和所述关键字段特征向量调整为相同长度的特征向量;密集簇修正因数计算模块,用于计算所述全文特征向量和所述关键字段特征向量之间的密集簇修正因数,其中,所述密集簇修正因数为所述关键字段特征向量通过Softmax分类函数所得到的概率值乘以以所述全文特征向量与所述关键字段特征向量的按位置点乘所得到的特征向量除以两者之间的距离值所得到特征向量再通过所述Softmax分类函数所得到的概率值;加权修正模块,用于以所述密集簇修正因数作为权重对所述全文特征向量进行加权以得到加权后全文特征向量;关联编码模块,用于计算所述加权后全文特征向量与所述关键字段特征向量之间的关联矩阵作为专利特征表达矩阵;检索式获取模块,用于获取用户输入的检索式;检索式编码模块,用于对所述检索式进行语义编码以得到检索式特征向量;分类特征向量生成模块,用于将所述检索式特征向量作为查询特征向量与所述待匹配的专利的专利特征表达矩阵进行矩阵相乘以得到分类特征向量;以及匹配结果生成模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待匹配专利是否与检索式相适配。2.根据权利要求1所述的知识产权检索系统,其中,所述专利文本语义编码模块,包括:第一分词单元,用于对所述数据库中待匹配的专利的所有文本内容进行分词以获得词序列;第一词嵌入单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射为词向量以获得词向量序列;第一上下文语义编码单元,用于使用所述包含嵌入层的上下文编码器的基于转换器的Bert模型对所述词向量序列进行基于全局掩码结构的全局语义编码以得到多个全局特征向量;第一级联单元,用于将所述多个全局特征向量进行级联以生成所述全文特征向量。3.根据权利要求2所述的知识产权检索系统,其中,所述关键字段编码模块,包括:第二分词单元,用于对所述待匹配的专利中的关键数据进行分词以获得关键词序列;第二词嵌入单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述关键词序列中各个词映射为词向量以获得关键词向量序列;第二上下文语义编码单元,用于使用所述包含嵌入层的上下文编码器的基于转换器的Bert模型对所述关键词向量序列进行基于全局掩码结构的全局语义编码以得到多个关键
特征向量;第二级联单元,用于将所述多个关键特征向量进行级联以生成所述关键字段特征向量。4.根据权利要求3所述的知识产权检索系统,其中,所述向量长度调整单元,进一步用于通过所述线性变换将所述全文特征向量压缩至与所述关键字段特征向量具有相同的长度。5.根据权利要求4所述的知识产权检索系统,其中,所述密集簇修正因数计算模块,进一步用于以如下公式来计算所述全文特征向量和所述关键字段特征向量之间的所述密集簇修正因数;其中,所述公式为:其中,V1是所述全文特征向量,V2是所述关键字段特征向量,

表示点乘,softmax(
·
)表示特征向量通过分类器得到的概...

【专利技术属性】
技术研发人员:黄泽滨林劝雄庄伟鹏郑金来柳小露高维维林雅玲陈志勇林曜晖王志菲
申请(专利权)人:福建华昊信息技术咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1