一种专利诉讼风险预测方法技术

技术编号:19179248 阅读:14 留言:0更新日期:2018-10-17 00:43
本发明专利技术公开了一种专利诉讼风险预测方法,该方法根据异构的专利数据(元特征、文本特征和专利引用网络)和专利诉讼案件记录,用张量分解与卷积神经网络相结合的方法得到每一个公司的作为原告的诉讼因子、作为被告的诉讼因子和每一个专利的诉讼因子,然后利用以上三种诉讼因子(都是向量表征)进行专利诉讼风险预测,相比于现有技术而言,极大的提高了预测结果的准确性。

A patent litigation risk prediction method

The invention discloses a patent litigation risk prediction method. According to heterogeneous patent data (meta-features, text features and patent citation network) and patent litigation record, the method obtains litigation factors of each company as plaintiff and litigation actions as defendant by combining tensor decomposition with convolution neural network. Factor and each patent litigation factor, and then use the above three litigation factors (all vector representation) to predict the patent litigation risk, compared with the existing technology, greatly improved the accuracy of the prediction results.

【技术实现步骤摘要】
一种专利诉讼风险预测方法
本专利技术涉及机器学习和专利数据挖掘
,尤其涉及一种专利诉讼风险预测的方法。
技术介绍
专利是一种知识产权保护的重要手段。近年来,随着科技的发展、技术的革新,世界各个地区的专利申请和授权数量都在迅速增长,而由专利侵权引发的专利诉讼案件也出现了显著增长。专利诉讼案件通常成因复杂、程序繁琐、耗资巨大,一旦立案对于诉讼双方都影响甚大,而提前进行专利诉讼预警可以给诉讼双方提供更多的时间制定发展战略,就潜在的诉讼专利进行协商解决,从而及时疏通、规避风险、节省资源。在目前的研究工作和专利中,关于专利诉讼预测的方法主要有以下方法:1)基于统计的专利诉讼因素分析。目前,基于统计的专利诉讼因素分析主要着重于分析专利特征与专利诉讼之间的关系,符合特定特征的专利即为潜在的诉讼专利。经过前人的分析,得知影响专利诉讼的因素主要包括专利前向引用、专利后向引用、专利家族大小、专利审查过程、专利权人等等。2)基于协同过滤的公司诉讼风险预测。基于协同过滤的公司诉讼风险预测结合了传统推荐系统中常用的协同过滤(如矩阵分解)算法,有学者利用此方法预测一个公司可能发生诉讼的产业或者公司。上述两种方法并不能解决两个公司关于一个专利是否会发生诉讼这个问题。除此之外,上述方法并没有利用专利中包含文本在内的异构数据,也没有考虑建模公司之间、公司与诉讼专利之间的关系。
技术实现思路
本专利技术的目的是提供一种专利诉讼风险预测方法,可以提高预测结果的准确性。本专利技术的目的是通过以下技术方案实现的:一种专利诉讼风险预测方法,其特征在于,包括:获取已授权的异构形式的专利数据,爬取专利诉讼案件数据;利用卷积神经网络和网络嵌入的方法,将每一个已授权专利的异构形式的专利数据转化为综合的专利向量表征;利用专利诉讼案件数据,建立原告-被告-专利三阶张量,建立张量分解模型;将综合的专利向量表征与张量分解模型相结合得到混合模型;使用排序学习的方法对混合模型进行训练;利用训练得到的混合模型计算每一个公司的作为原告的诉讼因子、作为被告的诉讼因子和每一个专利的诉讼因子;利用上述三种诉讼因子进行公司之间关于某专利的诉讼风险预测。由上述本专利技术提供的技术方案可以看出,根据异构的专利数据(元特征、文本特征和专利引用网络)和专利诉讼案件记录,用张量分解与卷积神经网络相结合的方法得到每一个公司的作为原告的诉讼因子、作为被告的诉讼因子和每一个专利的诉讼因子,然后利用以上三种诉讼因子(都是向量表征)进行专利诉讼风险预测,相比于现有技术而言,极大的提高了预测结果的准确性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种专利诉讼风险预测方法的流程图;图2为本专利技术实施例提供的一种专利诉讼风险预测方法的结合网络表征的神经网络结构图;图3为本专利技术实施例提供的一种专利诉讼风险预测方法的建模概念图;图4位本专利技术实施例提供的一种专利诉讼风险预测方法的概率模型图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种专利诉讼风险预测方法,如图1所示,其主要包括如下步骤:步骤11、获取已授权的异构形式的专利数据,爬取专利诉讼案件数据。本专利技术实施例中,已授权的异构形式的专利数据以及专利诉讼案件数据都可以从互联网上获得。步骤12、利用卷积神经网络和网络嵌入的方法,将每一个已授权专利的异构形式的专利数据转化为专利向量表征。本专利技术实施例中,获取已授权的异构形式的专利数据之后,使用统一的数学形式表示已授权的异构形式的专利数据,所述已授权的异构形式的专利数据包括:元特征、文本特征和专利引用网络;使用Sp={k|k=1,2,3,…,N}表示专利集合,N为专利个数;根据专利引用关系建立专利引用网络G,其中,专利引用网络G每一个节点都代表专利;每个专利都具有一定的特征,因此专利引用网络G是一个属性网络。对于专利引用网络G中的专利k(即专利集合中序号为k的专利),用Xk表示其特征,包含元特征和文本特征;其中,元特征是指能够直接从专利文档中提取出的基本特征,包括:前向引用、后向引用、权利要求数量、图片数量、表格数量、专利分类信息、授权间隙、所在专利类别中的专利数量变化、所在公司中的专利数量变化;文本特征是指专利文档中的文字描述,包括:专利标题、专利的说明书摘要与专利权利要求。元特征和文本特征的内容及描述如表1所示:表1元特征和文本特征的内容及描述本专利技术实施例中,利用卷积神经网络和网络嵌入的方法处理专利数据的方式如下:1、采用网络嵌入学习的方式来处理元特征和专利引用网络G。首先,将专利引用网络G中的每一个专利节点的元特征拼接成一个元特征向量(例如,专利k的元特征向量可以写成),把它们作为网络嵌入学习的专利节点属性进行训练;然后,通过对专利引用网络G进行网络嵌入学习,可以将高维的专利元特征向量转化为低维的专利表征,同时将专利引用关系嵌入到专利表征中,从而对专利特征进行更精准的刻画。上述处理过程具体如下:首先,拼接所有专利的元特征向量,形成特征矩阵FN×Q,其中,Q为专利元特征向量的维度;特征矩阵FN×Q的第k行记为fk(等价于);定义专利k的输入表征为ek=ETfk,其中E是需要训练的转换矩阵,显然E的维度为Q×d1(d1可以自行设置);其次,对于专利引用网络G中的每一个节点,将它当成根节点root,对它的邻居节点进行随机采样,产生不同的路径:<root,neighborhood1,neighborhood2,…>;其中,neighborhood1,neighborhood2均表示邻居节点;对于每一条路径,给定专利k的邻居节点集合(称之为情境):context(k)={k-l,…,k+l}\{k};即,考虑专利k的2l个邻居节点;最大化以下目标函数,即由邻居节点预测中心节点的概率:上式中e'k和econtext(k)分别代表专利k的输出表征和情景表征,专利m为专利k的邻居节点,e'm代表专利m的的输出表征;econtext(k)定义为:上式中em为专利m的输入表征;最后,通过负采样近似目标函数,获得输出表征,即元特征的向量表征,对于专利k而言其输出表征为e'k。2、采用卷积神经网络来处理文本特征,其过程如下:首先,通过Word2Vec技术把去除停用词以后的文本特征中的词转换为词向量,维度为d0;每一句话都可认为是一个矩阵,多句话可以形成一个张量。其次,把专利标题、专利的说明书摘要与专利权利要求进行分片,其中专利权利要求为多条,则取前C-2条(不够则补0),加上一条专利标题和一条专利的说明书摘要,共形成C个片;每一片都是由词向量组成的词序列,每一片均取前H个词(不够则补0),则将专利k的文本特征转化为张量其中,C的取值可以根据实际需要求进行设置。然后,使用如图2本文档来自技高网...

【技术保护点】
1.一种专利诉讼风险预测方法,其特征在于,包括:获取已授权的异构形式的专利数据,爬取专利诉讼案件数据;利用卷积神经网络和网络嵌入的方法,将每一个已授权专利的异构形式的专利数据转化为综合的专利向量表征;利用专利诉讼案件数据,建立原告‑被告‑专利三阶张量,建立张量分解模型;将综合的专利向量表征与张量分解模型相结合得到混合模型;使用排序学习的方法对混合模型进行训练;利用训练得到的混合模型计算每一个公司的作为原告的诉讼因子、作为被告的诉讼因子和每一个专利的诉讼因子;利用上述三种诉讼因子进行公司之间关于某专利的诉讼风险预测。

【技术特征摘要】
1.一种专利诉讼风险预测方法,其特征在于,包括:获取已授权的异构形式的专利数据,爬取专利诉讼案件数据;利用卷积神经网络和网络嵌入的方法,将每一个已授权专利的异构形式的专利数据转化为综合的专利向量表征;利用专利诉讼案件数据,建立原告-被告-专利三阶张量,建立张量分解模型;将综合的专利向量表征与张量分解模型相结合得到混合模型;使用排序学习的方法对混合模型进行训练;利用训练得到的混合模型计算每一个公司的作为原告的诉讼因子、作为被告的诉讼因子和每一个专利的诉讼因子;利用上述三种诉讼因子进行公司之间关于某专利的诉讼风险预测。2.根据权利要求1所述的一种专利诉讼风险预测方法,其特征在于,获取已授权的异构形式的专利数据之后,使用统一的数学形式表示已授权的异构形式的专利数据,所述已授权的异构形式的专利数据包括:元特征、文本特征和专利引用网络;使用Sp={k|k=1,2,3,…,N}表示专利集合,N为专利个数;根据专利引用关系建立专利引用网络G,其中,专利引用网络G每一个节点都代表专利;对于专利引用网络G中的专利k,用Xk表示其特征,包含元特征和文本特征;其中,元特征是指能够直接从专利文档中提取出的基本特征,包括:前向引用、后向引用、权利要求数量、图片数量、表格数量、专利分类信息、授权间隙、所在专利类别中的专利数量变化、所在公司中的专利数量变化;文本特征是指专利文档中的文字描述,包括:专利标题、专利的说明书摘要与专利权利要求。3.根据权利要求2所述的一种专利诉讼风险预测方法,其特征在于,采用网络嵌入学习的方式来处理元特征和专利引用网络G:将专利引用网络G中的每一个专利节点的元特征拼接成一个元特征向量,作为网络嵌入学习的专利节点属性进行训练;然后,通过对专利引用网络G进行网络嵌入学习,可以专利元特征向量转化为专利表征,同时将专利引用关系嵌入到专利表征中,从而对专利特征进行刻画;上述处理过程如下:首先,拼接所有专利的元特征向量,形成特征矩阵FN×Q,其中,Q为专利元特征向量的维度;特征矩阵FN×Q的第k行记为fk,代表专利k的元特征向量;定义专利k的输入表征为ek=ETfk,其中E是需要训练的转换矩阵;其次,对于专利引用网络G中的每一个节点,将它当成根节点root,对它的邻居节点进行随机采样,产生不同的路径:<root,neighborhood1,neighborhood2,…>;其中,neighborhood1,neighborhood2均表示邻居节点;对于每一条路径,给定专利k的邻居节点集合:context(k)={k-l,…,k+l}\{k};最大化以下目标函数,即由邻居节点预测中心节点的概率:上式中e'k和econtext(k)分别代表专利k的输出表征和情景表征,e'm代表专利m的的输出表征,专利m为专利k的邻居节点;econtext(k)定义为:上式中em为专利m的输入表征;最后,通过负采样近似目标函数,获得输出表征,即元特征的向量表征,对于专利k而言其输出表征为e'k。4.根据权利要求2或3所述的一种专利诉讼风险预测方法,其特征在于,采用卷积神经网络来处理文本特征,其过程如下:首先,通过Word2Vec技术把去除停用词以后的文本特征中的词转换为词向量,维度为d0;其次,把专利标题、专利的说明书摘要与专利的权利要求书进行分片,其中专利权利要求为多条,则取前C-2条,加上一条专利标题和一条专利的说明书摘要,共形成C个片;每一片都是由词向量组成的词序列,每一片均取前H个词序列,则将专利k的文本特征转化为张量然后,使用一个两层的卷积神经网络对张量进行处理;第一层是词层面的卷积和池化,第二层是句子层面的卷积和池化;第一层的卷积和池化操作如下:卷积操作:卷积操作的卷积核形状为c'×d0,其中c'为卷积核的维度,目标是经过卷积操作把专利k的每一个片s=w1,w2,…,wH,都转化为一个新的隐层序列ec:其中:和是卷积操作的参数,d是输出的维度,ReLU(x)是一个非线性的激活函数,是连接操作,用来连接向量;w为词序列,下标为词序列的序号;池化操作:池化操作的步长为u,对上述卷积操作获得的新的隐层序列ec进行u最大池化,转化为新的全局隐层序列ecu:其中,满足第二层的卷积和池化操作与第一层相同,区别仅在于输入由词序列变成了句子序列。5.根据权利要求4所述的一种专利诉讼风险预测方法,其特征在于:通过卷积神经网络得到了文本特征的向量表征,通过网络嵌入学习的方式得到元特征的向量表征;拼接文本特征的向量表征与元特征的向量表征,然后通过全连接层得到综合的专利向量表征。6.根据权利要求1所述的一种专利诉讼风险预测方法,其特征在于,所述利用专利诉讼案件数据,建立原告-被告-专利三阶张量,形成张量分解模型包...

【专利技术属性】
技术研发人员:刘淇陈恩红武晗叶雨扬杜东舫赵洪科
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1