The invention discloses a patent litigation risk prediction method. According to heterogeneous patent data (meta-features, text features and patent citation network) and patent litigation record, the method obtains litigation factors of each company as plaintiff and litigation actions as defendant by combining tensor decomposition with convolution neural network. Factor and each patent litigation factor, and then use the above three litigation factors (all vector representation) to predict the patent litigation risk, compared with the existing technology, greatly improved the accuracy of the prediction results.
【技术实现步骤摘要】
一种专利诉讼风险预测方法
本专利技术涉及机器学习和专利数据挖掘
,尤其涉及一种专利诉讼风险预测的方法。
技术介绍
专利是一种知识产权保护的重要手段。近年来,随着科技的发展、技术的革新,世界各个地区的专利申请和授权数量都在迅速增长,而由专利侵权引发的专利诉讼案件也出现了显著增长。专利诉讼案件通常成因复杂、程序繁琐、耗资巨大,一旦立案对于诉讼双方都影响甚大,而提前进行专利诉讼预警可以给诉讼双方提供更多的时间制定发展战略,就潜在的诉讼专利进行协商解决,从而及时疏通、规避风险、节省资源。在目前的研究工作和专利中,关于专利诉讼预测的方法主要有以下方法:1)基于统计的专利诉讼因素分析。目前,基于统计的专利诉讼因素分析主要着重于分析专利特征与专利诉讼之间的关系,符合特定特征的专利即为潜在的诉讼专利。经过前人的分析,得知影响专利诉讼的因素主要包括专利前向引用、专利后向引用、专利家族大小、专利审查过程、专利权人等等。2)基于协同过滤的公司诉讼风险预测。基于协同过滤的公司诉讼风险预测结合了传统推荐系统中常用的协同过滤(如矩阵分解)算法,有学者利用此方法预测一个公司可能发生诉讼的产业或者公司。上述两种方法并不能解决两个公司关于一个专利是否会发生诉讼这个问题。除此之外,上述方法并没有利用专利中包含文本在内的异构数据,也没有考虑建模公司之间、公司与诉讼专利之间的关系。
技术实现思路
本专利技术的目的是提供一种专利诉讼风险预测方法,可以提高预测结果的准确性。本专利技术的目的是通过以下技术方案实现的:一种专利诉讼风险预测方法,其特征在于,包括:获取已授权的异构形式的专利数据,爬取专利 ...
【技术保护点】
1.一种专利诉讼风险预测方法,其特征在于,包括:获取已授权的异构形式的专利数据,爬取专利诉讼案件数据;利用卷积神经网络和网络嵌入的方法,将每一个已授权专利的异构形式的专利数据转化为综合的专利向量表征;利用专利诉讼案件数据,建立原告‑被告‑专利三阶张量,建立张量分解模型;将综合的专利向量表征与张量分解模型相结合得到混合模型;使用排序学习的方法对混合模型进行训练;利用训练得到的混合模型计算每一个公司的作为原告的诉讼因子、作为被告的诉讼因子和每一个专利的诉讼因子;利用上述三种诉讼因子进行公司之间关于某专利的诉讼风险预测。
【技术特征摘要】
1.一种专利诉讼风险预测方法,其特征在于,包括:获取已授权的异构形式的专利数据,爬取专利诉讼案件数据;利用卷积神经网络和网络嵌入的方法,将每一个已授权专利的异构形式的专利数据转化为综合的专利向量表征;利用专利诉讼案件数据,建立原告-被告-专利三阶张量,建立张量分解模型;将综合的专利向量表征与张量分解模型相结合得到混合模型;使用排序学习的方法对混合模型进行训练;利用训练得到的混合模型计算每一个公司的作为原告的诉讼因子、作为被告的诉讼因子和每一个专利的诉讼因子;利用上述三种诉讼因子进行公司之间关于某专利的诉讼风险预测。2.根据权利要求1所述的一种专利诉讼风险预测方法,其特征在于,获取已授权的异构形式的专利数据之后,使用统一的数学形式表示已授权的异构形式的专利数据,所述已授权的异构形式的专利数据包括:元特征、文本特征和专利引用网络;使用Sp={k|k=1,2,3,…,N}表示专利集合,N为专利个数;根据专利引用关系建立专利引用网络G,其中,专利引用网络G每一个节点都代表专利;对于专利引用网络G中的专利k,用Xk表示其特征,包含元特征和文本特征;其中,元特征是指能够直接从专利文档中提取出的基本特征,包括:前向引用、后向引用、权利要求数量、图片数量、表格数量、专利分类信息、授权间隙、所在专利类别中的专利数量变化、所在公司中的专利数量变化;文本特征是指专利文档中的文字描述,包括:专利标题、专利的说明书摘要与专利权利要求。3.根据权利要求2所述的一种专利诉讼风险预测方法,其特征在于,采用网络嵌入学习的方式来处理元特征和专利引用网络G:将专利引用网络G中的每一个专利节点的元特征拼接成一个元特征向量,作为网络嵌入学习的专利节点属性进行训练;然后,通过对专利引用网络G进行网络嵌入学习,可以专利元特征向量转化为专利表征,同时将专利引用关系嵌入到专利表征中,从而对专利特征进行刻画;上述处理过程如下:首先,拼接所有专利的元特征向量,形成特征矩阵FN×Q,其中,Q为专利元特征向量的维度;特征矩阵FN×Q的第k行记为fk,代表专利k的元特征向量;定义专利k的输入表征为ek=ETfk,其中E是需要训练的转换矩阵;其次,对于专利引用网络G中的每一个节点,将它当成根节点root,对它的邻居节点进行随机采样,产生不同的路径:<root,neighborhood1,neighborhood2,…>;其中,neighborhood1,neighborhood2均表示邻居节点;对于每一条路径,给定专利k的邻居节点集合:context(k)={k-l,…,k+l}\{k};最大化以下目标函数,即由邻居节点预测中心节点的概率:上式中e'k和econtext(k)分别代表专利k的输出表征和情景表征,e'm代表专利m的的输出表征,专利m为专利k的邻居节点;econtext(k)定义为:上式中em为专利m的输入表征;最后,通过负采样近似目标函数,获得输出表征,即元特征的向量表征,对于专利k而言其输出表征为e'k。4.根据权利要求2或3所述的一种专利诉讼风险预测方法,其特征在于,采用卷积神经网络来处理文本特征,其过程如下:首先,通过Word2Vec技术把去除停用词以后的文本特征中的词转换为词向量,维度为d0;其次,把专利标题、专利的说明书摘要与专利的权利要求书进行分片,其中专利权利要求为多条,则取前C-2条,加上一条专利标题和一条专利的说明书摘要,共形成C个片;每一片都是由词向量组成的词序列,每一片均取前H个词序列,则将专利k的文本特征转化为张量然后,使用一个两层的卷积神经网络对张量进行处理;第一层是词层面的卷积和池化,第二层是句子层面的卷积和池化;第一层的卷积和池化操作如下:卷积操作:卷积操作的卷积核形状为c'×d0,其中c'为卷积核的维度,目标是经过卷积操作把专利k的每一个片s=w1,w2,…,wH,都转化为一个新的隐层序列ec:其中:和是卷积操作的参数,d是输出的维度,ReLU(x)是一个非线性的激活函数,是连接操作,用来连接向量;w为词序列,下标为词序列的序号;池化操作:池化操作的步长为u,对上述卷积操作获得的新的隐层序列ec进行u最大池化,转化为新的全局隐层序列ecu:其中,满足第二层的卷积和池化操作与第一层相同,区别仅在于输入由词序列变成了句子序列。5.根据权利要求4所述的一种专利诉讼风险预测方法,其特征在于:通过卷积神经网络得到了文本特征的向量表征,通过网络嵌入学习的方式得到元特征的向量表征;拼接文本特征的向量表征与元特征的向量表征,然后通过全连接层得到综合的专利向量表征。6.根据权利要求1所述的一种专利诉讼风险预测方法,其特征在于,所述利用专利诉讼案件数据,建立原告-被告-专利三阶张量,形成张量分解模型包...
【专利技术属性】
技术研发人员:刘淇,陈恩红,武晗,叶雨扬,杜东舫,赵洪科,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。