System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于信息处理,具体涉及一种文本分类技术。
技术介绍
1、
2、许多研究人员已经提出了各种各样的基于机器学习和深度学习的方法来解决这个问题,但现有技术对专利文献的授权预测专注于预测对象本身,并不能充分利用已公开的授权信息,从而导致预测的准确率下降。
技术实现思路
1、本专利技术为解决现有专利审查过程中存在的无法全面检索并使用与专利文献相关的公开的现有技术从而导致预测的准确率下降的问题。
2、一种专利授权预测方法,所述方法包括:
3、根据待测专利文献的说明书,获取待测专利文献的摘要,对所述专利文献的摘要的文本进行向量化,得到所述摘要的向量;
4、根据所述摘要的向量,计算待测专利文献的余弦和公开专利文献数据集的余弦相似度;
5、选取n篇与待测专利文献的余弦相似度最高的公开专利文献;
6、采用bert模型训练所述待测专利文献和选取出的公开专利文献,得到处理后文本和选取出的公开专利文献的向量表示;
7、采集所述选取出的公开专利文献的主题;
8、计算所述选取出的公开专利文献与其主题向量的距离,作为数据分布表示;
9、将所述选取出的公开专利文献的向量表示、主题和数据分布表示作为卷积层的输入,通过卷积层、池化层和全连接层获得专利文献授权预测结果。
10、进一步地,利用tf-idf进行向量化;
11、进一步地,所述选取的n篇公开专利文献中10≦n≦20;
>12、进一步地,所述选取出的公开专利文献的主题采用k-means和基于类的tf-idf提取;
13、进一步地,采用bert模型训练所述待测专利文献和选取出的公开专利文献包括:对所述待测专利文献和选取出的公开专利文献进行预处理,所述预处理包括:去停用词和标点符号;
14、进一步地,所述预处理还包括:将bert中最后一个transformer层的输出作为句子的embedding;
15、进一步地,所述获得专利文献授权预测结果包括:使用tanh作为激活函数;使用layer normalization实现归一化。
16、本专利技术还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行上述的一种专利授权预测方法。
17、本专利技术还提供一种计算机可读存储介质,所述存储介质用于储存计算机程序,所述计算机程序执行上述的一种专利授权预测方法。
18、本专利技术还提供一种专利授权预测系统,所述系统包括:
19、向量获取模块:用于根据待测专利文献的说明书,获取待测专利文献的摘要,对所述专利文献的摘要的文本进行向量化,得到所述摘要的向量;
20、余弦计算模块:用于根据所述摘要的向量,计算待测专利文献的余弦和公开专利文献数据集的余弦相似度;
21、专利文献选取模块:用于选取n篇与待测专利文献的余弦相似度最高的公开专利文献;
22、模型训练模块:用于采用bert模型训练所述待测专利文献和选取出的公开专利文献,得到处理后文本和选取出的公开专利文献的向量表示;
23、主题采集模块:用于采集所述选取出的公开专利文献的主题;
24、距离计算模块:用于计算所述选取出的公开专利文献与其主题向量的距离,作为数据分布表示;
25、结果获取模块:用于将所述选取出的公开专利文献的向量表示、主题和数据分布表示作为卷积层的输入,通过卷积层、池化层和全连接层获得专利文献授权预测结果。
26、本专利技术的有益效果:
27、本专利技术提出了一种新的基于专利文献主题信息增强的授权预测方法,该方法将可能对输入专利文献产生影响的已公开专利文献一同组织为模型输入,结合预训练语言模型、聚类技术和卷积网络一同实现。预训练语言模型具有很好的学习能力,学习到的句子向量具有语义属性,它们使文本的意义可以被编码。
28、本专利技术所设计的基于主题信息增强的专利授权预测方法,首先通过bert获取输入文本向量,并通过k-means对输入文本进行聚类,再通过c-tf-idf提取出每个簇的主题向量,将每个文本的向量表示、每个簇的主题向量、每个文本向量距离簇中心的距离三种特征拼接作为对主题信息的增强。该特征向量中包含了专利文献的语义信息、主题信息和分布信息。进一步将提取的特征向量输入到多层卷积中,充分提取其中的特征,通过对主题信息的增强和卷积神经网络的结合,提高模型在专利授权预测任务中的性能和效率,并且能够辅助工作人员对专利文献进行审查工作。
29、本专利技术提出的模型在真实数据集上的准确率可达71.5%。
30、本专利技术适用于专利授权率的预测场景。
本文档来自技高网...【技术保护点】
1.一种专利授权预测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种专利授权预测方法,其特征在于,利用TF-IDF进行向量化。
3.根据权利要求1所述的一种专利授权预测方法,其特征在于,10≦N≦20。
4.根据权利要求1所述的一种专利授权预测方法,其特征在于,所述选取出的公开专利文献的主题采用K-Means和基于类的TF-IDF提取。
5.根据权利要求1所述的一种专利授权预测方法,其特征在于,采用BERT模型训练所述待测专利文献和选取出的公开专利文献包括:对所述待测专利文献和选取出的公开专利文献进行预处理,所述预处理包括:去停用词和标点符号。
6.根据权利要求5所述的一种专利授权预测方法,其特征在于,所述预处理还包括:将BERT中最后一个Transformer层的输出作为句子的embedding。
7.根据权利要求1所述的一种专利授权预测方法,其特征在于,所述获得专利文献授权预测结果包括:使用tanh作为激活函数;使用Layer Normalization实现归一化。
8.一种计算
9.一种计算机可读存储介质,其特征在于,所述存储介质用于储存计算机程序,所述计算机程序执行权利要求1-7中任意一项所述的一种专利授权预测方法。
10.一种专利授权预测系统,其特征在于,所述系统包括:
...【技术特征摘要】
1.一种专利授权预测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种专利授权预测方法,其特征在于,利用tf-idf进行向量化。
3.根据权利要求1所述的一种专利授权预测方法,其特征在于,10≦n≦20。
4.根据权利要求1所述的一种专利授权预测方法,其特征在于,所述选取出的公开专利文献的主题采用k-means和基于类的tf-idf提取。
5.根据权利要求1所述的一种专利授权预测方法,其特征在于,采用bert模型训练所述待测专利文献和选取出的公开专利文献包括:对所述待测专利文献和选取出的公开专利文献进行预处理,所述预处理包括:去停用词和标点符号。
6.根据权利要求5所述的一种专利授权预测方法,其特征在于,所述预处理还包括:将b...
【专利技术属性】
技术研发人员:杨沐昀,刘勐,何明睿,曹海龙,徐冰,朱聪慧,赵铁军,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。