自动生成专利检索报告的方法及装置制造方法及图纸

技术编号:38941362 阅读:12 留言:0更新日期:2023-09-25 09:40
本发明专利技术公开了一种自动生成专利检索报告的方法及装置,该方法包括:获取本方案信息、以及至少一件专利对比文件;对所述专利对比文件进行文本抽取,得到各文本单元;对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元;将所述信息单元输入预训练得到的对比分析模型,得到对比分析结果;根据所述专利对比文件、所述本方案信息及所述对比分析结果生成报告内容;将所述报告内容及相关信息填充到检索报告模板中,生成专利检索报告。利用本发明专利技术方案,可以提升检索报告生成的效率和准确性。可以提升检索报告生成的效率和准确性。可以提升检索报告生成的效率和准确性。

【技术实现步骤摘要】
自动生成专利检索报告的方法及装置


[0001]本专利技术涉及信息处理
,具体涉及一种自动生成专利检索报告的方法及装置。

技术介绍

[0002]随着全球对科技的重视,知识产权对于企业的发展起到的作用越来越大,同时在应对科技自主可控的时代背景下,企业对自身专利的申请越来越重要。在专利申请过程中,一般需要专利技术人提供专利检索报告及技术交底书。其中专利检索报告的编写一般包含三个阶段:一是根据交底书方向拟订关键词进行专利文献筛选;二是专利技术人对筛选的专利文献进行阅读分析,并提炼其关键技术信息;三是根据以上信息编写检索报告,并完成对相似专利的技术对比分析,并形成结论。
[0003]目前,大部分企业检索报告编写流程仍然是人工处理过程,这将浪费专利技术人大量的时间。随着信息化、数字的发展,对于检索报告的生成,辅助人工生成报告的技术主要为模板技术方案,其主要实现过程如下:(1)依据检索报告制作模板;(2)根据当前企业信息、专利技术人信息以及交底书方向,填充检索报告的基本信息;(3)根据检索报告对现有技术分析,预留分析内容位置;(4)预留检索报告最终结论位置;(5)当用户提交生成检索报告请求时,依据模板填充必要的信息,并自动生成检索报告word文档;(6)专利技术人拿到模板报告后,添加对现有技术的分析章节,同时添加结论。
[0004]上述采用模板撰写检索报告的方案,虽然节省了一定的检索报告撰写时间投入,但这种方案仅能生成通用的结构化信息,而对于技术对比分析、检索结论仍然需要专利技术人手工编写,这需要耗费专利技术人大量的时间和精力。虽然从数字化技术方向可以节省一些时间的投入,但是仍然无法解决自动提炼现有技术信息,并完成对比分析结论,仍然需要专利技术人投入时间和精力。

技术实现思路

[0005]本专利技术提供一种自动生成专利检索报告的方法及装置,提升专利检索报告生成的效率。
[0006]为此,本专利技术提供如下技术方案:一种自动生成专利检索报告的方法,所述方法包括:获取本方案信息、以及至少一件专利对比文件;对所述专利对比文件进行文本抽取,得到各文本单元;对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元;利用所述信息单元及预训练得到的对比分析模型对所述本方案信息进行对比分析,得到对比分析结果;根据所述专利对比文件、所述本方案信息及所述对比分析结果得到报告内容;将所述报告内容及相关信息填充到检索报告模板中,生成专利检索报告。
[0007]可选地,所述方法还包括:制定信息单元标准;所述对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元包括:按照制定的信息单元标准对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元。
[0008]可选地,所述方法还包括:按照以下方式构建所述对比分析模型:收集公开的专利检索报告信息,生成训练集;确定对比分析模型的拓扑结构,所述拓扑结构包括:输入层、语义向量编码层、全连接层、锚定预测层、softmax层、卷积层、输出层;利用所述训练集训练得到对比分析模型。
[0009]可选地,所述利用所述训练集训练得到对比分析模型包括:对所述训练集进行技术方向分类,得到对应各技术方向的训练子集;利用对应各技术方向的训练子集训练得到对应所述技术方向的对比分析模型。
[0010]可选地,所述根据所述专利对比文件、所述本方案信息及所述对比分析结果得到报告内容包括:从所述专利对比文件中提取核心语句,根据所述核心语句生成现有技术总体概要;根据所述本方案信息,生成本方案总体概要及核心技术概要;将所述现有技术总体概要、所述本方案总体概要及核心技术概要、所述对比分析结果输入预先训练的语言模型,生成检索结论。
[0011]可选地,所述方法还包括:按照以下方式构建所述语言模型:收集公开的专利检索报告及其相关的专利对比文件;对所述相关的专利对比文件进行文本抽取及碎片化拆分处理,得到不同粒度的信息单元;对所述信息单元进行文字分割及编码处理,得到不同类型的词汇;对所述词汇进行封装,产生张量数据;确定语言模型的拓扑结构,所述拓扑结构包括LSTM模型和FCN网络;利用所述词汇及所述张量数据训练得到语言模型。
[0012]可选地,所述对所述词汇进行封装,产生张量数据包括:将所述词汇转换为二维数组,产生张量数据。
[0013]一种自动生成专利检索报告的装置,所述装置包括:信息获取模块,用于获取本方案信息、以及至少一件专利对比文件;文本抽取模块,用于对所述专利对比文件进行文本抽取,得到各文本单元;拆分模块,用于对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元;对比分析模块,用于利用所述信息单元及预训练得到的对比分析模型对所述本方案信息进行对比分析,得到对比分析结果;内容生成模块,用于根据所述专利对比文件、所述本方案信息及所述对比分析结果得到报告内容;检索报告生成模块,用于将所述报告内容及相关信息填充到检索报告模板中,生成专利检索报告。
[0014]可选地,所述装置还包括:对比模型构建模块,用于构建所述对比分析模型;所述对比模型构建模块包括:第一采集单元,用于收集公开的专利检索报告信息,生成训练集;模型结构设计单元,用于确定对比分析模型的拓扑结构,所述拓扑结构包括:输入层、语义向量编码层、全连接层、锚定预测层、softmax层、卷积层、输出层;第一训练单元,用于利用所述训练集训练得到对比分析模型。
[0015]可选地,所述装置还包括:语言模型构建模块,用于构建所述语言模型;所述语言模型构建模块包括:第二采集单元,用于收集公开的专利检索报告及其相关的专利对比文件;信息处理单元,用于对所述相关的专利对比文件进行文本抽取及碎片化拆分处理,得到不同粒度的信息单元;文本处理单元,用于对所述信息单元进行文字分割及编码处理,得到不同类型的词汇;封装单元,用于对所述词汇进行封装,生成张量数据;网络设计单元,用于确定语言模型的拓扑结构,所述拓扑结构包括LSTM模型和FCN网络;第二训练单元,用于利用所述词汇及所述张量数据训练得到语言模型。
[0016]本专利技术提供的自动生成专利检索报告的方法及装置,通过对检索到的专利对比文件进行文本抽取、对抽取得到的文本单元进行碎片化拆分处理,得到不同粒度的信息单元;基于这些信息单元利用对比分析模型,自动生成对比分析结果,然后利用专利对比文件、所述本方案信息及所述对比分析结果生成报告内容,将这些内容填充到检索报告模板中,生成最终的专利检索报告。利用本专利技术方案,无需用户自己撰写报告内容,大大节省了用户时间和精力,提升了专利检索报告的生成效率。
[0017]进一步地,本专利技术方案通过对专利对比文件进行碎片化处理,为机器分析提供更细粒度的信息单元,在机器进行分析时将能够提升工作效率;而且,通过BERT训练模型,可以根据碎片化信息单元提炼出技术核心,将提炼的信息单元作为对现有技术的分析,应用到检索报告中。另外,应用LSTM模型,使机器具备了写作能力,从而能够自动完成检索结论的生成。
[0018]相较于现有技术,本专利技术方案具有以下优点:(1)引入专利文件碎片化处理技术,对专利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动生成专利检索报告的方法,其特征在于,所述方法包括:获取本方案信息、以及至少一件专利对比文件;对所述专利对比文件进行文本抽取,得到各文本单元;对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元;利用所述信息单元及预训练得到的对比分析模型对所述本方案信息进行对比分析,得到对比分析结果;根据所述专利对比文件、所述本方案信息及所述对比分析结果得到报告内容;将所述报告内容及相关信息填充到检索报告模板中,生成专利检索报告。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:制定信息单元标准;所述对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元包括:按照制定的信息单元标准对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:按照以下方式构建所述对比分析模型:收集公开的专利检索报告信息,生成训练集;确定对比分析模型的拓扑结构,所述拓扑结构包括:输入层、语义向量编码层、全连接层、锚定预测层、softmax层、卷积层、输出层;利用所述训练集训练得到对比分析模型。4.根据权利要求3所述的方法,其特征在于,所述利用所述训练集训练得到对比分析模型包括:对所述训练集进行技术方向分类,得到对应各技术方向的训练子集;利用对应各技术方向的训练子集训练得到对应所述技术方向的对比分析模型。5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述专利对比文件、所述本方案信息及所述对比分析结果得到报告内容包括:从所述专利对比文件中提取核心语句,根据所述核心语句生成现有技术总体概要;根据所述本方案信息,生成本方案总体概要及核心技术概要;将所述现有技术总体概要、所述本方案总体概要及核心技术概要、所述对比分析结果输入预先训练的语言模型,生成检索结论。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:按照以下方式构建所述语言模型:收集公开的专利检索报告及其相关的专利对比文件;对所述相关的专利对比文件进行文本抽取及碎片化拆分处理,得到不同粒度的信息单元;对所述信息单元进行文字分割及编码处理,得到不同类型的...

【专利技术属性】
技术研发人员:李小磊
申请(专利权)人:卓望信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1