System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文档识别处理,具体涉及一种专利附图智能标引方法及系统。
技术介绍
1、《专利审查指南》规定:“附图标记应当使用阿拉伯数字编号”。在通过专利说明书附图了解技术方案时,还需要阅读者通过阿拉伯数字编号来对照文本内容,提取附图中的部件名称。在专利申请文件内容较多情况下,不方便检查附图标记及其映射的部件名称是否正确,存在对照说明书文本和附图标记费时费力,审核效率低下且容易出错的问题。
2、名称为“一种专利智能附图生成方法和系统”、公开号为cn116168411a的中国专利文本中,通过识别出附图文件中的附图标记、识别出说明书文件中的特征标记、特征名词,并获取到特征标记和特征名词之间的对应关系,通过将附图文件中的附图标记和说明书中的特征标记进行匹配,从而使得附图文件中的附图标记能够对应到说明书文件中的特征名词,进而将附图标记所表达的特征名词展示在附图文件中。通过该方法,附图标记所表达的意思能够被清楚展示,提高了审核人员在阅读时的体验。
3、该专利申请方案采用提取特征标记和特征名词并建立特征标记和特征名词之间的匹配关系,针对专利申请说明书文件中,可能会存在因撰写出错导致不同的特征标记对应到同样的特征名词,或者是不同的特征名词对应同样的特征标记,在说明书的预设片段集合中,获取局部词组相同的词组对中不相同的词组类型的出现次数,利用出现次数最多的词组对,大概率排除因撰写出错导致存在较多局部词组对的问题,提高词组对的匹配准确性。但也忽略了特征名词和特征标记之间也会存在一对多映射关系的实际情况。
4、名称
5、所公开的一种专利附图标记识别方法,完全基于规则实现附图标记说明抽取,缺少基于模型抽取方法的泛化能力。还有,其提出的针对一个标记抽取到多个附图标记说明后将搜索到的量最多的附图标记说明确定为最终的附图标记说明的方法,不一定适合实际场景,因为附图标记和标记说明在有的专利中存在一对多的映射关系,与实际情况不符。例如“可填充流体的囊系统、焊接工具和运行焊接工具的方法”(公开号为cn112622722b的中国专利公开文本)附图1中的编号9在专利文本中存在“开口9”和“空气供应系统9”的一对多映射关系。再如“一种金属板带材热处理烘干装置”(公开号为cn111947428b的中国专利文本)出现“金属板带材3”“金属板带板3”的表述,编号3对应两个部件名称“金属板带材”和“金属板带板”。提出附图标记说明的单词个数根据到目前为止累积的附图标记说明数据限定为预设个数,即统计附图标记说明数据库中所有标记说明复合词的单词个数,将统计学上的提取比率/概率低的单词个数设为限定个数,将最多四个单词作为附图标记说明,经统计计算的阈值依赖基于其积累的数据库的分布,将长于5个单词的附图标记说明都被丢弃,限制数字左侧字符数量提取标记说明,复合词类型的标记说明提取仍需研究更精准高效的提取方法。
技术实现思路
1、鉴于此,本专利技术提供的一种专利附图智能标引方法及系统,以提升审查效率的同时增强了用户阅读体验。
2、为了实现上述目的,本专利技术提供如下技术方案:
3、本专利技术一方面,提供一种专利附图智能标引方法,包括:
4、步骤a1,从专利说明书的专利附图标记说明中抽取附图标记对;
5、步骤b1,利用命名实体识别ner模型从专利文本中抽取部件名称;
6、步骤b2,采用狮王系列算法匹配附图标记并构建附图标记对;
7、步骤c,将步骤b2中命名实体识别ner模型抽取得到的附图标记对,与步骤a1规则抽取到的附图标记对进行融合;
8、步骤d,专利附图的附图标记链接并于指定位置显示部件名称;
9、步骤e,专利说明书中的部件名称链接相关附图及附图标记。
10、更适宜地,所述步骤a1从专利说明书的专利附图标记说明中抽取附图标记对,通过如下步骤实现:
11、步骤a11,整理分割用标点符号,构建分割标点符号列表,构建部件名称及其附图标记间隔符列表;
12、步骤a12,利用分割标点符号列表separator_lst分割得到部件名称及其附图标记的字符串列表。
13、步骤a13,利用部件名称及其附图标记间隔符号列表interval_lst分割得到部件名称和附图标记。
14、更适宜地,当通过步骤a12无法分割得到部件名称及其附图标记,则通过正则表达式过滤前缀和后缀附图标记方法获取。
15、其中,ner模型包括:ner模型架构、ner模型训练、ner模型应用,
16、所述ner模型架构,包括:大模型向量化层、双向长短期神经网络层和标签序列预测层;
17、所述ner模型训练所用数据集采用照预定格式;
18、所述ner模型训练,应用ner模型预测部件名称。
19、其中,所述狮王系列算法包括狮王领地视察算法、狮王圈地算法”和狮王竞选算法。
20、优选地,步骤d,具体包括:
21、输入附图标记映射到部件名称的字典marks_num2ch和附图,输出含有部件名称的附图,实现专利附图的附图标记链接并于指定位置显示部件名称的功本文档来自技高网...
【技术保护点】
1.一种专利附图智能标引方法,其特征在于,包括:
2.如权利要求1所述的专利附图智能标引方法,其特征在于,其中步骤A1,所述从专利说明书的专利附图标记说明中抽取附图标记对,通过如下步骤实现:
3.如权利要求1所述的专利附图智能标引方法,其特征在于,
4.如权利要求1所述的专利附图智能标引方法,其特征在于,所述NER模型,包括:NER模型架构、NER模型训练、NER模型应用,
5.如权利要求1所述的专利附图智能标引方法,其特征在于,
6.如权利要求1所述的专利附图智能标引方法,其特征在于,
7.如权利要求1所述的专利附图智能标引方法,其特征在于,
8.一种专利附图智能标引系统,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器和至少一个存储器;
10.计算机可读存储介质,其特征在于,所述计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被执行如权利要求1-7中任一项所述的方法。
【技术特征摘要】
1.一种专利附图智能标引方法,其特征在于,包括:
2.如权利要求1所述的专利附图智能标引方法,其特征在于,其中步骤a1,所述从专利说明书的专利附图标记说明中抽取附图标记对,通过如下步骤实现:
3.如权利要求1所述的专利附图智能标引方法,其特征在于,
4.如权利要求1所述的专利附图智能标引方法,其特征在于,所述ner模型,包括:ner模型架构、ner模型训练、ner模型应用,
5.如权利要求1所述的专利附图智能标引方法,其特...
【专利技术属性】
技术研发人员:冯好国,范娥媚,徐青伟,严长春,裴非,
申请(专利权)人:北京星河智源科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。