一种从文献中提取关键信息的方法和装置制造方法及图纸

技术编号:21034101 阅读:19 留言:0更新日期:2019-05-04 05:22
本申请公开了一种从文献中提取关键信息的方法及装置,基于第二历史文献与第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系,对机器学习模型进行训练。在完成对机器学习模型的训练后,可以对机器学习模型进行测试,确定机器学习模型的输出结果是否符合要求,若是,则认为目标位置片段中的信息在查重检索的过程中较为重要,则可以将目标位置片段作为信息提取片段,从目标文献的目标位置片段提取用于对目标文献进行查重检索的关键信息。由于用于提取关键信息的机器学习模型经过训练和测试,因此关键信息较为准确,同时,关键信息是自动提取的,相比于人工提取来说,提高了提取效率,从而提供文献查重的效率。

A Method and Device for Extracting Key Information from Documents

【技术实现步骤摘要】
一种从文献中提取关键信息的方法和装置
本申请涉及信息处理
,特别是涉及一种从文献中提取关键信息的方法和装置。
技术介绍
对于一些文献来说,存在查重的需求。例如,对于专利文献来说,在许多情况下需要查找影响其新颖性或创造性的对比文件,该专利文献与其对比文件描述了相同或相似的技术方案。又如,对于论文来说,在许多情况下需要查找与该论文阐述了相同技术思想的其他文献。在对文献进行查重时,需要从文献中提取出关键信息,以使用关键信息进行查重检索。目前,关键信息主要依靠人工提取,即人工阅读文献并从文献中提取出合适的关键信息。但人工提取关键信息的效率较低,不仅要耗费过多的人工成本,而且还会导致文献查重的效率低下。
技术实现思路
本申请所要解决的技术问题是,提供一种从文献中提取关键信息的方法和装置,以降低关键信息提取时人工需要花费的工作量,提高关键信息的提取效率,从而提高文献查重的效率。本申请实施例提供了一种从文献中提取关键信息的方法,包括:从第一历史文献的目标位置片段中提取第一信息,并将所述第一信息输入到机器学习模型中,得到所述机器学习模型输出的第二信息;其中,所述机器学习模型已基于第二历史文献与所述第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系进行了训练;从所述第一历史文献的已知查重文献的目标位置片段中提取第三信息并根据所述第二信息与所述第三信息的相似程度,确定所述目标位置片段是否作为信息提取片段;若所述目标位置片段作为信息提取片段,从目标文献的目标位置片段提取用于对所述目标文献进行查重检索的关键信息。可选的,所述机器学习模型具体为机器翻译模型。可选的,所述目标文献、所述第一历史文献和所述第二历史文献均为专利文献;所述第一历史文献的已知查重文献为用于评价所述第一历史文献的新颖性或创造性的对比文件;所述第二历史文献的已知查重文献为用于评价所述第二历史文献的新颖性或创造性的对比文件。可选的,所述第一历史文献的已知查重文献具体为在所述第一历史文献的驳回决定中使用的对比文件;所述第二历史文献的已知查重文献具体为在所述第二历史文献的驳回决定中使用的对比文件。可选的,所述第一历史文献的已知查重文献具体为在所述第一历史文献的无效决定中使用的对比文件;所述第二历史文献的已知查重文献具体为在所述第二历史文献的无效决定中使用的对比文件。可选的,所述第一历史文献、所述第二历史文献和所述目标文献均属于相同的
可选的,所述方法还包括:根据所述关键信息针对所述目标位置片段检索技术文献;其中,检索到的技术文献在所述目标位置片段匹配所述关键信息;按照所述检索到的技术文献与所述关键信息的相关程度,呈现所述检索到的技术文献,作为所述目标文献的查重结果。本申请实施例还提供了一种从文献中提取关键信息的装置,包括:第二信息获取单元,用于从第一历史文献的目标位置片段中提取第一信息,并将所述第一信息输入到机器学习模型中,得到所述机器学习模型输出的第二信息;其中,所述机器学习模型已基于第二历史文献与所述第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系进行了训练;信息提取片段确定单元,用于从所述第一历史文献的已知查重文献的目标位置片段中提取第三信息并根据所述第二信息与所述第三信息的相似程度,确定所述目标位置片段是否作为信息提取片段;关键信息提取单元,用于若所述目标位置片段作为信息提取片段,从目标文献的目标位置片段提取用于对所述目标文献进行查重检索的关键信息。可选的,所述机器学习模型具体为机器翻译模型。可选的,所述目标文献、所述第一历史文献和所述第二历史文献均为专利文献;所述第一历史文献的已知查重文献为用于评价所述第一历史文献的新颖性或创造性的对比文件;所述第二历史文献的已知查重文献为用于评价所述第二历史文献的新颖性或创造性的对比文件。可选的,所述第一历史文献的已知查重文献具体为在所述第一历史文献的驳回决定中使用的对比文件;所述第二历史文献的已知查重文献具体为在所述第二历史文献的驳回决定中使用的对比文件。可选的,所述第一历史文献的已知查重文献具体为在所述第一历史文献的无效决定中使用的对比文件;所述第二历史文献的已知查重文献具体为在所述第二历史文献的无效决定中使用的对比文件。可选的,所述第一历史文献、所述第二历史文献和所述目标文献均属于相同的
可选的,所述装置还包括:检索单元,用于根据所述关键信息针对所述目标位置片段检索技术文献;其中,检索到的技术文献在所述目标位置片段匹配所述关键信息;呈现单元,用于按照所述检索到的技术文献与所述关键信息的相关程度,呈现所述检索到的技术文献,作为所述目标文献的查重结果。本申请实施例还提供了一种从文献中提取关键信息的设备,所述设备包括处理器以及存储器;所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器,用于根据所述程序代码中的指令执行本申请实施例提供的一种从文献中提取关键信息的方法。本申请实施例还提供了一种计算机可读存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行本申请实施例提供的一种从文献中提取关键信息的方法。与现有技术相比,本申请实施例具有以下优点:基于第二历史文献与第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系,对机器学习模型进行训练。在完成对机器学习模型的训练后,可以对机器学习模型进行测试,具体的,可以从第一历史文献的目标位置片段中提取第一信息,并将第一信息输入到训练完成的机器学习模型,得到机器学习模型输出的第二信息,从第一历史文献的已知查重文献的目标位置片段中提第三信息,根据第二信息和第三信息的相似程度,确定机器学习模型的输出结果是否符合要求,若是,则认为目标位置片段中的信息在查重检索的过程中较为重要,则可以将目标位置片段作为信息提取片段。若目标位置片段作为信息提取片段,则可以从目标文献的目标位置片段提取用于对目标文献进行查重检索的关键信息,由于用于提取关键信息的机器学习模型经过训练和测试,因此关键信息较为准确,同时,关键信息是自动提取的,相比于人工提取来说,提高了提取效率,从而提供文献查重的效率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例中一种从文献中提取关键信息的方法的流程图;图2为本申请实施例提供的一种训练模型的示意图;图3为本申请实施例提供的一种从文献中提取关键信息的装置的结构框图;图4为本申请实施例提供的一种从文献中提取关键信息的设备的结构框图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。对于一些文献来说,存在查重的需求,从而判断是否存在与该文献具有相同技术思想的方案。具体来说,文献可以包括专本文档来自技高网
...

【技术保护点】
1.一种从文献中提取关键信息的方法,其特征在于,包括:从第一历史文献的目标位置片段中提取第一信息,并将所述第一信息输入到机器学习模型中,得到所述机器学习模型输出的第二信息;其中,所述机器学习模型已基于第二历史文献与所述第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系进行了训练;从所述第一历史文献的已知查重文献的目标位置片段中提取第三信息并根据所述第二信息与所述第三信息的相似程度,确定所述目标位置片段是否作为信息提取片段;若所述目标位置片段作为信息提取片段,从目标文献的目标位置片段提取用于对所述目标文献进行查重检索的关键信息。

【技术特征摘要】
1.一种从文献中提取关键信息的方法,其特征在于,包括:从第一历史文献的目标位置片段中提取第一信息,并将所述第一信息输入到机器学习模型中,得到所述机器学习模型输出的第二信息;其中,所述机器学习模型已基于第二历史文献与所述第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系进行了训练;从所述第一历史文献的已知查重文献的目标位置片段中提取第三信息并根据所述第二信息与所述第三信息的相似程度,确定所述目标位置片段是否作为信息提取片段;若所述目标位置片段作为信息提取片段,从目标文献的目标位置片段提取用于对所述目标文献进行查重检索的关键信息。2.根据权利要求1所述的方法,其特征在于,所述机器学习模型具体为机器翻译模型。3.根据权利要求1所述的方法,其特征在于,所述目标文献、所述第一历史文献和所述第二历史文献均为专利文献;所述第一历史文献的已知查重文献为用于评价所述第一历史文献的新颖性或创造性的对比文件;所述第二历史文献的已知查重文献为用于评价所述第二历史文献的新颖性或创造性的对比文件。4.根据权利要求3所述的方法,其特征在于,所述第一历史文献的已知查重文献具体为在所述第一历史文献的驳回决定中使用的对比文件;所述第二历史文献的已知查重文献具体为在所述第二历史文献的驳回决定中使用的对比文件。5.根据权利要求3所述的方法,其特征在于,所述第一历史文献的已知查重文献具体为在所述第一历史文献的无效决定中使用的对比文件;所述第二历史文献的已知查重文献具体为在所述第二历史文献的无效决定中使用的对比文件。6.根据权利要求1所...

【专利技术属性】
技术研发人员:赵耕弘汤一凡崔朝辉赵立军张霞
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1