一种信息提取方法及系统技术方案

技术编号:25346174 阅读:16 留言:0更新日期:2020-08-21 17:05
本发明专利技术提供一种信息提取方法及系统,其中,方法包括:步骤1:获取用户输入的需求信息;步骤2:基于需求信息生成网页获取请求;步骤3:基于网页获取需求获取至少一个待提取网页;步骤4:获取预先输入的对应于需求信息的至少一个提取项;步骤5:基于提取项从待提取网页提取对应于提取项的网页信息。本发明专利技术的信息提取方法,根据用户输入的需求信息,自动获取项目发布的网页,并对网页进行分析,提取项目名称、优惠政策、评定时间、评定材料要求、申报项目的企业条件要求、项目指标要求等,实现智能分析,方便用户解读项目内容。

【技术实现步骤摘要】
一种信息提取方法及系统
本专利技术涉及信息提取
,特别涉及一种信息提取方法及系统。
技术介绍
目前,工信、发改、农业、教育、商贸都会有一些项目出台,但是这些项目有些对应的企业范围很广,一家物料公司也可以申报工信项目(物流信息化)、农业项目(助农物料);此外,不同政府层级出台的政策也存在区别。现在,企业还是需要去阅读政府网站上的项目通知,并对项目通知进行人工分析。
技术实现思路
本专利技术目的之一在于提供了一种信息提取方法,根据用户输入的需求信息,自动获取项目发布的网页,并对网页进行分析,提取项目名称、优惠政策、评定时间、评定材料要求、申报项目的企业条件要求、项目指标要求等,实现智能分析,方便用户解读项目内容。本专利技术实施例提供的一种信息提取方法,包括:步骤1:获取用户输入的需求信息;步骤2:基于需求信息生成网页获取请求;步骤3:基于网页获取需求获取至少一个待提取网页;步骤4:获取预先输入的对应于需求信息的至少一个提取项;步骤5:基于提取项从待提取网页提取对应于提取项的网页信息。优选的,提取项包括:项目名称、优惠政策、评定时间、评定材料要求、申报项目的企业条件要求、项目指标要求中一种或多种结合。优选的,需求信息包括企业名称、意向部门、意向时间、企业所属区域中一种或多种结合。优选的,信息提取方法还包括:步骤6:打开待提取网页中的附件文档,基于提取项从附件文档的内容中提取对应于提取项的文档信息;步骤7:将文档信息和网页信息填入预设模板中对应提取项的位置,做成信息提取结果并输出。优选的,附件文档包括PDF文档、DOC文档、XLS文档中一种或多种结合。优选的,基于提取项从待提取网页提取对应于提取项的网页信息,具体包括如下步骤:解析提取项,获取提取项对应的提取关键词和预设与关键词关联的至少一个特征词;解析待提取网页中的文字信息,定位关键词在待提取网页中的文字信息出现的位置,提取关键词前后预设长度的文字信息作为提取项对应的网页信息;和/或,在待提取网页中查找特征词,解析特征词前后预设长度的文字信息是否与提取项关联,当与提取项关联时提取特征词作为提取项对应的网页信息。优选的,信息提取结果中的提取项对应的网页信息和文档信息为多个,且信息提取结果还包括:每个网页信息的源网页链接和每个文档信息的源文档链接。优选的,步骤2:基于需求信息生成网页获取请求,具体包括:解析需求,获取企业名称、意向部门和企业所属区域;基于企业名称、意向部门和企业所属区域,在预先存储的网址库中确定至少一个项目发布的网址;步骤3:基于网页获取需求获取至少一个待提取网页;具体包括:打开项目发布的网址,获取发布网址中超链接的网页。优选的,信息提取方法还包括:在步骤4和步骤5之间还包括:步骤11:获取历史信息提取记录,历史提取记录中待提取网页、提取项和信息提取结果一一对应存储;步骤12:当待提取网页未在历史信息提取记录中时,直接根据待提取网页和提取项从历史信息提取记录中获取信息提取结果;步骤13:当待提取网页未在历史信息提取记录中时,执行步骤5。本专利技术还提供一种信息提取系统,包括:需求获取模块,用于获取用户输入的需求信息;网页获取请求模块,用于基于需求信息生成网页获取请求;网页获取模块,用于基于网页获取需求获取至少一个待提取网页;提取项确定模块,用于获取预先输入的对应于需求信息的至少一个提取项;网页信息提取模块,用于基于提取项从待提取网页提取对应于提取项的网页信息;文档信息提取模块,用于打开待提取网页中的附件文档,基于提取项从附件文档的内容中提取对应于提取项的文档信息;信息提取结果输出模块,用于将文档信息和网页信息填入预设模板中对应提取项的位置,做成信息提取结果并输出。优选的,提取项包括:项目名称、优惠政策、评定时间、评定材料要求、申报项目的企业条件要求、项目指标要求中一种或多种结合。优选的,需求信息包括企业名称、意向部门、意向时间、企业所属区域中一种或多种结合。优选的,附件文档包括PDF文档、DOC文档、XLS文档中一种或多种结合。优选的,网页信息提取模块执行包括如下步骤:解析提取项,获取提取项对应的提取关键词和预设与关键词关联的至少一个特征词;解析待提取网页中的文字信息,定位关键词在待提取网页中的文字信息出现的位置,提取关键词前后预设长度的文字信息作为提取项对应的网页信息;和/或,在待提取网页中查找特征词,解析特征词前后预设长度的文字信息是否与提取项关联,当与提取项关联时提取特征词作为提取项对应的网页信息。优选的,信息提取结果中的提取项对应的网页信息和文档信息为多个,且信息提取结果还包括:每个网页信息的源网页链接和每个文档信息的源文档链接。优选的,网页获取请求模块执行包括如下操作:解析需求,获取企业名称、意向部门和企业所属区域;基于企业名称、意向部门和企业所属区域,在预先存储的网址库中确定至少一个项目发布的网址;网页获取模块执行包括如下操作:打开项目发布的网址,获取发布网址中超链接的网页。优选的,信息提取系统还包括历史信息获取模块,用于获取历史信息提取记录,历史提取记录中待提取网页、提取项和信息提取结果一一对应存储;查询模块,用于当待提取网页未在历史信息提取记录中时,直接根据待提取网页和提取项从历史信息提取记录中获取信息提取结果;当待提取网页未在历史信息提取记录中时,转给网页信息提取模块进行处理。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例中一种信息提取方法的示意图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。本专利技术实施例提供了一种信息提取方法,如图1所示,包括:步骤1:获取用户输入的需求信息;需求信息包括:企业名称、意向部门、意向时间、企业所属区域等,需求信息获取手段可以在用户注册时采用采集表的形式,采集企业名称、意向部门、意向时间、企业所属区域;此外还可采集企业的详情,例如:企业规模、研发人员数量、正在进行的项目和已经获得的项目等。步骤2:基于需求信息生成网页获取请求;主要是根据企业所属区域,从预设的项目发布网址目录上挑本文档来自技高网...

【技术保护点】
1.一种信息提取方法,其特征在于,包括:/n步骤1:获取用户输入的需求信息;/n步骤2:基于所述需求信息生成网页获取请求;/n步骤3:基于所述网页获取需求获取至少一个待提取网页;/n步骤4:获取预先输入的对应于所述需求信息的至少一个提取项;/n步骤5:基于所述提取项从所述待提取网页提取对应于所述提取项的网页信息。/n

【技术特征摘要】
1.一种信息提取方法,其特征在于,包括:
步骤1:获取用户输入的需求信息;
步骤2:基于所述需求信息生成网页获取请求;
步骤3:基于所述网页获取需求获取至少一个待提取网页;
步骤4:获取预先输入的对应于所述需求信息的至少一个提取项;
步骤5:基于所述提取项从所述待提取网页提取对应于所述提取项的网页信息。


2.如权利要求1所述的一种信息提取方法,其特征在于,所述提取项包括:项目名称、优惠政策、评定时间、评定材料要求、申报项目的企业条件要求、项目指标要求中一种或多种结合。


3.如权利要求1所述的一种信息提取方法,其特征在于,所述需求信息包括企业名称、意向部门、意向时间、企业所属区域中一种或多种结合。


4.如权利要求1所述的一种信息提取方法,其特征在于,还包括:
步骤6:打开所述待提取网页中的附件文档,基于所述提取项从所述附件文档的内容中提取对应于所述提取项的文档信息;
步骤7:将所述文档信息和所述网页信息填入预设模板中对应所述提取项的位置,做成信息提取结果并输出。


5.如权利要求4所述的一种信息提取方法,其特征在于,所述附件文档包括PDF文档、DOC文档、XLS文档中一种或多种结合。


6.如权利要求1所述的一种信息提取方法,其特征在于,基于所述提取项从所述待提取网页提取对应于所述提取项的网页信息,具体包括如下步骤:
解析所述提取项,获取提取项对应的提取关键词和预设与所述关键词关联的至少一个特征词;
解析所述待提取网页中的文字信息,定位所述关键词在所述待提取网页中的文字信息出现的位置,提取关键词前后预设长度的文字信息作为所述提取项对应的网页信息;
和/或,
在所述待提取网页中查找特征词,解析所述特征词前后预设长度的文字信息是否与所述提取项关联,当与所述提取项关联时提取所述特征词作为所述提取项对应的网页信息。


7.如权利要求4...

【专利技术属性】
技术研发人员:崔旭明
申请(专利权)人:广州启鹏信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1