本发明专利技术公开了一种票号信息提取导出方法、系统以及出票系统。该票号信息提取导出方法,包括以下步骤:导入包含数据源的EXCEL文件,数据源包括票号数据;根据票号数据生成URL链接组;根据链接组抓取网页,并判断抓取的网页中的URL是否合法,将合法的URL写入运行队列;对运行队列中的URL,调取相应票号信息页面;从调取的页面中抓取信息句柄,将其转换为预设形式的回填数据;将回填数据回填至EXCEL文件中然后导出。本发明专利技术的票号信息提取导出方法、系统以及出票系统,能够在提取、导出票号信息时自动批量进行处理,提取数据的数据源,抓取所需信息回填至表格中,提高了票号信息提取和导出的效率,节省了人力成本。
【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种票号信息提取导出方法、系统以及出票系统。该票号信息提取导出方法,包括以下步骤:导入包含数据源的EXCEL文件,数据源包括票号数据;根据票号数据生成URL链接组;根据链接组抓取网页,并判断抓取的网页中的URL是否合法,将合法的URL写入运行队列;对运行队列中的URL,调取相应票号信息页面;从调取的页面中抓取信息句柄,将其转换为预设形式的回填数据;将回填数据回填至EXCEL文件中然后导出。本专利技术的票号信息提取导出方法、系统以及出票系统,能够在提取、导出票号信息时自动批量进行处理,提取数据的数据源,抓取所需信息回填至表格中,提高了票号信息提取和导出的效率,节省了人力成本。【专利说明】票号信息提取导出方法、系统以及出票系统
本专利技术涉及一种票号信息提取导出方法、系统以及出票系统。
技术介绍
现有的票号信息的提取和导出过程十分复杂,需要依赖于人员手工操作,将指令逐一在eterm(是一种基于TCP/IP的,采用client-server方式的仿真终端产品)内查询票号内相关信息,然后逐一复制,回填至表格,操作十分繁琐,耗时很长。同时,现有的方法无法将航信票号内的数据进行实时存储,更使得其需要耗费大量人力成本和时间成本。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术在提取、导出票号信息时需要人工操作逐一进行相关信息的查询,并逐一复制回填,因而操作繁琐,耗费极大的人力成本和时间成本的缺陷,提供一种票号信息提取导出方法、系统以及出票系统。 本专利技术是通过下述技术方案来解决上述技术问题的: 本专利技术提供了一种票号信息提取导出方法,其特点在于,所述方法包括以下步骤: 步骤S1、导入EXCEL文件,所述EXCEL文件包含数据源,数据源包括票号数据; 步骤S2、根据票号数据生成URL链接组; 步骤S3、根据URL链接组抓取网页,根据预设规则判断抓取的网页中的URL是否合法,删除不合法的URL,将合法的URL写入运行队列; 步骤S4、对运行队列中的URL,发送指令调取票号信息页面; 步骤S5、从调取的票号信息页面中抓取信息句柄,然后将信息句柄转换为预设形式的回填数据; 步骤S6、将回填数据回填至所述EXCEL文件; 步骤S7、导出所述EXCEL文件。 其中,EXCEL文件为电子表格软件EXCEL格式的文件,URL为统一资源定位符,是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。而步骤S1中所说的票号数据,可以是票号本身。 步骤S3中所说的用于判断URL是否合法的预设规则也可以是一种算法,本领域技术人员可以根据实际需要从现有技术寻求适当的算法,应用于本专利技术中。步骤&中的预设形式可以是所述EXCEL文件中对应于回填数据的一些格式要求、或者是输入形式的要求。 较佳地,在步骤S5后执行步骤S 51: 步骤S51、将已调取票号信息页面的URL从运行队列中移入完成队列中,然后执行步骤s6。 较佳地,步骤S5中抓取的信息句柄为涉及票号相关信息的句柄。 较佳地,所述票号相关信息包括以下信息中的至少一种:出发城市、到达城市、航空公司、乘机人、出发时间、到达时间、使用限制。 本专利技术还提供了一种票号信息提取导出系统,其特点在于,包括: 一文件导入单元,用于导入EXCEL文件,所述EXCEL文件包含数据源,数据源包括票号数据; — URL链接组生成单元,用于根据票号数据生成URL链接组; 一 URL过滤单元,用于根据URL链接组抓取网页,根据预设规则判断抓取的网页中的URL是否合法,删除不合法的URL,将合法的URL写入运行队列; 一票号信息页面调取单元,用于对运行队列中的URL,发送指令调取票号信息页面; 一信息句柄抓取单元,用于从调取的票号信息页面中抓取信息句柄,然后将信息句柄转换为预设形式的回填数据; 一数据回填单元,用于将回填数据回填至所述EXCEL文件,并将回填完成后形成的EXCEL文件发送至一导出单元; 该导出单元,用于导出接收到的EXCEL文件。 较佳地,所述信息句柄抓取单元还用于将已调取票号信息页面的URL从运行队列中移入完成队列中,然后启用所述数据回填单元。 较佳地,所述信息句柄抓取单元抓取涉及票号相关信息的句柄作为信息句柄。 较佳地,所述票号相关信息包括以下信息中的至少一种:出发城市、到达城市、航空公司、乘机人、出发时间、到达时间、使用限制。 本专利技术还提供了一种包括如上所述的票号信息提取导出系统的出票系统。 在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本专利技术各较佳实例。 本专利技术的积极进步效果在于:本专利技术的票号信息提取导出方法、系统以及出票系统,能够在提取、导出票号信息时自动批量进行处理,提取数据的数据源,抓取所需相关信息回填至表格中,大大提高了票号信息提取和导出过程的效率,节省了人力成本。 【专利附图】【附图说明】 图1为本专利技术实施例1的票号信息提取导出方法的流程图。 图2为本专利技术实施例2的票号信息提取导出系统的示意图。 【具体实施方式】 下面通过实施例的方式进一步说明本专利技术,但并不因此将本专利技术限制在所述的实施例范围之中。 实施例1 如图1所示,本实施例的票号信息提取导出方法,包括以下步骤: 步骤S1、导入EXCEL文件,所述EXCEL文件包含数据源,数据源包括票号数据; 步骤S2、根据票号数据生成URL链接组; 步骤S3、根据URL链接组抓取网页,根据预设规则判断抓取的网页中的URL是否合法,删除不合法的URL,将合法的URL写入运行队列; 步骤S4、对运行队列中的URL,发送指令调取票号信息页面; 步骤S5、从调取的票号信息页面中抓取涉及票号相关信息的句柄作为信息句柄,然后将信息句柄转换为预设形式的回填数据; 步骤S51、将已调取票号信息页面的URL从运行队列中移入完成队列中,然后执行步骤S6; 步骤S6、将回填数据回填至所述EXCEL文件; 步骤S7、导出所述EXCEL文件。 本实施例的步骤S1中所说的票号数据即票号本身。 其中,所述票号相关信息包括以下信息:出发城市、到达城市、航空公司、乘机人、出发时间、到达时间、使用限制。 相较于
技术介绍
中所描述的现有方法,本实施例的票号信息提取导出方法在效率上有着极大的提升。根据试用测试的情况来看,现有方法中处理10单票务的票号信息的提取和导出,大致需要耗时400秒,而本实施例的方法在测试中只需要大约3秒就能完成同样的工作,其对于人力成本和时间成本的节省是非常显著的。 实施例2 参考图2所示,本实施例的票号信息提取导出系统包括以下单元: 一文件导入单元I,用于导入EXCEL文件,所述EXCEL文件包含数据源,数据源包括票号数据; 一 URL链接组生成单元,用于根据票号数据生成URL链接组; 一 URL过滤单元2,用于根据URL链接组抓取网页,根据预设规则判断抓取的网页中的URL是否合法,删除不合法的URL,将合法的URL写入运行队列; 一票号信息页面调取单元3,用于对运行队列中的URL,发送指令调取票号信息页面; 一信息句柄抓取单元4,用于本文档来自技高网...
【技术保护点】
一种票号信息提取导出方法,其特征在于,包括以下步骤:步骤S1、导入EXCEL文件,所述EXCEL文件包含数据源,数据源包括票号数据;步骤S2、根据票号数据生成URL链接组;步骤S3、根据URL链接组抓取网页,根据预设规则判断抓取的网页中的URL是否合法,删除不合法的URL,将合法的URL写入运行队列;步骤S4、对运行队列中的URL,发送指令调取票号信息页面;步骤S5、从调取的票号信息页面中抓取信息句柄,然后将信息句柄转换为预设形式的回填数据;步骤S6、将回填数据回填至所述EXCEL文件;步骤S7、导出所述EXCEL文件。
【技术特征摘要】
【专利技术属性】
技术研发人员:郑小龙,梅蓓,
申请(专利权)人:携程计算机技术上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。