【技术实现步骤摘要】
一种专利信息解析方法和装置
本专利技术涉及计算机信息
,特别涉及一种专利信息解析方法和装置。背景技木随着互联网技术的迅速发展,网络成为人们获取信息的主要手段,专利信息也是如此。在世界范围内几乎所有的专利信息都通过互联网发布,使得人们能够更方便的获取专利信息,从而推动技术创新和发展。现在越来越多的企业用户通过在互联网上检索专利信息并将其解析为准确数据保存在本地数据库中,从而形成自有的专利情报库来深入使用。、在将以超文本标记语言(HTML)格式发布的专利数据进行解析时,通常是用户分析HTML格式的专利信息,编写出可以准确定位各数据项(诸如专利著录项目)的正则表达式,形成计算机程序可以识别的规则,然后由计算机程序根据该规则从HTML格式的专利信息中解析出准确的数据项内容。虽然这种专利信息的解析方式具有较高的解析效率,但互联网上的网站所有者经常会调整HTML格式从而使网页显示不同的效果,这种调整必然导致用户设置的正则表达式规则失效,从而导致上述解析方式解析出的数据出错或无法解析出数据。除非用户重新分析HTML格式,重新编写出可以准确定位各数据项的正则表达式规则, ...
【技术保护点】
【技术特征摘要】
1.一种专利信息解析方法,其特征在于,该方法包括 51、从数据库中选择已完成解析的专利信息作为基础数据,并从网站上获取所述专利信息的超文本标记语言HTML格式网页; 52、针对所述基础数据中的各数据项,分别从获取到的HTML格式网页中获取能够唯一定位各数据项的字符串,并分别格式化为解析各数据项的正则表达式; 53、利用所述解析各数据项的正则表达式,从所述网站未解析的HTML格式网页中解析专利信息,并将解析到的专利信息存入所述数据库。2.根据权利要求I所述的方法,其特征在于,定时检测所述网站的HTML格式是否发生变化,如果检测到HTML格式发生变化,则触发执行所述步骤SI ;或者, 人工触发执行所述步骤SI ;或者, 无论所述网站的HTML格式是否发生变化,均定期触发执行所述步骤SI。3.根据权利要求I所述的方法,其特征在于,所述步骤S2具体包括 521、获取所述基础数据中未执行所述步骤S2的一个数据项作为当前数据项; 522、在步骤SI获取的HTML格式网页中确定当前数据项的位置; 523、从该位置分别向前和向后截取预设截取长度的字符串,过滤截取的字符串中的非HTML标签后,将前后两个字符串格式化成正则表达式; 524、检验得到的正则表达式是否能够唯一定位当前数据项,如果是,则记录当前数据项对应的正则表达式,转至所述步骤S21 ;否则,增大所述截取长度,重新转至所述步骤S23。4.根据权利要求3所述的方法,其特征在于,所述步骤S23中将前后两个字符串格式化成正则表达式具体包括 将过滤后的前后两个字符串中的各字符作为正则表达式中的元字符,过滤的非HTML标签中紧邻当前数据项的普通字符在正则表达式中保留,过滤的其他内容在正则表达式中替换为正则表达式通配符号。5.根据权利要求3所述的方法,其特征在于,所述步骤S24中检验得到的正则表达式是否能够唯一定位当前数据项具体为 将所述得到的正则表达式到所述步骤SI获取的HTML格式网页中或者其他HTML格式网页中提取信息,判断是否能够唯一获取当前数据项的内容,如果是,则说明能够唯一定位当前数据项。6.根据权利要求I所述的方法,其特征在于,在所述步骤S2和步骤S3之间还包括 541、从所述数据库中另选择一条已完成解析的专利信息,从所述网站上获取另选择专利信息的HTML格式网页; 542、利用步骤S2得到的各数据项的正则表达式从步骤S41获取的HTML格式网页上提取各数据项的专利信息,并判断提取的专利信息与所述数据库中存储的专利信息是否一致,如果一致,则确定验证通过,继续执行所述步骤S3 ;否则,指示对不一致的数据项的正则表达式进行修正。7.一种专利信息解析装置,其特征在于,该装置包括 基础数据获取单元,用于从数据库中选择已完成解析的专利信息作...
【专利技术属性】
技术研发人员:谢国利,
申请(专利权)人:北京彼速信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。