当前位置: 首页 > 专利查询>北京大学专利>正文

一种公式查询条件的输入方法与装置制造方法及图纸

技术编号:7759313 阅读:262 留言:0更新日期:2012-09-14 01:28
本发明专利技术公布了一种公式查询条件的输入方法和装置。所述方法包括:用户通过截取屏幕区域的方式,选定当前文档的数字内容中需要检索的公式区域;如果当前文档为版式文档,则进行版式文档符号识别;否则,进行图像文档符号识别;根据公式符号对公式的布局结构和逻辑结构进行分析,将布局结构和逻辑结构分析结果输出到公式的结构描述文件中,并作为公式搜索引擎的查询输入。该方法使得用户可以实现简单方便地输入待查询公式,达到了用户可以根据所看到的公式来进行自动检索的效果。解决了目前公式检索系统中用户不易于输入待查询公式的问题,满足用户对公式检索输入方式的易用性的要求,可以提升用户的检索体验和检索效率。

【技术实现步骤摘要】

本专利技术属于文档识别与信息检索领域,涉及ー种用于公式检索系统的公式查询条件输入方法。
技术介绍
公式是科技文档的重要组成部分,在教育、科技等领域得到广泛使用。文档中的公式具有丰富含义,包含着重要信息,是ー笔宝贵的数字资源。而当前由于缺乏成熟实用的公式检索技术,使得这部分知识很难被检索,长久以来未能得到激活、再生和利用。实现公式检索,一方面可以大大提闻检索公式相关内容、科技文献等イ目息的效率,另一方面也可以促进信息的交流与共享。近些年来,以公式为查询条件以及检索对象的公式检索技术开始得到关注和研究。 目前主流的搜索引擎主要基于文本检索,例如Google、Baidu,用户通过输入关键词作为查询条件,检索相关信息。然而,以数学公式为例,数学公式结构复杂,往往包含ニ维结构,对于大多数用户,特别是非数学专业的用户而言,编辑和输入数学公式作为查询条件的方式很不方便。如何实现简单方便的数学公式查询条件的输入是构建公式检索系统的难题之一。目前,一些现有的数学公式检索系统的查询条件输入方式包括以下几种(I)通过输入关键词和分类信息。典型的系统有数学资源库Wolfram Mathfforld(http://mathworld. wolfram, com/)以及 ActiveMathlhttp://www. activemath. org/)。在这些系统中,用户如果需要检索感兴趣的公式,必须首先了解公式的相关信息(例如名称、分类),才能通过关键词和分类索引进行检索。这种方式需要用户具备相当深厚的数学背景和充分的数学知识,对用户提出了很高的使用要求,并不能满足用户以公式本身作为查询条件,检索相关公式以及文献资料的需求。(2)基于特定的查询语言。在文献“Youssef, A. Search of mathematicalcontents: Issues and methods. Proceedings of the ISCA 14th InternationalConference on Inte丄ligent and Adaptive Systems and Software Engineering. 2005. ”,以及文献“Altamimi, M. E.,and Youssef, A. A Math Query Language with an ExpandedSet of Wildcards. Mathematics in Computer Science, 2 (2),305-331. 2008. ” 中,此类方法被提出。用户需要根据检索系统自定义的一系列查询语言和转化规则,将ニ维公式使用一维线性语言进行表示。这种方式需要用户去学习和适应特定的查询语言,并不便于用户快速掌握和使用。(3)通过上传公式结构描述文件,例如LaTeX、MathML等。典型的系统例如LaTeXSearch (http://www. latexsearch. com)需要用户上传公式的LaTeX文件作为查询条件,而大多数情况下,检索用户并不是公式的创作者,他们并不拥有现成的公式LaTeX文件。因此,用户仍然需要额外编辑查询公式的LaTeX文件。而且,LaTeX是ー种较为专业的排版语言,大多数的普通用户往往并不掌握LaTeX。可见,该输入方法的使用范围较为狭窄。(4)通过公式编辑器输入公式。文献“Michael Kohlhase and loan A. Sucan. ASearch Engine for Mathematical Formulae. Artificial Intelligence and SymbolicComputation. 241-253,2006. ”提出的数学公式检索系统 MathWebSearch (http://search,mathweb. org)采用这种输入方式,在检索页面提供图形化的公式编辑器,供用户输入查询公式。在现有的公式检索系统的查询条件输入方式中,通过公式编辑器输入查询公式的方式相对而言较为友好。然而,这种方式仍然要求用户花费额外精力编辑公式,而不能完全专注于检索。而且,当需要查询的公式越复杂,通过编辑器输入公式的过程也会变得更为复杂。(5)通过手写输入公式。文献“Zanibbi, R. and Yu, L. Math Spotting:RetrievingMath m Technical Documents Using Handwritten Querylmages. Internationa丄Conferences on Document Analysis and Recognition. 446-451. 2011,,提出使用手写体公式图片作为数学查询条件。虽然手写输入方式更为友好,但该方法仍然需要用户额外地编辑公式,也会存在与(4)类似的问题。而且,该方法需要用户具备专用的手写板,否则,用户只能通过操作鼠标在计算机中输入手写公式,而这种方式并不方便,失去了手写输入的友好性。此外,使用手写体公式图片作为查询条件,也首先需要对手写体公式结构分析用于后续的检索匹配,而分析手写体公式结构往往要比分析印刷体公式结构更困难,手写公式的 结构分析识别率普遍比印刷体公式的识别率低。可见,目前的公式查询条件输入方式,都需要用户花费较大精力输入查询公式,并没有ー种直接、方便、快速的查询公式的输入方法,这很大程度地影响了公式检索系统的友好性。
技术实现思路
为了解决现有公式检索系统中用户难以输入公式查询条件的问题,本专利技术提出一种基于公式结构分析的公式检索系统的公式查询条件输入方法,使得用户可以从数字内容中直接选定公式区域,自动提取公式结构,作为公式检索的查询条件。本专利技术使得用户可以方便地输入需要检索的公式,提高公式检索系统的易用性,提高用户检索效率。本专利技术所述的数字内容包括以下文档类型版式文档、图像文档、网页、Flash、图片等。版式文档(fixed-layout document),也称为矢量文档(vector graphic),是在不同设备和阅读软件上具有显示一致性的、版面固定的电子文档,典型的版式文档为HF。除版式文档之外的数字内容,都可以通过截屏方式获得其相应的图像,因此,在本专利技术中,将版式文档之外的数字内容当作图像文档进行处理。本专利技术的技术方案如下ー种公式查询条件的输入方法,包括如下步骤I)用户通过截取屏幕区域的方式,选定当前文档中需要检索的公式区域;2)如果当前文档为版式文档,则进行版式文档符号识别;否则,进行图像文档符号识别;3)根据公式符号对公式的布局结构和逻辑结构进行分析,将布局结构和逻辑结构分析结果输出到公式的结构描述文件中,并作为公式搜索引擎的查询输入;步骤2)中所述版式文档符号识别的实现方法为2. I)首先,对文档进行解析,获得文档页内容;然后,获取复合公式符号;最后,根据用户在步骤I)中选定的公式区域,获取该区域内的公式符号,并且保存这些符号的信息M ;步骤2)中所述图像文档符号识别的实现方法为2. 2)对文档图像进行图像预处理、符号分割以及符号识别,根据在步骤I)中选定的公式区域,获取该区域内的公式符号,并且保存这些符号的信息M。所述的输入方法,其特征是,步骤3)的实现方法如下本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:林晓燕高良才汤帜邱勤
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1