使用XML表示电子字典数据的方法技术

技术编号:2912385 阅读:432 留言:0更新日期:2012-04-11 18:40
本发明专利技术是一种使用可扩展标记语言(简称为XML)表示电子字典数据的方法,其通过产生更具结构性、标准性及可读性的XML文件作为中间过渡的数据文件,可以克服出版商提供的原始数据和应用到电子字典硬件上的二进制数据之间差别太大的问题,且由于统一的规范定义了不同的原始数据的方式,当修改了二进制数据后,只要修改负责从XML文件生成二进制数据的转换程序即可,大大降低测试难度及工作量。

【技术实现步骤摘要】

本专利技术涉及的是一种表示电子字典数据的方法,更确切地说是涉及一种使用可扩展标记语言(eXtensible Markup Language,简称为XML)表示电子字典数据的方法。
技术介绍
随着数字化时代的来临,学习也逐渐走向电子化、信息化,电子字典或词典(electronic dictionary)的普及,大大减少了人们学习时烦琐的查阅数据的时间。除了电子字典机,目前手机、个人数字助理(PDA)、MP3或MP4等产品纷纷加入了电子字典功能。对于开发者而言,处理电子字典数据的做法通常是针对出版商所提供不同格式的原始数据,通过相应的程序来生成最终应用到硬件上的二进制数据。当这些二进制数据的格式被修改后,原先用来生成这些二进制数据的程序都必须做相应的修改。而使用二进制数据调试、查找错误及修正都会比较麻烦而容易出错,尤其面对电子字典越来越庞大的数据量,更是使得测试工作相加繁重。为了解决出版商所提供的原始数据和应用到硬件上的二进制数据之间差别太大的问题,建立一种中间过渡的数据文件是非常必要的。
技术实现思路
本专利技术的目的就是在提供一种使用可扩展标记语言(XML)表示电子字典数据的方法,用以克服上述缺陷。本专利技术提出一种使用XML表示电子字典数据的方法,其首先将各种原始数据通过相应的处理程序,以生成相应的可扩展标记语言(XML)文件,所述的原始数据是由各出版商提供以应用在电子字典的文本数据;接着将所述的XML文件通过一个转程序,以生成相应的二进制数据,所述的二进制数据用来应用到电子字典硬件上。其中,所述的XML文件的生成规则包括:(1)所述的可扩展标记语言文件定义了一个根节点,这个根节点其下包括一-->个格式信息节点、至少一个纪录节点及一些根节点属性,所述的根节点属性可用来提供这个根节点的基本信息;(2)所述的格式信息节点定义了电子字典数据统一的排版信息,其包括至少一格式类型节点,且所述的格式类型节点包括类型属性及排版方式属性,其中类型属性内容为所欲统一排版的对象,排版方式属性的内容规范排版方式;以及(3)所述的纪录节点用来包含电子字典数据中每一个词条的可见内容和用于程序处理的检索信息及其它标志信息,所述的纪录节点其下包含一个标题节点、至少一个显示页节点和一些纪录节点属性;其中,(a)所述的纪录节点属性内容记载了纪录节点所对应的词条的唯一辨识码,它标识了词条在整个电子字典数据中的位置;(b)所述的标题节点其下包括一个检索输入方式节点、至少一个检索结果显示节点和一个显示段落节点,其中所述的检索输入方式节点包含了检索用的方式及字符串,所述的检索结果显示节点则用于包含检索时结果的显示,而所述的显示段落节点内容则是显示时的标题段落,其下包括至少一个段落片段节点,每个段落片段节点内容则是显示段落节点所对应的段落中某一片段内容,通过设定每个段落片段节点的属性来表示每个片段内容的风格;以及(c)所述的显示页节点把除词条除标题外的内容进行分解到所述的显示页节点其下所包括的段落片段节点,所述的显示页节点的显示页编号属性确保即便是词条中间位置的内容也可被容易的定位。本专利技术通过XML表示电子字典数据,产生更具结构性、标准性及可读性的XML文件作为中间过渡的数据文件,可以克服出版商提供的原始数据和应用到电子字典硬件上的二进制数据之间差别太大的问题,且由于统一的规范定义了不同的原始数据显示的方式,当修改了二进制数据后,只要修改负责从XML文件生成二进制数据的转换程序即可,大大降低测试难度及工作量。附图说明图1为依照本专利技术一实施例所绘示的使用XML表示电子字典数据的方法的流程图;图2为依照本专利技术一实施例所绘示的使用XML表示电子字典数据的方法中生成的二进制数据的片段应用到电子字典硬件上的实际显示画面;-->图3为依照本专利技术一实施例所绘示的使用XML表示电子字典数据的方法中生成的XML文件的树形结构图;图4为图2所示的电子字典实际显示画面相应的二进制数据的片段。附图标记说明:S11-将各种原始数据通过相应的处理程序以生成相应的XML文件;S12-将XML文件通过一个XML2BIN程序以生成相应的二进制数据。具体实施方式以下结合附图,对本专利技术上述的和另外的技术特征和优点作更详细的说明。图1为依照本专利技术一实施例所绘示的使用XML表示电子字典数据的方法的流程图。请参照图1,首先,在步骤S11,将各种原始数据通过相应的处理程序,以生成相应的XML文件。例如,原始数据A通过处理程序A以生成XML文件A,而原始数据B通过处理程序B以生成XML文件B。原始数据例如是英汉字典、汉英字典、英英字典、专业字典、生活美语、旅游会话等由各种出版商提供以应用在电子字典的文本数据。但是,不同出版商提供的原始数据的格式通常是不相同的,甚至于同一出版商提供的原始数据的格式也有可能是不相同的,因此必须依据原始数据的格式采用相应的处里程序以生成相应的XML文件。由于XML本身所具有的灵活性和结构性,使得利用一些测试程序校验步骤S11所生成的XML文件变成是一件容易的事情,而且XML文件还可以使用一般的文本编辑器来查看和修改。接着,在步骤S12,将这些XML文件通过一个转换程序(XML2BIN程序),以生成相应的二进制数据,这个二进制数据可应用到电子字典硬件上。例如,XML文件A通过XML2BIN程序以生成二进制数据A,而XML文件B通过XML2BIN程序以生成二进制数据B。图2为依照本专利技术一实施例所绘示的使用XML表示电子字典数据的方法中生成的二进制数据的片段应用到电子字典硬件上的实际显示画面。请参照图2,这是一部英汉字典,画面右半部显示这部英汉字典某一词条的可见内容(即印刷出来的内容),在本例中,其包括词条的标题“anywhere”、词性“adv”、第一个词意“1任何地方renhe defang.”、第二个词意“2[习语]get anywhere→GET.”等。某些词条由于可见内容较多,需要两个以上的显示页才能完整表示。图3为依照本专利技术一实施例所绘示的使用XML表示电子字典数据的方法中生成的XML文件的树形结构图。请参照图3,所述的XML文件将电子字典数-->据以XML格式表示,其定义了一个名为layout的根节点。由于这个根节点亦是一个XML的根元素(root element),故根节点亦可称为根元素、layout节点或layout元素,而所述的XML文件亦称为layout XML文件。这个根节点其下包括一个格式信息(format_info)节点、至少一个纪录(record)节点及一些根节点属性,其中所述的根节点属性可用来提供这个根节点的基本信息,如拥有者、字典种类、字典版本等。在layout XML文件中,根节点属性是以元素的属性(attribute)方式表现,format_info节点和record节点是以元素(element)方式表现,故format_info节点亦可称为format_info元素,而record节点亦可称为record元素,其它可依此类推。format_info节点定义了电子字典数据统一的排版信息,如缩进方式、对齐方式或对齐位置等。例如以图2所示词条画面为例,其format_info节点如下:  <format_info>    本文档来自技高网...

【技术保护点】
一种使用可扩展标记语言表示电子字典数据的方法,其特征在于,其包括: 将各种原始数据通过相应的处理程序,以生成相应的可扩展标记语言文件,所述的原始数据是由各出版商提供以应用在电子字典的文本数据;以及 将这些可扩展标记语言文件通过一个转换程序,以生成相应的二进制数据,所述的二进制数据用来应用到电子字典硬件上;其中,所述的可扩展标记语言文件的生成规则包括: (1)所述的可扩展标记语言文件定义了一个根节点,这个根节点其下包括一个格式信息节点、至少一个纪录节点及一些根节点属性,所述的根节点属性可用来提供这个根节点的基本信息; (2)所述的格式信息节点定义了电子字典数据统一的排版信息,其包括至少一格式类型节点,且所述的格式类型节点包括类型属性及排版方式属性,其中类型属性内容为所欲统一排版的对象,排版方式属性的内容规范排版方式;以及 (3)所述的纪录节点用来包含电子字典数据中每一个词条的可见内容和用于程序处理的检索信息及其它标志信息,所述的纪录节点其下包含一个标题节点、至少一个显示页节点和一些纪录节点属性;其中, (a)所述的纪录节点属性内容记载了纪录节点所对应的词条的唯一辨识码,它标识了词条在整个电子字典数据中的位置; (b)所述的标题节点其下包括一个检索输入方式节点、至少一个检索结果显示节点和一个显示段落节点,其中所述的检索输入方式节点包含了检索用的方式及字符串,所述的检索结果显示节点则用于包含检索时结果的显示,而所述的显示段落节点内容则是显示时的标题段落,其下包括至少一个段落片段节点,每个段落片段节点内容则是显示段落节点所对应的段落中某一片段内容,通过设定每个段落片段节点的属性来表示每个片段内容的风格;以及 (c)所述的显示页节点把除词条除标题外的内容进行分解到所述的显示页节点其下所包括的段落片段节点,所述的显示页节点的显示页编号属性确保即便是词条中间位置的内容也可被容易的定位。...

【技术特征摘要】
1、一种使用可扩展标记语言表示电子字典数据的方法,其特征在于,其包括:将各种原始数据通过相应的处理程序,以生成相应的可扩展标记语言文件,所述的原始数据是由各出版商提供以应用在电子字典的文本数据;以及将这些可扩展标记语言文件通过一个转换程序,以生成相应的二进制数据,所述的二进制数据用来应用到电子字典硬件上;其中,所述的可扩展标记语言文件的生成规则包括:(1)所述的可扩展标记语言文件定义了一个根节点,这个根节点其下包括一个格式信息节点、至少一个纪录节点及一些根节点属性,所述的根节点属性可用来提供这个根节点的基本信息;(2)所述的格式信息节点定义了电子字典数据统一的排版信息,其包括至少一格式类型节点,且所述的格式类型节点包括类型属性及排版方式属性,其中类型属性内容为所欲统一排版的对象,排版方式属性的内容规范排版方式;以及(3)所述的纪录节点用来包含电子字典数据中每一个词条的可见内容和用于程序处理的检索信息及其它标志信息,所述的纪录节点其下包含一个标题节点、至少一个显示页节点和一些纪录节点属性;其中,(a)所述的纪录节点属性内容记载了纪录节点所对应的词条的唯一辨识码,它标识了词条在整个电子字典数据中的位置;(b)所述的标题节点其下包括一个检索输入方式节点、至少一个检索结果显示节点和一个显示段落节点,其中所述的检索输入方式节点包含了检索用的方式及字符串,所述的检索结果显示节点则用于包含检索时结果的显示,而所述的显示段落节点内容则是显示时的标题段落,其下包括至少一个...

【专利技术属性】
技术研发人员:陆春勇顾周怡
申请(专利权)人:金宝电子中国有限公司
类型:发明
国别省市:44[中国|广东]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1