文本数据结构、文本数据处理方法技术

技术编号:2837400 阅读:193 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种文本数据结构、文本数据处理方法。其课题在于,能够减少翻译程序的容量和处理时间,所述文本数据结构由文字码数据排列而成,该文字码数据可确定至少包含表意文字的各文字的文字种类,所述文本数据结构根据从转换处理程序取得的作为转换成该表意文字的转换单位的文节信息,一并包括可确定转换后的各文节中所包含的文字码数据的文节确定数据和该文字码数据,所述转换处理程序将所输入的表音文字串转换成包含表意文字的文字串。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及至少包含表意文字的语言的文本数据结构、用于生成该数据结构的文本数据的文本数据处理方法、文本数据处理程序以及记录了文本数据处理程序的记录介质。
技术介绍
以往,在包含汉字等表意文字的文本数据中,在输入时,利用罗马字或平假名等表音文字,输入汉字的训读或发音,转换成汉字。在将包含这些转换后的表意文字的文本数据机器翻译成其它语言等的情况下,翻译设备不能理解这些表意文字,因此不能准确地判断这些显示文字的断句在哪里,在转换包含多个这些表意文字的单词的句子、例如“合衆国最高裁判所近道”的句子时,根据其断句,存在多种含意的译文,难以准确把握这些显示文字的断句、实施准确的翻译,为了准确地把握这些断句,需要用于选出各种断句方式的处理或程序,其结果,存在翻译程序的容量增大、且翻译费时等问题。
技术实现思路
本专利技术是着眼于这种问题而提出的,其目的在于,提供一种在将包含表意文字的句子转换成其它语言的情况下,能够准确地把握翻译文的断句(文节)以减少翻译程序的容量和处理时间的、文本数据处理程序以及记录了文本数据处理程序的记录介质。为了解决上述课题,本专利技术的权利要求1所述的文本数据结构,其由文字码数据排列而成,所述文字码数据可确定至少包含表意文字的各文字的文字种类,所述文本数据结构的特征在于,其根据从转换处理程序取得的作为转换成该表意文字的转换单位的文节信息,一并包括可确定转换后的各文节中所包含的文字码数据的文节确定数据和该文字码数据,所述转换处理程序将所输入的表音文字串转换成包含表意文字的文字串。根据该特征,利用文本数据中所包含的文节确定数据,确定各文节中包含的文字,从而能够准确地把握基于文节的断句,所以在将基于具有这些文本数据结构的文本数据的包含表意文字的句子转换成其它语言时,能够减少翻译程序的容量和处理时间。本专利技术的权利要求2所述的文本数据结构,其特征在于,在权利要求1所述的文本数据结构中,将转换成所述表意文字的转换元的表音文字的文字码数据作为转换后的文字串的注音假名数据与转换后的文字串的文节对应起来包含。根据该特征,能够准确地确定注音假名,可以使这些注音假名有助于翻译。本专利技术的权利要求3所述的文本数据结构,其特征在于,在权利要求1或2所述的文本数据结构中,将从所述转换处理程序取得的、可确定各文节中所包含的文字串的词类的词类数据与该文节对应起来包含。根据该特征,确定各文节中所包含的文字串的词类,根据该确定的词类,能够更准确地实施翻译。本专利技术的权利要求4所述的文本数据处理方法,其特征在于,从转换处理程序取得作为转换成该表意文字的转换单位的文节信息,该转换处理程序将所输入的表音文字串转换成包含表意文字的文字串,该文本数据处理方法根据该取得的文节信息,将可确定转换后的文字串中的各文节中所包含的文字码数据的文节确定数据插入到转换后的文字串的文本数据中。根据该特征,利用文本数据中所包含的文节确定数据,确定各文节中包含的文字,从而能够准确地把握基于文节的断句,所以在将基于包含这些文节确定数据的文本数据的句子转换成其它语言时,能够减少翻译程序的容量和处理时间。本专利技术的权利要求5所述的文本数据处理方法,其特征在于,在权利要求4所述的文本数据处理方法中,将从所述转换处理程序取得的、转换成所述表意文字的转换元的表音文字的文字码数据作为转换后的文字串的注音假名数据与转换后的文字串的文节对应起来,插入到该转换后的文字串的文本数据中。根据该特征,能够准确地确定注音假名,可以使这些注音假名有助于翻译。本专利技术的权利要求6所述的文本数据处理方法,其特征在于,在权利要求4或5所述的文本数据处理方法中,将从所述转换处理程序取得的、可确定各文节中所包含的文字串的词类的词类数据与该文节对应起来,插入到所述文本数据中。根据该特征,确定各文节中所包含的文字串的词类,根据该确定的词类,能够更准确地实施翻译。本专利技术的权利要求7所述的文本数据处理程序,其特征在于,所述文本数据处理程序包括以下步骤文节信息取得步骤,从转换处理程序取得作为转换成表意文字的转换单位的文节信息,该转换处理程序将所输入的表音文字串转换成包含表意文字的文字串;以及文节确定数据插入步骤,根据该取得的文节信息,将可确定转换后的文字串中的各文节中所包含的文字码数据的文节确定数据插入到转换后的文字串的文本数据中。根据该特征,利用文本数据中所包含的文节确定数据,确定各文节中所包含的文字,从而能够准确地把握基于文节的断句,所以在将基于包含这些文节确定数据的文本数据的句子转换成其它语言时,能够减少翻译程序的容量和处理时间。本专利技术的权利要求8所述的文本数据处理程序,其特征在于,在权利要求7所述的文本数据处理程序中,包括注音假名数据插入步骤,将从所述转换处理程序取得的、转换成所述表意文字的转换元的表音文字的文字码数据作为转换后的文字串的注音假名数据,与转换后的文字串的文节对应起来,插入到该转换后的文字串的文本数据中。根据该特征,能够准确地确定注音假名,可以使这些注音假名有助于翻译。本专利技术的权利要求9所述的文本数据处理程序,其特征在于,在权利要求7或8所述的文本数据处理程序中,包括词类数据插入步骤,将从所述转换处理程序取得的、可确定各文节中所包含的文字串的词类的词类数据与该文节对应起来,插入到所述文本数据中。根据该特征,确定各文节中所包含的文字串的词类,根据该确定的词类,能够更准确地实施翻译。本专利技术的权利要求10所述的记录有文本数据处理程序的记录介质,其特征在于,所述记录介质中记录了权利要求7~9中任意一项所述的文本数据处理程序。根据该特征,可以从记录介质读出文本数据处理程序而简便地利用。附图说明图1是示出本专利技术的实施例中使用的转换处理程序的处理内容的流程图。图2是示出本专利技术的实施例的文本数据处理程序的处理内容的流程图。图3是示出由本专利技术的实施例的文本数据处理程序所生成的文本数据结构的图。具体实施例方式以下说明本专利技术的实施例。实施例图1是示出在本实施例中使用的作为转换处理程序的假名汉字转换处理程序的处理内容的流程图,图2是示出在本实施例中使用的文本数据处理程序的处理内容的流程图。将这些本实施例中使用的假名汉字转换处理程序以及文本数据处理程序从CD-ROM等记录介质安装到未图示的个人计算机等计算机上,在该计算机中执行。并且,本实施例的文本数据处理程序是作为主程序的所述假名汉字转换处理程序的内置模块程序,即使没有文本数据处理程序,这些假名汉字转换处理程序也可以工作。作为这些假名汉字转换处理程序,可以使用在市场上销售的公知的作为日语输入工具使用的假名汉字转换处理程序(FEP),根据图1和图3,简单说明其处理内容,例如,如图3所示,汉字转换处理程序在作为转换文接收到“がつしゆうこくさいこうさいばんしよちかみち”的输入的情况下(S1),确定该接收到的转换文的文节。这些文节的确定利用例如公知的最小成本法等确定即可,具体地说,转换文的文节确定为“がつしゆうこく”、“さいこうさいばんしよ”、“ちかみち”(S2)。然后,从该假名汉字转换处理程序所包含的辞典数据中提取所有的与该确定的各文节中所包含的表音文字串、即假名文字串相对应、作为表意文字的汉字的转换候选的文字串(S3),根据转换操作,将各文节的转换候选的代表作为转换本文档来自技高网...

【技术保护点】
一种文本数据结构,其由文字码数据排列而成,所述文字码数据可确定至少包含表意文字的各文字的文字种类,所述文本数据结构的特征在于,其根据从转换处理程序取得的作为转换成该表意文字的转换单位的文节信息,一并包括可确定转换后的各文节中所包含的 文字码数据的文节确定数据和该文字码数据,所述转换处理程序将所输入的表音文字串转换成包含表意文字的文字串。

【技术特征摘要】
【国外来华专利技术】JP 2004-11-15 330696/20041.一种文本数据结构,其由文字码数据排列而成,所述文字码数据可确定至少包含表意文字的各文字的文字种类,所述文本数据结构的特征在于,其根据从转换处理程序取得的作为转换成该表意文字的转换单位的文节信息,一并包括可确定转换后的各文节中所包含的文字码数据的文节确定数据和该文字码数据,所述转换处理程序将所输入的表音文字串转换成包含表意文字的文字串。2.根据权利要求1所述的文本数据结构,其特征在于,其将转换成所述表意文字的转换元的表音文字的文字码数据作为转换后的文字串的注音假名数据与转换后的文字串的文节对应起来包含。3.根据权利要求1或2所述的文本数据结构,其特征在于,将从所述转换处理程序取得的、可确定各文节中所包含的文字串的词类的词类数据与该文节对应起来包含。4.一种文本数据处理方法,其特征在于,从转换处理程序取得作为转换成该表意文字的转换单位的文节信息,该转换处理程序将所输入的表音文字串转换成包含表意文字的文字串,该文本数据处理方法根据该取得的文节信息,将可确定转换后的文字串中的各文节中所包含的文字码数据的文节确定数据插入到转换后的文字串的文本数据中。5.根据权利要求4所述的文本数据处理方法,其特征在于,将从所述转换处理程序取得的、转换成所述表意文字的转换元的表音文字的文字码数据作为转换后的文字串的...

【专利技术属性】
技术研发人员:本田正
申请(专利权)人:先进设计株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利