语言识别装置和语言识别方法制造方法及图纸

技术编号:2889006 阅读:159 留言:0更新日期:2012-04-11 18:40
识别文本,数据的语言及其文字代码系统。事先按照语言和文字代码系统的每一种组合准备按照每个文字记述了文字代码的出现概率的出现概率表。把输入的文字代码序列分成一个个文字,参照出现概率表得到其文字代码的出现概率。按照语言和文字代码系统的每一种组合计算出现概率的积,根据得到的积,判断关于输入文字代码序列的语言和文字代码系统的组合。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及判别由文字代码序列表示的文字序列的语言以及其文字代码的种类(文字代码系统)的语言识别装置以及方法、识别由被给出的文本。数据或者关键字(每一个都被进行了编码)所表示的文本(文章)或者单词的语言切换种种处理的各种装置、以及存储了控制上述装置或者实现上述方法的计算机程序的记录媒体。当前,在日本、中国、韩国以及台湾所使用的汉字(或者朝鲜字母)的文字代码由2个字节表现1个文字。这些文字代码(系统)按照各种语言(日文,中文,韩文等)独立地进行定义。如果编码方式(文字代码系统,代码的种类或者编码的规则)不同,则即使相同语言的文字也用不同的文字代码表示。表示语言的信息通常不添加到文字代码数据上。因此,在给出了一系列文字代码时,不能够简单地辩别出其文字代码是用哪种语言进行编码后获得的。数据库的检索系统、翻译系统、声音合成系统等这样的语言信息处理系统都是以特定的语言以及文字代码系统为前提制做的。在考虑了多种语言可利用的语言信息处理系统的情况下,由于每种语言中语言信息处理不同,因此需要明确所给出的关键字以及文本。数据的语言。如果被给出的关键字、文本。数据的语言以及文字代码系统不明确,则不能够期待适当的处理。本专利技术的目的是能够识别被给出的文字代码序列的语言以及其文字代码系统。另外,本专利技术的目的还在于即使在不知道所输入的关键字或者文本。数据的语言以及文字代码系统的情况下,也能够进行适用于各个语言的各种语言信息处理。本专利技术第1方案的文字代码的识别装置是识别被编码了的文本。数据的语言和文字代码系统的组合的装置,其特征在于具有按照语言和文字代码系统的每一种组合存储分别记述了在其组合中文字代码出现的概率的多个出现概率表的存储装置,根据被给出的文本。数据中所包含的1个或者多个文字代码从上述多个出现概率表分别读出出现概率,按照语言和文字代码系统的每一种组合获得评价数据的装置,以及根据所得到的评价数据判别被给出的文本。数据的语言和文字代码系统的组合的装置。本专利技术的第1方案还提供适合于上述装置的方法。即,该方法的特征在于预先根据语言和文字代码系统的每一种组合,作成分别记述在其组合中文字代码出现的概率的出现概率表。对于被给出的文字,数据中所包含的一个或多个文字代码从上述多个出现概率表中分别读出出现概率,对每一种语言和文字代码系统的组合获得评价数据。根据所得到的评价数据,判别所给出的文本,数据的语言和文字代码系统的组合。进而,还提供存储了用于实施上述方法的程序的记录媒体。即,该记录媒体是记录了这样的程序的记录媒体,该程序使用按照语言和文字代码系统的每一种组合记述了文字代码在其组合中出现的概率的出现概率表,识别被编码了的文本。数据的语言和文字代码系统的组合,该记录媒体还是记录了这样的程序的记录媒体,该程序控制计算机使得计算机根据被给出的文本。数据中所包含的1个或多个文字代码从上述多个出现概率表分别读出出现概率,按照语言和文字代码系统的每一种组合得到评价数据,并根据评价数据判别被给出的文本。数据的语言和文字代码系统的组合。作为记录媒体,可以是磁盘存储装置、光磁盘存储装置、光盘存储装置、磁带、半导体存储器等。文字代码的出现概率依赖于由其文字代码所表示的文字的语言和文字代码系统的组合。即使是相同的文字代码,其文字代码的出现概率在每一种语言中都不相同。另外,即使是相同的语言如果文字代码系统不同则同一文字代码的出现概率也不相同。本专利技术的第1方案是着眼于在语言和文字代码系统的组合中特有文字代码的出现概率,判别由文字代码所表示的语言以及其文字代码系统的种类的专利技术。如果依据本专利技术的第1方案,则对于被输入的文字代码序列的每个文字代码从上述出现概率表读出上述出现概率,按照语言和文字代码系统的每一种组合生成评价数据。如果与出现概率相关的评价数据低,则判断为被输入的文字代码序列不是该语言和文字代码系统的组合的可能性高,如果评价数据高,则考虑为被输入的的文字代码序列是该语言和文字代码系统的组合的可能性高。这样根据评价数据,判别被给出的文本。数据(文字代码序列)的语言和文字代码系统的组合。从精度的观点出发最好计算出从出现概率表读出的出现概率的积,根据计算出来的值判别文本。数据的语言以及编码方法。每种单个文字代码的出现概率如果是0或者非常接近于0的值,则积也成为非常小的值,从而明确地排除了该种语言和文字代码系统的组合。本专利技术第2方案的多语言词素分析系统的特征在于具有识别被给出的文本。数据的语言的语言识别装置,根据多种语言设置的多个词素分析装置,以及把被给出的上述文本。数据供给到适合于由上述语言识别装置识别的语言的上述词素分析装置中的控制装置。本专利技术的第2方案还提供了适合于上述装置的方法。即,该方法的特征是根据多种语言设置多个词素分析装置,识别被给出的文本。数据的语言,把被给出的上述文本。数据供给到适合于被识别的语言的上述词素分析装置中。本专利技术的第2方案还提供了存储用于实施上述方法的程序的记录媒体。即,该记录媒体是记录了这样的程序的记录媒体,该程序用于切换向根据多种语言设置的多个词素分析装置中文本。数据的供给,该记录媒体还是记录了这样的程序的记录媒体,该程序控制计算机,使得计算机识别被给出的文本。数据的语言,把被给出的上述文本。数据供给到适合于被识别的语言的上述词素分析装置中。依据本专利技术的第2方案,对应于多种语言设置上述词素分析装置。识别被给出的文本。数据的语言。根据被识别的语言把文本。数据供给到与该语言相适应的词素分析装置中。即使不知道输入的文本。数据与哪种语言相关也能够实施最佳的词素分析。本专利技术第3方案的多语言检索系统的特征在于具有识别被给出的关键字的语言的语言识别装置,根据多种语言设置的、根据输入的关键字输出与该关键字相关联的信息的多个检索装置,以及把被给出的关键字供给到适合于由上述语言识别装置识别的语言的上述检索装置中的控制装置。本专利技术第3方案还提供适合于上述系统的方法。即,该方法的特征在于对于多种语言设置根据输入的关键字输出与该关键字相关联的信息的多个检索装置,识别被给出的关键字的语言,把被给出的关键字供给到适合于被识别的语言的上述检索装置中。还有,本专利技术第3方案还提供了存储用于实施上述方法的记录媒体。即,该记录媒体是记录了这样的程序的记录媒体,该程序用于切换向对于多种语言设置的、根据输入关键字输出与该关键字相关联的信息的多个检索装置中的关键字的供给,该记录媒体还是存储了这样的程序的计算机可读取的记述媒体,该程序控制计算机,使得计算机识别被给出的关键字的语言,把被给出的关键字供给到适合于被识别的语言的上述检索装置中。依据本专利技术第3方案,对应于多种语言设置上述检索装置。识别被给出的关键字的语言。根据被识别的语言,把关键字供给到适合于该语言的检索装置中。即使不知道输入的关键字与哪种语言相关也能够实现最佳的检索处理。本专利技术第4方案的多语言输出装置的特征在于具有识别被给出的文本。数据的语言的语言识别装置,输出由上述文本。数据表示的文本的输出装置,以及根据由上述语言识别装置识别的语言控制上述输出装置中的上述文本的输出形态的输出形态控制装置。本专利技术第4方案还提供了适合于上述装置的方法。即,该方法的特征在于识别被给出的文本。数据的语言,根据被识别的语本文档来自技高网...

【技术保护点】
一种语言识别装置,该装置识别被编码了文本数据语言和文字代码系统的组合,其特征在于具有 按照每种语言和文字代码系统的组合,存储了分别记述了在该组合中文字代码出现的概率的多个出现概率表的存储装置; 对于所给出的文本数据中所包含的一个或多个文字代码从上述多个出现概率表中读出分别出现的概率,按照每种语言和文字代码系统的组合获得评价数据的装置;及 根据所得到的评价数据,判别所给出的文本数据语言和文字代码系统的组合的装置。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:向川信一藤并稔弘金冈秀信多田智之
申请(专利权)人:欧姆龙株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1