文章信息处理装置制造方法及图纸

技术编号:2864288 阅读:206 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供能够可靠传递文章的意义及内容的文章信息处理装置。具有将从普通文章输入单元(10)输入的普通文章用辞典存储单元中存储的辞典进行形态要素解析来分解为记号的形态要素解析单元(12)、对该形态要素解析单元(12)得到的记号的词类进行解析并生成包含有意义的词汇的结构化文章的文章结构解析单元(13)、对于在该文章结构解析单元(13)中所生成的结构化文章中所包含的有意义的词汇将与该词汇相关存储的数据附加于数据存储单元(14)中来进行标记处理的要素性质处理单元(15)、以及将在要素性质处理单元(15)中所生成的标记文章输出的标记文章输出单元(17)。

【技术实现步骤摘要】

本专利技术涉及文章信息处理装置,特别是涉及对于来自文章的有意义的单词或词组附加表示该意义或内容的信息的技术。
技术介绍
向来,作为通过对文本数据中使用的单独的单词进行统计处理来将单独的单词进行自动分类,已知有下述的一种技术,即例如对于文本数据中出现的概率为规定值以上的单词类串附加记号(token),将文本数据的单词及记号串所包含的单词及记号所混合的集合加以分割,使得文本数据的单词及记号串的生成概率为最大,将记号置换为文本数据中存在的词组,这样将单词与词组汇总进行自动分类(例如,参照专利文献1日本专利特开平10-97286号公报)。另外,还已知有一种技术,即在压缩庞大的文章信息,或变换为通过声音容易听懂的表现形式或反过来将用口语词汇写的文章变换为容易读的书面语,或从报纸新闻中抽取人名或地名或组织名或日期时间等文章的重要构成要素(固有表现形式)的系统中,能够说明而且简洁地指定包含字符串的限制在内的重写规则及固有表现抽取规则,而不介意处理的顺序(例如,参照专利文献2日本专利特开2001-67355号公报)。在该技术中,利用翻译装置,将用户描述的重写规则的集合变换为确定段落文法的规则的集合,然后利用规则综合装置,将确定段落文法的规则的集合变换为能够综合进行高速并行处理的规则。重写执行装置接受综合后的规则及要变换的文章(原文),将变换后的结果输出。但是,在上述的专利文献1及专利文献2所揭示的技术中,仅限于将单词及词组进行自动分类,连单词或词组所具有的意义或内容也不能表现。另外,近年来随着通信技术及信息控制技术的发展,在不同的地点及时间,在各信息设备终端中,频繁地进行电子邮件交换及以主页浏览为代表的那样的文字信息交换。但是,文字信息中所包含的单词及词组的解读是根据人们的记忆或判断来进行的,有时由于文理或文章结构的判断错误或记忆的错误,常常在文字信息的提供者与文字信息的获得者之间,对文章的意义或内容有不同的理解。其结果存在的问题是,不能顺利地用文字信息进行意向传递。本专利技术是为解决上述那样的问题而作出的,其目的在于,提供能够可靠传递文章的意义及内容的文章信息处理装置。
技术实现思路
本专利技术的文章信息处理装置,具有将普通文章输入的普通文章输入单元、存储形态要素解析及文章结构解析所使用的辞典的辞典存储单元、通过对从普通文章输入单元输入的普通文章用辞典存储单元中存储的辞典进行形态要素解析来分解为记号的形态要素解析单元、根据普通文章结构对形态要素解析单元得到的记号的词类进行解析并生成包含有意义的词汇的结构化文章的文章结构解析单元、存储标记(markup)所使用的数据的数据存储单元、对于在文章结构解析单元中所生成的结构化文章中所包含的有意义的词汇读出并附加数据存储单元中与该有意义的词汇相关存储的数据而进行标记处理的要素性质处理单元、以及将在要素性质处理单元中所生成的标记文章进行输出的标记文章输出单元。附图说明图1所示为本专利技术实施形态1有关的文章信息处理装置的构成方框图。图2所示为本专利技术实施形态1有关的文章信息处理装置的变形例的构成方框图。图3所示为本专利技术实施形态1有关的文章信息处理装置的其他变形例的构成方框图。图4所示为本专利技术实施形态1有关的文章信息处理装置的另外其他变形例的构成方框图。图5所示为本专利技术实施形态1有关的文章信息处理装置的另外其他变形例的构成方框图。图6所示为图1所示的要素性质处理单元的构成方框图。图7所示为图6所示的要素性质处理单元中执行的处理流程图。图8所示为图6所示的要素关系解析单元中执行的处理流程图。图9所示为图6所示的固有名要素处理单元中执行的处理流程图。图10所示为图6所示的位置要素处理单元中执行的处理流程图。图11所示为图6所示的时间要素处理单元中执行的处理流程图。图12所示为图6所示的行为要素处理单元中执行的处理流程图。符号说明1 输入单元,1a 文本文章输入单元,1b、1c、1e 外部通信输入单元,1d 标记文章解析单元,1f 电子邮件结构解析单元,2 标记处理单元,3 输出单元,3a 外部通信输出单元,10 普通文章输入单元,11 辞典存储单元,12 形态要素解析单元,13 文章结构解析单元,14 数据存储单元,15 要素性质处理单元,16 标记文章存储单元,17 标记文章输出单元,20 要素关系解析单元,21 固有名要素处理单元,22 时间要素处理单元,23 位置要素处理单元,24 行为要素处理单元,25 数据采集单元,30 现在位置推定单元,31 时刻处理单元。具体实施例方式下面参照附图详细说明本专利技术的实施形态。另外,本文章信息处理装置例如能够在个人计算机,服务器计算机及PDA等各种信息处理装置上通过软件处理来构成。实施形态1图1所示为本专利技术实施形态1有关的文章信息处理装置的构成方框图。该文章信息处理装置由输入单元1、标记处理单元2及输出单元3构成。输入单元1可以由构筑文章信息处理装置的信息处理装置的输入装置构成。该输入单元1从各种形态的文章生成普通文章,送至标记处理单元2。标记处理单元2的详细内容将在后面叙述,生成对普通文章附加标记的标记文章,送至输出单元3。将从标记处理单元2送来的标记文章输出。标记处理单元2由普通文章输入单元10、辞典存储单元11、形态要素解析单元12、文章结构解析单元13、数据存储单元14、要素性质处理单元15、标记文章存储单元16及标记文章输出单元17构成。普通文章输入单元10接受从输入单元1送来的普通文章,送至形态要素解析单元12。辞典存储单元11,存储有形态要素解析单元12中的形态要素解析及文章结构解析单元13中的文章结构解析分别所使用的辞典。形态要素解析单元12将从普通文章输入单元10接受的普通文章一面参照辞典存储单元11中存储的辞典,一面进行形态要素解析,分解成记号。这里,所谓记号是指构成最小意义单位的字符串。将该形态要素解析单元12分解成记号的数据送至文章结构解析单元13。另外,由于在该形态要素解析单元12进行的记号分解技术是众所周知的,因此在本说明书中省略其详细说明。文章结构解析单元13将从形态要素解析单元12进行了记号分解的数据输入,一面参照辞典存储单元11中存储的词典,一面根据文章的结构来解析词类,这样进行文章结构解析,生成表示文章结构的数据。在该结构化的文章中包含位置要素,时间要素,固有名词要素,行为要素等有意义的词汇(包含单词及词组,下同)。将该文章结构解析单元13中生成的结构化文章送至要素性质处理单元15。另外,由于在该文章结构解析单元13进行的生成结构化文章的技术是众所周知的,因此在本说明书中省略其详细说明。数据存储单元14将标记所使用的各种数据作为数据库进行存储,将在该数据存储单元14中形成的数据库,根据从输入单元1输入的数据及标记处理单元2的结果所产生的数据随时进行更新。要素性质处理单元15对于从文章结构解析单元13送来的结构化文章所包含的有意义的词汇,执行附加表示该词汇的意义或内容的数据的标记处理,生成结构化的标记文章。将在该要素性质处理单元15中生成的标记文章送至标记文章存储单元16。标记文章存储单元16,将从要素性质处理单元15送来的标记文章进行存储。在该标记文章存储单元1本文档来自技高网
...

【技术保护点】
一种文章信息处理装置,其特征在于,具有将普通文章输入的普通文章输入单元、存储形态要素解析及文章结构解析使用的辞典的辞典存储单元、通过对从所述普通文章输入单元输入的普通文章用所述辞典存储单元中存储的辞典进行形态要素解析来分解为记号的形态要素解析单元、根据所述普通文章的文章结构对所述形态要素解析单元得到的记号的词类进行解析并生成包含有意义的词汇的结构化文章的文章结构解析单元、存储对标记所使用的数据的数据存储单元、对于在所述文章结构解析单元生成的结构化文章中所包含的有意义的词汇读出并附加所述数据存储单元中与该有意义的词汇相关存储的数据而进行标记处理的要素性质处理单元、以及将在所述要素性质处理单元生成的标记文章进行输出的标记文章输出单元。

【技术特征摘要】
JP 2003-4-10 2003-1068781.一种文章信息处理装置,其特征在于,具有将普通文章输入的普通文章输入单元、存储形态要素解析及文章结构解析使用的辞典的辞典存储单元、通过对从所述普通文章输入单元输入的普通文章用所述辞典存储单元中存储的辞典进行形态要素解析来分解为记号的形态要素解析单元、根据所述普通文章的文章结构对所述形态要素解析单元得到的记号的词类进行解析并生成包含有意义的词汇的结构化文章的文章结构解析单元、存储对标记所使用的数据的数据存储单元、对于在所述文章结构解析单元生成的结构化文章中所包含的有意义的词汇读出并附加所述数据存储单元中与该有意义的词汇相关存储的数据而进行标记处理的要素性质处理单元、以及将在所述要素性质处理单元生成的标记文章进行输出的标记文章输出单元。2.如权利要求1所述的文章信息处理装置,其特征在于,还具有生成普通文本文章后送至普通文章输入单元的文本文章输入单元。3.如权利要求1所述的文章信息处理装置,其特征在于,还具有从外部利用通信将普通文章输入后送至普通文章输入单元的外部通信输入单元。4.如权利要求1所述的文章信息处理装置,其特征在于,还具有从外部利用通信将进行标记处理的文章输入的外部通信输入单元、以及将来自所述外部通信输入单元的进行标记处理的文章通过解析除去标记后生成普通文章并送至普通文章输入单元的标记文章解析单元。5.如权利要求1所述的文章信息处理装置,其特征在于,还具有从外部利用通信将电子邮件输入的外部通信输入单元、以及将来自所述外部通信输入单元的电子邮件的结构进行解析后生成普通文章并送至标记文章输入单元的电子邮件...

【专利技术属性】
技术研发人员:三次达也
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1