处理文书的信息处理装置、信息处理方法以及程序制造方法及图纸

技术编号:14236121 阅读:33 留言:0更新日期:2016-12-21 10:31
本发明专利技术能够适当地对包括罕用字的文书进行语素分析。程序使计算机执行:辨别处理,在处理对象的文书中,辨别不包含于信息处理装置处理的文字标准的罕用字;置换处理,基于从使用于语素分析的第一词典生成的置换词典将罕用字置换为包含于文字标准的常用字;以及解析处理,使用上述第一词典对上述罕用字被置换成上述常用字的文书进行解析。

Information processing apparatus, information processing method and program for processing document

The invention can include rare words of morpheme analysis documents properly. The computer program execution: identifying, in the object does not contain documents, identify processing device for processing text information in standard rare characters; replacement, replacement of the first dictionary dictionary generated from use in the morpheme analysis based on rare words for common words contained in the text replacement standard; and the use of analytical treatment the first Dictionary of the rare words were replaced with the words commonly used in analytical instruments.

【技术实现步骤摘要】

本专利技术涉及处理文书的信息处理装置,信息处理方法以及程序。
技术介绍
近年来以经营判断的高速度化,准确性提高为目的,利用被称为文本挖掘的文书解析技术来对企业具有的数据进行分析,提取有用的信息的动向很活跃。在文本挖掘中有时执行用有意义的单词单位划分文书中的句子的语素分析。在语素分析中,将预先准备的单词词典与从处理对象的句子取出的单词进行比较。然而,若处理对象的句子包括如利用者定义文字这样的罕用字,则计算机不能够正确地将句子划分为单词,不能够提取有用的信息。此外,以下,文书能够例示为包括一个或者多个句子的信息。图1表示计算机对包括罕用字的句子进行语素分析的处理的一个例子。在图1的例子中,假定为从句子中的左边开始第二个文字C2和第七个文字C7是罕用字。在图1的例子中,从左边开始第一个文字C1和第二个文字C2显示专有名词。然而,在计算机对图1的句子进行语素分析的情况下,不能够识别从左边开始第二个文字C2的语素。因此,第一个文字C1和第二个文字C2分别被判断为“汉字”、“??(不明,未定义)”。包括从图1的左边第七个文字的位置,换句话说从左边开始第六个文字C6到第八个文字C8的位置也相同。如利用者定义文字这样未包含在特定的文字集合中的文字被称为罕用字。更具体而言,例如针对一个计算机,将不包含于该计算机处理的特定的文字标准的文字称为罕用字。另一方面,将包含于特定的文字标准的文字被称为常用字。如上述那样,若计算机进行包括罕用字的句子的语素分析,则计算机不能够识别文书中的罕用字部分。结果包括罕用字的句子的语素分析的执行结果变得不适当。因此,以往,在对句子进行语素分析的情况下,
在将罕用字置换成常用字的异字体后执行语素分析。此处,常用字的异字体例如是指与罕用字类似的形状的常用字,且作为罕用字的代用被使用的。图2例示计算机将句子的罕用字置换为常用字的异字体,进行语素分析的处理。在图2的例子中,从图1所例示的句子中的左边开始第二个文字C2和第七个文字C7分别被置换为常用字,执行语素分析。专利文献1:日本特开2000-293522号公报专利文献2:日本特开2006-235800号公报专利文献3:日本特开2010-165302号公报然而,即使将罕用字置换成常用字,语素分析的结果也不一定变成适当的结果。语素分析能够指将句子分割为语言中具有意义的最小的单位,并判断词类等的处理。假定处理对象的句子包含包括罕用字的单词Z1的情况。若该句子的罕用字被置换为常用字,则单词Z1例如被置换为单词Z2。然而,执行语素分析的程序不一定能够将单词Z2识别为语素。更具体而言,在包括罕用字的单词Z1是名词、动词、形容词、句子中的符号等的情况下,产生执行语素分析的程序不能够将置换后的单词Z2识别为相同的词类的单词的情况。是因为存在语素分析的单词词典中未登记置换后的单词Z2的情况。例如,是因为在单词Z1是人名等专有名词的情况下,执行语素分析的程序不一定能够将置换后的单词Z2识别为人名。此外,这种问题并不限于人名这样的专有名词,在句子中的罕用字被置换为常用字而进行语素分析的处理中,在名词、动词、形容词、副词、助词、助动词、连接词、接词、符号、记号等其它的语素分析的要素中也会产生。
技术实现思路
因此,根据本实施方式的一方面,其目的在于,提高包括罕用字的文书的语素分析精度。本实施方式的一方面通过用于使计算机执行信息处理的程序来进
行例示。该程序使计算机执行:辨别处理,在处理对象的文书中,辨别不包含于信息处理装置所处理的文字标准的罕用字;置换处理,基于从使用于语素分析的第一词典生成的置换词典将罕用字置换为包含于文字标准的常用字;以及解析处理,使用第一词典,对罕用字被置换成常用字的文书进行解析。根据本信息处理装置,能够比以往适当地对包括罕用字的文书进行语素分析。附图说明图1是表示对包含罕用字的句子进行语素分析的处理的一个例子的图。图2是例示计算机将句子中的罕用字置换为常用字的异字体,并进行语素分析的处理的图。图3是例示伴随信息处理装置执行的处理的数据流和各处理中所使用的词典的图。图4是例示使用了OCR词典的处理的图。图5是例示使用了大规模文字集的处理的图。图6是例示属性信息的类似度的计算结果的图。图7是部件的类似度词典的例子。图8是部件的位置的类似度的计算例子。图9是部件的位置的类似度的其它计算例子。图10是例示实施方式的处理所产生的效果的图。图11是例示信息处理装置的硬件构成图的图。图12是例示全体处理流程的图。图13是例示基于大规模文字集的检索处理的详细的流程图。图14是基于大规模文字集的检索处理的详细的其它例子。图15是例示在部件中分解罕用字的处理的图。符号说明1…单词词典;2…OCR词典;3…大规模文字集;4…属性词典;5…部件的类似度词典;11…CPU;12…主存储装置;13外部存储装置具体实施方式以下,参照附图,对一实施方式所涉及的信息处理装置进行说明。<处理例子>图3例示伴随本信息处理装置执行的处理的数据流和各处理中所使用的词典。如图3那样,本信息处理装置具有单词词典1、OCR词典2、大规模文字集3、和属性词典4。本信息处理装置通过对处理对象的文书和图3所例示的词典进行比较,来将文书中的罕用字置换为能够进行语素分析的常用字的异字体。(A)单词词典1单词词典1是语素分析所使用的词典。单词词典1是第一词典的一个例子。单词词典1中例如登记有组合了文字与文字的单词、和单词的词类。在单词词典1中,文字用文字代码描述。文字代码用1字节或2字节等字节序列定义文字。因此,单词词典1通过文字代码的组合来定义单词。例如本信息处理装置从处理对象的句子获取文字代码的组合,并通过获取到的文字代码的组合来检索单词词典1。而且,在单词词典1中定义有文字代码的组合的情况下,本信息处理装置将文字代码的组合识别为单词。另外,信息处理装置具有与各文字代码对应的文字形状即文字字形(font)的库。因此,信息处理装置接受文字代码和文字字形的种类的指定,将文书中的文字代码用以文字字形所指定的文字形状输出给显示器,打印机等。在本实施方式中,信息处理装置使用规定的字形来执行处理。规定的字形例如能够通过用户操作进行设定即可。(B)OCR词典2OCR词典2是将与文字代码对应的文字形状变换成适合Optical Character Recognition(OCR)处理的形式的词典。例如OCR词典2具有文字的纵横之比被标准化为规定的值的文字形状的信息。另外,OCR词典2可以具有各个文字形状保持原样的图形,也可以具有将文字形状分解成特征部分的文字形状的图形。例如OCR词典2可以按照使文字被分类为针对从中心朝向放射状的各方向矢量包含于规定的允许角度范围的线段的每个部分,具有文字形状的特征图形。无论为哪一种情况,OCR词典2都以适合本信息处理装置中所执行的OCR处理的形式具有文字形状的信息。本信息处理装置将单词词典1中所登记的语素分析用的文字代码的组合分解为各个文字代码。例如假定单词词典1中登记有“渡辺”、“渡邉”、“渡邊”这三个单词的情况。信息处理装置将这些单词分解为“渡”、“辺”、“邉”、“邊”这些文字。而且,信息处理装置获取从单词分解出的各个文字的文字形状,生成适合本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201610365828.html" title="处理文书的信息处理装置、信息处理方法以及程序原文来自X技术">处理文书的信息处理装置、信息处理方法以及程序</a>

【技术保护点】
一种程序,其特征在于,使计算机执行:在处理对象的文书中,辨别不包含于上述信息处理装置所处理的文字标准的罕用字的辨别处理;基于从使用于语素分析的第一词典生成的置换词典将上述罕用字置换为包含于上述文字标准的常用字的置换处理;以及使用上述第一词典,对上述罕用字被置换成上述常用字的文书进行解析的解析处理。

【技术特征摘要】
2015.06.09 JP 2015-1167981.一种程序,其特征在于,使计算机执行:在处理对象的文书中,辨别不包含于上述信息处理装置所处理的文字标准的罕用字的辨别处理;基于从使用于语素分析的第一词典生成的置换词典将上述罕用字置换为包含于上述文字标准的常用字的置换处理;以及使用上述第一词典,对上述罕用字被置换成上述常用字的文书进行解析的解析处理。2.根据权利要求1所述的程序,其特征在于,上述置换词典包括对上述第一词典所包含的常用字的文字形状进行定义的文字形状信息,上述置换处理通过对定义上述辨别出的罕用字的文字形状的文字形状信息和上述置换词典所包含的文字形状信息进行比较来选择与上述比较出的文字形状信息对应的常用字,并将上述罕用字置换为上述选择出的常用字。3.根据权利要求1或者2所述的程序,其特征在于,还使上述计算机执行如下的处理:在通过与上述置换词典的比较而不能够将上述罕用字置换为常用字的情况下,通过将上述罕用字的文字形状信息与包括上述文字标准所不包含的文字的文字形状信息的第二词典相比较...

【专利技术属性】
技术研发人员:宫下功片冈正弘川村洋之向井大树
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1