词素分析装置和词素分析方法制造方法及图纸

技术编号:20118083 阅读:28 留言:0更新日期:2019-01-16 12:07
本发明专利技术提供词素分析装置和词素分析方法,用于提高词素分析的分析精度。词素分析装置具有:存储部,其存储匹配辞典,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串、以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果;第1分析部,其针对分析对象文本中的与包含于所述匹配辞典中的所述字符串一致的字符串输出所述第1词素分析结果;以及第2分析部,其针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,并使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。

Morpheme Analysis Device and Morpheme Analysis Method

The present invention provides a morpheme analysis device and a morpheme analysis method for improving the analysis accuracy of morpheme analysis. The morpheme analysis device has a storage unit which stores a matching dictionary, which includes a morpheme analysis dictionary, a string contained in a plurality of sentences, and a first morpheme analysis result of the said string common to the plurality of sentences, respectively; and a first analysis unit which stores the matching dictionary for the strings contained in the text of the analysis object and those contained in the matching dictionary. A consistent string outputs the results of the first morpheme analysis; and the second analysis unit generates a candidate lattice containing multiple morpheme analysis results for the remaining strings in the analysis object text that are inconsistent with those contained in the matching dictionary, and uses the lattice for the remaining strings. Morpheme analysis outputs a second morpheme analysis result for the remaining string.

【技术实现步骤摘要】
词素分析装置和词素分析方法
本专利技术涉及词素分析装置和词素分析方法。
技术介绍
近些年来,因特网上的信息飞跃性地增多,使用大数据的商务增加,因此希望高效地处理大数据。在如日语、中文或韩文的文档那样,是单词与单词间未被空格等的分隔文字分隔开来的表述的文档的情况下,为了计算单词的出现频度而进行词素分析。词素分析是将文本分割为词素,对各词素赋予词性信息的处理。通过词素分析而得到的词素有时被作为单词进行处理。通过进行这种词素分析,确定文档中的单词间的关系和单词的词性,能够将文档中的文本分割为单词。然而,词素分析的处理负载较大,因此处理大量的文本需要较长的时间。在词素分析中,从辞典中提取出与分析对象的字符串的表述部分一致的所有单词,进行使用作为列举出单词的候选(分析候选)的图表结构的点阵(lattice)的分析。图1是表示点阵的示例的图。在图1中,示出构建了针对作为分析对象的输入文=“被送来”的点阵的情况。在词素分析中,对所构建的点阵考虑上下文(前后的词素),确定正确的词素串。由此,“被送来”的词素分析结果成为“送ら(动词·未然形)|れて(接尾词)|きた(接尾词)”。点阵的构建的计算成本较大,比较耗费时间。在词素分析中,已知不进行计算成本较大的点阵的构建,而通过使用图形匹配来实现高速化的方法(例如,参照非专利文献1)。已知将句子高速分割为2个以上的单词的单词分割装置(例如,参照专利文献1)。还已知得到精度较高的单词分割用辞典的辞典登记装置(例如,参照专利文献2)。在先技术文献专利文献专利文献1:日本特开2014-106707号公报专利文献2:日本特开2014-120007号公报非专利文献非专利文献1:ManabuSassano,“DeterministicWordSegmentationUsingMaximumMatchingwithFullyLexicalizedRules”,Proceedingsofthe14thConferenceoftheEuropeanChapteroftheAssociationforComputationalLinguistics,pages79–83,Gothenburg,Sweden,April26-302014然而,在非专利文献1所述的词素分析方法中,虽然能够通过图形匹配来高速地进行词素分析,然而存在有时输出错误的分析结果,分析精度较低的问题。
技术实现思路
本专利技术的一个方面的目的在于,提高词素分析的分析精度。实施方式的词素分析程序使计算机执行如下的处理,该计算机具有存储匹配辞典的存储部,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串、以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果。所述计算机针对分析对象文本中的与包含在所述匹配辞典中的所述字符串一致的字符串,输出所述第1词素分析结果。所述计算机针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵。所述计算机使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。专利技术效果根据实施方式,能够提高词素分析的分析精度。附图说明图1是表示点阵的示例的图。图2是实施方式的词素分析装置的结构图。图3是上下文独立辞典的示例。图4是上下文依赖字符串和分析结果的示例。图5是表示实施方式的词素分析处理的图。图6是表示实施方式的词素分析处理的图。图7是实施方式的上下文独立辞典生成处理的流程图。图8是实施方式的词素分析处理的流程图。图9是表示关于未分析的字符串及其前后的词素的点阵的图。图10是表示关于未分析的字符串及其前后的词素的点阵的图。图11是表示作为针对未分析的字符串的分析结果的词素串的图。图12是表示作为针对未分析的字符串的分析结果的词素串的图。图13是实施方式的词素分析处理的变形例的流程图。图14是表示包含未分析的字符串的输入文的点阵的图。图15是表示包含针对未分析的字符串的分析结果的输入文的词素串的图。图16是信息处理装置的结构图。标号说明101:词素分析装置,201:辞典生成部,211:上下文独立辞典构建部,221:词素分析部,231:依赖性判定部,301:词素分析部,311:上下文独立字符串分析部,321:上下文依赖字符串分析部,322:点阵构建部,323:词素串选择部,401:存储部,411:语料库,421:上下文独立辞典,431:输入文,441:分析结果。具体实施方式以下,参照附图对实施方式进行说明。首先说明使用非专利文献1所述的现有技术,进行词素分析的情况。在现有技术中,首先通过使用辞典的最长一致法,输出针对分析对象的句子的词素串,将错误输出的词素串中的与置换图形一致的词素串按照该置换图形置换为正确的词素串。(基于现有技术的词素分析的第1例)针对作为分析对象的输入文=“评价当然是非常好的”,基于最长一致法的词素分析的结果为“非常に|評判|が|いいわけ|だ”。在现有技术中,为了修正错误的分析结果,参照置换图形,修正一致的词素串。这里,具有将“が|いいわけ|だ”修正为“が|いい|わけだ”的置换图形。这种情况下,“非常に|評判|が|いいわけ|だ”被修正为“非常に|評判|が|いい|わけだ”。这样,存在适当的置换图形的情况下,作为“评价当然是非常好的”的分析结果,可得到作为正确的分析结果的“非常に|評判|が|いい|わけだ”。然而,不存在上述那样的适当的置换图形的情况下,词素串未被修正,因此作为针对“评价当然是非常好的”的词素分析的结果,得到作为错误的分析结果的“非常に|評判|が|いい|わけだ”。(基于现有技术的词素分析的第2例)针对输入文=“虽说人手不足然而是借口”,基于最长一致法的词素分析的结果为“人手|不足|と|言う|が|いいわけ|だ”。在现有技术中,为了修正错误的分析结果,参照置换图形,修正一致的词素串。这里,不存在对“人手|不足|と|言う|が|いいわけ|だ”中包含的词素串进行修正的置换图形的情况下,不修正分析结果,而得到作为正确的分析结果的“人手|不足|と|言う|が|いいわけ|だ”。这里,具有将“が|いいわけ|だ”修正为“が|いい|わけだ”的置换图形。这种情况下,“人手|不足|と|言う|が|いいわけ|だ”被修正为“人手|不足|と|言う|が|いい|わけだ”。通过使用置换图形,作为针对“虽说人手不足然而是借口”的词素分析的结果,得到作为错误的分析结果的“人手|不足|と|言う|が|いい|わけだ”。这样,置换图形未成为考虑到上下文的规则,通过使用置换图形,有时会得到错误的分析结果。图2是实施方式的词素分析装置的结构图。词素分析装置101具有辞典生成部201、词素分析部301和存储部401。辞典生成部201具有上下文独立辞典构建部211、词素分析部221和依赖性判定部231。上下文独立辞典构建部211使用词素分析部221和依赖性判定部231的判定结果来生成上下文独立辞典421。词素分析部221进行语料库411的词素分析。词素分析部221例如使用既存的词素分析方法进行词素分析。依赖性判定部231判定字符串是否是基于上下文而词素分析的结果不同(依赖于上下文)的字符串。在实施方式中,将基于上本文档来自技高网
...

【技术保护点】
1.一种计算机可读取的记录介质,其存储有词素分析程序,该词素分析程序使具有存储部的计算机执行如下处理,该存储部存储匹配辞典,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果,该处理为:针对分析对象文本中的与包含于所述匹配辞典中的所述字符串一致的字符串输出所述第1词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。

【技术特征摘要】
2017.07.06 JP 2017-1330651.一种计算机可读取的记录介质,其存储有词素分析程序,该词素分析程序使具有存储部的计算机执行如下处理,该存储部存储匹配辞典,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果,该处理为:针对分析对象文本中的与包含于所述匹配辞典中的所述字符串一致的字符串输出所述第1词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。2.根据权利要求1所述的计算机可读取的记录介质,其中,该词素分析程序还使所述计算机执行如下处理:进行所述多个句子的词素分析,并在分别包含在所述多个句子中的字符串的词素分析结果全部相同的情况下,将所述字符串登记于所述匹配辞典中。3.根据权利要求1所述的计算机可读取的记录介质,其中,所述匹配辞典包含多个字符串和所述多个字符串的多个词素分析结果,所述多个字符串包含分别包含在所述多个句子中的字符串和其他的字符串,所述多个词素分析结果包含所述第1词素分析结果和所述其他的字符串的词素分析结果,该词素分析程序还使所述计算机执行如下处理:针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串分别一致的多个字符串输出所述多个词素分析结果,针对所述分析对象文本中的与包含在所述匹配辞典中的所述多个字符串不一致的剩余的字符串,使用所述词素分析辞典生成所述点阵,使用所述点阵进行针对与所述多个字符串不一致的剩余的字符串的词素分析。4.一种词素分析装置,其具有:存储部,其存储匹配辞典,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果;第1分析部,其针对分析对象文本中的与包含在所述匹配辞典中的所述字符串一致的字符串,输出所述第1词素分析结果;以及第2分析部,其针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,并使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。5.根据权利要求4所述的词素分析装置,其中...

【专利技术属性】
技术研发人员:森田一岩仓友哉
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1