主题推定装置、主题推定方法以及存储介质制造方法及图纸

技术编号：19247220 阅读：22 留言：0更新日期：2018-10-24 08:58

本发明专利技术所要解决的技术问题为，对以文档单位相对应的非对译语料库的各文档或者各单词进行跨语言的主题推定的精度不高。用于解决技术问题的方案为，通过主题推定装置来提高主题推定的精度，所述主题推定装置具备：单词分布信息保存部，与2个以上的各语言相对应地保存单词分布信息；文档主题分布生成部，取得多语言文档集合的文档主题分布信息；片段主题分布生成部，使用文档主题分布信息，取得各片段的片段主题分布信息；以及单词主题确定部，对于多语言文档集合具有的2个以上的各文档中包含的各单词，使用片段主题分布信息，确定并输出各单词的主题。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】主题推定装置、主题推定方法以及存储介质
本专利技术涉及主题(topic)推定装置等，其对于以文档单位相对应的非对译语料库的各文档或者各单词，分配跨语言的主题。
技术介绍
以往，提出了很多以无教师的方式对隐藏在文档中的潜在主题进行解析的主题模型。主题模型最初是以单一语言文档集合为对象，但是近年来，提出了相对于多语言文档集合解析语言共同的主题的多语言主题模式，应用于跨语言文档分类或对译对抽取等许多的多语言处理任务(参照非专利文献1)。而且，以BilingualLatentDirichletAllocation(BiLDA：双语潜在狄利克雷分布)(参照非专利文献2、3)为主，多数多语言主题模型使用维基百科的文章集合等、无直接对译关系但以文档单位共有话题与领域的多语言文档集合(以下或称为可对照语料库)，推定主题。具体而言，通过利用可对照语料库的特征，使存在对应关系的文档的主题分布共同化，来进行反映出文档间的对应关系的主题推定。此外，在BiLDA中，通过使存在对应关系的文档的主题分布共同化，来解析隐藏在多语言文档中的语言共同的主题。详细而言，在BiLDA中，通过图14所示的模型，按照图15所示的算法取得文档的主题分布。图14示出通过BiLDA生成由用语言e与f记述的D个文档对构成的可对照语料库的生成过程与图形化模型。以下，将各文档对di(i∈{1，……，D})中的语言e的文档表述为die、语言f的文档表述为dif。在BiLDA中，各主题k∈{1，……，K})具有语言e的单词分布φke与语言f的单词分布φkf。而且，各单词分布φkl(l∈{e，f})是通过以βl为参数...

【技术保护点】
1.一种主题推定装置，具备：文档集合保存部，保存多语言文档集合，所述多语言文档集合为语言不同的2个以上的文档，且是分别具有作为文档的部分的2个以上的片段的、2个以上的文档的集合；对应管理部，管理1个以上的片段间对应关系，所述1个以上的片段间对应关系为构成所述多语言文档集合具有的2个以上的文档的2个以上的各片段间的对应，且是不同文档中包含的2个以上的片段间的对应；单词分布信息保存部，与2个以上的各语言相对应地保存表示2个以上的各主题的单词分布的单词分布信息；文档主题分布生成部，概率性地取得文档主题分布信息，所述文档主题分布信息表示主题分布，该主题分布是相对于所述多语言文档集合的主题分布、且是在2个以上的语言的各文档中共同的主题分布；片段主题分布生成部，对于具有通过所述1个以上的各片段间对应关系相互对应的2个以上的片段的1个以上的各片段集合，或者对于1个以上的片段集合以及未通过所述1个以上的各片段间对应关系相互对应的1个以上的各片段，使用包含各片段在内的文档的文档主题分布信息，概率性地取得片段主题分布信息，所述片段主题分布信息表示主题分布，且相对于构成所述片段集合的2个以上的各片段表示相同...

【技术特征摘要】
【国外来华专利技术】2016.02.24 JP 2016-0329311.一种主题推定装置，具备：文档集合保存部，保存多语言文档集合，所述多语言文档集合为语言不同的2个以上的文档，且是分别具有作为文档的部分的2个以上的片段的、2个以上的文档的集合；对应管理部，管理1个以上的片段间对应关系，所述1个以上的片段间对应关系为构成所述多语言文档集合具有的2个以上的文档的2个以上的各片段间的对应，且是不同文档中包含的2个以上的片段间的对应；单词分布信息保存部，与2个以上的各语言相对应地保存表示2个以上的各主题的单词分布的单词分布信息；文档主题分布生成部，概率性地取得文档主题分布信息，所述文档主题分布信息表示主题分布，该主题分布是相对于所述多语言文档集合的主题分布、且是在2个以上的语言的各文档中共同的主题分布；片段主题分布生成部，对于具有通过所述1个以上的各片段间对应关系相互对应的2个以上的片段的1个以上的各片段集合，或者对于1个以上的片段集合以及未通过所述1个以上的各片段间对应关系相互对应的1个以上的各片段，使用包含各片段在内的文档的文档主题分布信息，概率性地取得片段主题分布信息，所述片段主题分布信息表示主题分布，且相对于构成所述片段集合的2个以上的各片段表示相同的主题分布；以及单词主题确定部，对于所述多语言文档集合具有的2个以上的各文档中包含的各单词，使用包含该单词在内的片段的片段主题分布信息，概率性地确定并输出各单词的主题。2.根据权利要求1所述的主题推定装置，其中，进一步具备片段集合取得部，所述片段集合取得部使用所述片段间对应关系，取得存在对应关系的1个以上的片段集合，所述片段主题分布生成部对于所述片段集合取得部取得的1个以上的各片段集合，或者对于所述片段集合取得部取得的1个以上的片段集合以及未通过所述1个以上的各片段间对应关系相互对应的1个以上的各片段，通过使用了基底测度、预先决定的集中度参数、以及预先决定的折扣参数的Pitman-Yor过程，生成片段主题分布信息，所述基底测度是包含1个以上的各片段在内的文档的文档主题分布信息。3.根据权利要求1所述的主题推定装置，其中，所述单词主题确定部按照2个以上的各语言的每个文档以及各文档中包含的每个片段，相对于各片段中包含的各单词的位置，从以该片段的片段主题分布信息为参数的多项分布中取得隐藏变量即潜在主题，使用该潜在主题和与所述文档相对应的单词分布信息，概率性地确定并输出各单词的主题。4.根据权利要求1所述的主题推定装置，其中，进一步具备片段间对应关系取得部，所述片段间对应关系取得部计算所述多语言文档集合具有的、语言不同的2个以上的各文档所具有的片段间的相似度，使用该相似度，取得1个以上的片段间对应关系，所述对应管理部的1个以上的片段间对应关系为所述片段间对应关系取得部取得的片段间对应关系。5.一种主题推定方法，其中，存储介质具备：文档集合保存部，保存多语言文档集合，所...

【专利技术属性】
技术研发人员：田村晃裕，隅田英一郎，木俵丰，
申请(专利权)人：国立研究开发法人情报通信研究机构，
类型：发明
国别省市：日本,JP

全部详细技术资料下载我是这个专利的主人