主题推定装置、主题推定方法以及存储介质制造方法及图纸

技术编号:19247220 阅读:22 留言:0更新日期:2018-10-24 08:58
本发明专利技术所要解决的技术问题为,对以文档单位相对应的非对译语料库的各文档或者各单词进行跨语言的主题推定的精度不高。用于解决技术问题的方案为,通过主题推定装置来提高主题推定的精度,所述主题推定装置具备:单词分布信息保存部,与2个以上的各语言相对应地保存单词分布信息;文档主题分布生成部,取得多语言文档集合的文档主题分布信息;片段主题分布生成部,使用文档主题分布信息,取得各片段的片段主题分布信息;以及单词主题确定部,对于多语言文档集合具有的2个以上的各文档中包含的各单词,使用片段主题分布信息,确定并输出各单词的主题。

【技术实现步骤摘要】
【国外来华专利技术】主题推定装置、主题推定方法以及存储介质
本专利技术涉及主题(topic)推定装置等,其对于以文档单位相对应的非对译语料库的各文档或者各单词,分配跨语言的主题。
技术介绍
以往,提出了很多以无教师的方式对隐藏在文档中的潜在主题进行解析的主题模型。主题模型最初是以单一语言文档集合为对象,但是近年来,提出了相对于多语言文档集合解析语言共同的主题的多语言主题模式,应用于跨语言文档分类或对译对抽取等许多的多语言处理任务(参照非专利文献1)。而且,以BilingualLatentDirichletAllocation(BiLDA:双语潜在狄利克雷分布)(参照非专利文献2、3)为主,多数多语言主题模型使用维基百科的文章集合等、无直接对译关系但以文档单位共有话题与领域的多语言文档集合(以下或称为可对照语料库),推定主题。具体而言,通过利用可对照语料库的特征,使存在对应关系的文档的主题分布共同化,来进行反映出文档间的对应关系的主题推定。此外,在BiLDA中,通过使存在对应关系的文档的主题分布共同化,来解析隐藏在多语言文档中的语言共同的主题。详细而言,在BiLDA中,通过图14所示的模型,按照图15所示的算法取得文档的主题分布。图14示出通过BiLDA生成由用语言e与f记述的D个文档对构成的可对照语料库的生成过程与图形化模型。以下,将各文档对di(i∈{1,……,D})中的语言e的文档表述为die、语言f的文档表述为dif。在BiLDA中,各主题k∈{1,……,K})具有语言e的单词分布φke与语言f的单词分布φkf。而且,各单词分布φkl(l∈{e,f})是通过以βl为参数的狄利克雷分布生成的(参照图15的步骤1至5)。在文档对di的生成过程中,首先,通过以α为参数的狄利克雷分布生成相对于di的主题分布θi(图15的步骤7)。由此,存在对应关系的die与dif具有共同的主题分布θi。之后,相对于文档dil的各单词位置m∈{1,……,Nil},根据以θi为参数的多项分布(Multinomial(θi))生成潜在主题ziml(图15的步骤10)。然后,基于具体化的潜在主题ziml与语言l的单词分布φl,根据概率分布p(wiml|ziml,φl)生成单词wiml的主题(图15的步骤11)。在先技术文献非专利文献非专利文献1:IvanVuli′c,WimDeSmet,JieTang,andMarie-FrancineMoens.ProbabilisticTopicModelinginMultilingualSettings:AnShortOverviewofItsMethodologyandApplications.InformationProcessing&Management,Vol.51,No.1,pp.111–147,2015.非专利文献2:DavidMimno,HannaM.Wallach,JasonNaradowsky,DavidA.Smith,andAndrewMcCallum.PolylingualTopicModels.InProc.EMNLP2009,pp.880–889,2009.非专利文献3:XiaochuanNi,Jian-TaoSun,JianHu,andZhengChen.MiningMultilingualTopicsfromWikipedia.InProc.WWW2009,pp.1155–1156,2009.
技术实现思路
专利技术所要解决的技术问题另一方面,大多数文档具有“文档—片段(segement)—单词”的层次结构,在可对照语料库的情况下,以比文档小的单位相对应的情况较多。此外,片段是指,例如段落或章节,是构成文档的部分的部分文档,比单词大。但是,在以往技术中,在对以文档单位相对应的非对译语料库的各文档或者各单词进行跨语言的主题推定的情况下,由于未考虑片段,因此主题推定的精度不高。因此,本专利技术的目的在于,通过掌握可对照语料库中的片段间的对应关系的新的多语言主题模型来进行主题的推定,由此提高主题推定的精度。用于解决技术问题的方案本第一专利技术的主题推定装置具备:文档集合保存部,保存多语言文档集合,所述多语言文档集合为语言不同的2个以上的文档,且是分别具有作为文档的部分的2个以上的片段的、2个以上的文档的集合;对应管理部,管理1个以上的片段间对应关系,所述1个以上的片段间对应关系为构成多语言文档集合具有的2个以上的文档的2个以上的各片段间的对应,且是不同文档中包含的2个以上的片段间的对应;单词分布信息保存部,与2个以上的各语言相对应地保存表示2个以上的各主题的单词分布的单词分布信息;文档主题分布生成部,概率性地取得文档主题分布信息,所述文档主题分布信息表示主题分布,该主题分布是相对于多语言文档集合的主题分布、且是在2个以上的语言的各文档中共同的主题分布;片段主题分布生成部,对于具有通过1个以上的各片段间对应关系相互对应的2个以上的片段的1个以上的各片段集合,或者对于1个以上的片段集合以及未通过1个以上的各片段间对应关系相互对应的1个以上的各片段,使用包含各片段在内的文档的文档主题分布信息,概率性地取得片段主题分布信息,所述片段主题分布信息表示主题分布,且相对于构成片段集合的2个以上的各片段表示相同的主题分布;以及单词主题确定部,对于多语言文档集合具有的2个以上的各文档中包含的各单词,使用包含单词在内的片段的片段主题分布信息,概率性地确定并输出各单词的主题。根据该结构,通过还考虑比文档小的片段单位的对应关系,能够提高跨语言的主题推定的精度。另外,相对于第一专利技术,本第二专利技术的主题推定装置进一步具备单词分布信息取得部,所述单词分布信息取得部按照2个以上的各语言的每个语言、2个以上的各主题的每个主题,基于赋予了预先决定的第一超参数的狄利克雷分布,取得表示单词分布的单词分布信息;保存在单词分布信息保存部中的单词分布信息为单词分布信息取得部取得的单词分布信息;文档主题分布生成部相对于多语言文档集合,根据赋予了预先决定的第二超参数的狄利克雷分布生成文档主题分布信息;进一步具备片段集合取得部,所述片段集合取得部使用片段间对应关系,取得存在对应关系的1个以上的片段集合;片段主题分布生成部对于片段集合取得部取得的1个以上的各片段集合,或者对于片段集合取得部取得的1个以上的片段集合以及未通过1个以上的各片段间对应关系相互对应的1个以上的各片段,通过使用了基底测度、预先决定的集中度参数、以及预先决定的折扣参数(discountparameter)的Pitman-Yor过程,生成片段主题分布信息,所述基底测度是包含1个以上的各片段在内的文档的文档主题分布信息;单词主题确定部按照2个以上的各语言的每个文档以及各文档中包含的每个片段,相对于各片段中包含的各单词的位置,从以片段的片段主题分布信息为参数的多项分布中取得隐藏变量即潜在主题,使用潜在主题和与文档相对应的单词分布信息,概率性地确定并输出各单词的主题。根据该结构,通过还考虑比文档小的片段单位的对应关系,能够提高跨语言的主题推定的精度。另外,相对于第一或者第二专利技术,本第三专利技术的主题推定装置进一步具备片段间对应关系取得部,所述片段间对应关系取得部计算多语言文档集本文档来自技高网
...

【技术保护点】
1.一种主题推定装置,具备:文档集合保存部,保存多语言文档集合,所述多语言文档集合为语言不同的2个以上的文档,且是分别具有作为文档的部分的2个以上的片段的、2个以上的文档的集合;对应管理部,管理1个以上的片段间对应关系,所述1个以上的片段间对应关系为构成所述多语言文档集合具有的2个以上的文档的2个以上的各片段间的对应,且是不同文档中包含的2个以上的片段间的对应;单词分布信息保存部,与2个以上的各语言相对应地保存表示2个以上的各主题的单词分布的单词分布信息;文档主题分布生成部,概率性地取得文档主题分布信息,所述文档主题分布信息表示主题分布,该主题分布是相对于所述多语言文档集合的主题分布、且是在2个以上的语言的各文档中共同的主题分布;片段主题分布生成部,对于具有通过所述1个以上的各片段间对应关系相互对应的2个以上的片段的1个以上的各片段集合,或者对于1个以上的片段集合以及未通过所述1个以上的各片段间对应关系相互对应的1个以上的各片段,使用包含各片段在内的文档的文档主题分布信息,概率性地取得片段主题分布信息,所述片段主题分布信息表示主题分布,且相对于构成所述片段集合的2个以上的各片段表示相同的主题分布;以及单词主题确定部,对于所述多语言文档集合具有的2个以上的各文档中包含的各单词,使用包含该单词在内的片段的片段主题分布信息,概率性地确定并输出各单词的主题。...

【技术特征摘要】
【国外来华专利技术】2016.02.24 JP 2016-0329311.一种主题推定装置,具备:文档集合保存部,保存多语言文档集合,所述多语言文档集合为语言不同的2个以上的文档,且是分别具有作为文档的部分的2个以上的片段的、2个以上的文档的集合;对应管理部,管理1个以上的片段间对应关系,所述1个以上的片段间对应关系为构成所述多语言文档集合具有的2个以上的文档的2个以上的各片段间的对应,且是不同文档中包含的2个以上的片段间的对应;单词分布信息保存部,与2个以上的各语言相对应地保存表示2个以上的各主题的单词分布的单词分布信息;文档主题分布生成部,概率性地取得文档主题分布信息,所述文档主题分布信息表示主题分布,该主题分布是相对于所述多语言文档集合的主题分布、且是在2个以上的语言的各文档中共同的主题分布;片段主题分布生成部,对于具有通过所述1个以上的各片段间对应关系相互对应的2个以上的片段的1个以上的各片段集合,或者对于1个以上的片段集合以及未通过所述1个以上的各片段间对应关系相互对应的1个以上的各片段,使用包含各片段在内的文档的文档主题分布信息,概率性地取得片段主题分布信息,所述片段主题分布信息表示主题分布,且相对于构成所述片段集合的2个以上的各片段表示相同的主题分布;以及单词主题确定部,对于所述多语言文档集合具有的2个以上的各文档中包含的各单词,使用包含该单词在内的片段的片段主题分布信息,概率性地确定并输出各单词的主题。2.根据权利要求1所述的主题推定装置,其中,进一步具备片段集合取得部,所述片段集合取得部使用所述片段间对应关系,取得存在对应关系的1个以上的片段集合,所述片段主题分布生成部对于所述片段集合取得部取得的1个以上的各片段集合,或者对于所述片段集合取得部取得的1个以上的片段集合以及未通过所述1个以上的各片段间对应关系相互对应的1个以上的各片段,通过使用了基底测度、预先决定的集中度参数、以及预先决定的折扣参数的Pitman-Yor过程,生成片段主题分布信息,所述基底测度是包含1个以上的各片段在内的文档的文档主题分布信息。3.根据权利要求1所述的主题推定装置,其中,所述单词主题确定部按照2个以上的各语言的每个文档以及各文档中包含的每个片段,相对于各片段中包含的各单词的位置,从以该片段的片段主题分布信息为参数的多项分布中取得隐藏变量即潜在主题,使用该潜在主题和与所述文档相对应的单词分布信息,概率性地确定并输出各单词的主题。4.根据权利要求1所述的主题推定装置,其中,进一步具备片段间对应关系取得部,所述片段间对应关系取得部计算所述多语言文档集合具有的、语言不同的2个以上的各文档所具有的片段间的相似度,使用该相似度,取得1个以上的片段间对应关系,所述对应管理部的1个以上的片段间对应关系为所述片段间对应关系取得部取得的片段间对应关系。5.一种主题推定方法,其中,存储介质具备:文档集合保存部,保存多语言文档集合,所...

【专利技术属性】
技术研发人员:田村晃裕隅田英一郎木俵丰
申请(专利权)人:国立研究开发法人情报通信研究机构
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1