语句结构向量化装置、语句结构向量化方法及语句结构向量化程序制造方法及图纸

技术编号:29882297 阅读:15 留言:0更新日期:2021-08-31 23:59
语句结构向量化装置(100)具有:词素分析部(110),其对输入语句进行词素分析,由此生成多个词素;依赖分析部(120),其对多个词素进行依赖分析,由此生成与多个词素相关的依存结构图;以及语句结构向量化部(130),其从依存结构图中提取多个部分结构信息,将与多个部分结构信息对应的词素串转换成数值序列,由此生成语句结构向量。

【技术实现步骤摘要】
【国外来华专利技术】语句结构向量化装置、语句结构向量化方法及语句结构向量化程序
本专利技术涉及语句结构向量化装置、语句结构向量化方法及语句结构向量化程序。
技术介绍
由于万维网(WorldWideWeb)的普及扩大,积累有以自然语言记述的大量电子化文本(以下也称作“文本”)。因此,从积累的文本中找出希望的文本的全文检索技术、结合记述内容对积累的文本进行分类的文档分类技术等的重要性不断提高。例如,在全文检索技术中,基于输入的查询文本(即,提问语句文本)与检索对象文本之间的内容相似度,决定检索对象文本的排序(即,位次)。另外,在文档分类技术中,基于文本间的内容相似度,将各文本分类成多个类别中的任意一个。为了求出文本间的内容相似度即文本中包含的语句间的语义相似度,已知有从文本中提取被称作概念向量的特征量的技术。例如,专利文献1提出有如下系统:对文本进行词素分析,提取内容词(即,词条),并且生成基于词条的索引,将各词条作为根据文本内的重要度加权后的词条向量进行处理,通过对词条向量进行合成而得到的向量来表现各文本的特征量。在检索时,使用对加权后的词条向量进行合成而得到的检索查询向量,计算查询文本与检索对象文本的相似度。相似度例如是2个向量所成的角的余弦即余弦(cosine)相似度。但是,在该方法中,由于使用通过词素分析得到的各个词条来构成向量,因此,存在以下问题:即使是彼此的语义不同的文本,对于内容词组(Bag-of-Words:BoW,词袋模型)相同的文本,也判定为相似度高。为了解决该问题,专利文献2提出有如下方法:通过对文本的结构进行依赖分析,将文本的结构转换成带标签的顺序树(即,依存结构树),将该依存结构树的部分结构作为特征量进行向量化。但是,近年来,已知并列结构等语句的语义结构不能利用依存结构树来充分地表现。为了解决该问题,非专利文献1提出有使用依赖图结构(dependencygraph)来表现语句的语义结构的方法。现有技术文献专利文献专利文献1:日本特开2002-14970号公报专利文献2:日本特开2003-271599号公报非专利文献非专利文献1:Schuster、Sebastian以及另外1名,“EnhancedEnglishUniversalDependencies:AnImprovedRepresentationforNaturalLanguageUnderstandingTasks”,LRECStanfordUniversity,ID779,2016年非专利文献2:Marie-CatherinedeMarneffe以及另外1名,“Stanfordtypeddependenciesmanual”,RevisedfortheStanfordParserv.3.7.0,2016年9月
技术实现思路
专利技术要解决的课题然而,在从依赖图结构中提取作为其部分结构的部分图的情况下,提取出的部分图的数量对应于依赖图结构的大小而呈指数函数地增加,因此,存在用于文本结构向量化的计算量增大的问题。本专利技术正是为了解决上述课题而完成的,提供一种能够以较少的计算量适当地对语句结构进行向量化的语句结构向量化装置、语句结构向量化方法及语句结构向量化程序。用于解决课题的手段本专利技术一个方式的语句结构向量化装置的特征在于,具有:词素分析部,其对输入语句进行词素分析,由此生成多个词素;依赖分析部,其对所述多个词素进行依赖分析,由此生成与所述多个词素相关的依存结构图;以及语句结构向量化部,其从所述依存结构图中提取多个部分结构信息,将与所述多个部分结构信息对应的词素串转换成数值序列,由此生成语句结构向量。本专利技术另一方式的语句结构向量化方法的特征在于,具有以下步骤:对输入语句进行词素分析,由此生成多个词素;对所述多个词素进行依赖分析,由此生成与所述多个词素相关的依存结构图;以及从所述依存结构图中提取多个部分结构信息,将与所述多个部分结构信息对应的词素串转换成数值序列,由此生成语句结构向量。专利技术效果根据本专利技术,能够以较少的计算量适当地对语句结构进行向量化。附图说明图1是表示本专利技术实施方式1的语句结构向量化装置的硬件结构的例子的图。图2是表示实施方式1的语句结构向量化装置的硬件结构的另一例的图。图3是概略地表示实施方式1的语句结构向量化装置的结构的功能框图。图4是表示实施方式1的语句结构向量化装置的动作的流程图。图5是表示输入到实施方式1的语句结构向量化装置的输入语句的例子的图。图6是表示由实施方式1的语句结构向量化装置的词素分析部执行的词素分析的结果的例子的图。图7是表示由实施方式1的语句结构向量化装置的依赖分析部执行的依赖分析的结果的例子的图。图8是以图结构表示图7所示的依赖分析结果的图。图9是表示存储器中存储的N元语法编号1~4的词素信息的图。图10的(a)~(d)是表示通过对与提取出的2个词素相关的信息赋予重编号词素编号和重编号依赖编号而生成的信息的图。图11是表示存储器中存储的N元语法编号1~7的词素信息的图。图12是表示在部分图由2个词素构成时的处理中使用的2词素结构编号与重编号依赖编号的对应关系的图。图13的(a)~(e)是表示通过将从图10的(a)~(d)所示的信息中提取出的信息合并而生成的信息的图。图14是表示存储器中存储的N元语法编号1~10的词素信息的图。图15是表示在部分图由3个词素构成时的处理中使用的3词素结构编号与重编号依赖编号的对应关系的图。图16是表示从图9~图15的信息中提取出的与语句结构向量化相关的信息的例子的图。图17是概略地表示本专利技术实施方式2的语句结构向量化装置的结构的功能框图。具体实施方式以下,参照附图对本专利技术实施方式的语句结构向量化装置、语句结构向量化方法及语句结构向量化程序进行说明。在各图中,对相同的结构要素标注相同的标号。此外,以下的实施方式只不过是示例,能够在本专利技术的范围内进行各种变更。例如,能够适当组合各实施方式的结构。另外,在本申请中,使用非专利文献1、2中示出的用词。实施方式1首先,对本专利技术实施方式1的语句结构向量化装置100的结构进行说明。图1是表示实施方式1的语句结构向量化装置100的硬件结构的例子的图。在图1所示的例子中,语句结构向量化装置100例如具有存储作为软件的程序(即语句结构向量化程序)的存储器20和作为执行存储器20中存储的程序的运算处理部的处理器10。处理器10是CPU(CentralProcessingUnit:中央处理单元)等信息处理电路。存储器20例如是RAM(RandomAccessMemory:随机存取存储器)等易失性的存储装置。语句结构向量化装置100例如是计算机。实施方式1的语句结构向量化程序从记录信息的记录介质经由介质信息读取装置(未图示)或经由能够与互联网等连接的本文档来自技高网
...

【技术保护点】
1.一种语句结构向量化装置,其特征在于,该语句结构向量化装置具有:/n词素分析部,其对输入语句进行词素分析,由此生成多个词素;/n依赖分析部,其对所述多个词素进行依赖分析,由此生成与所述多个词素相关的依存结构图;以及/n语句结构向量化部,其从所述依存结构图中提取多个部分结构信息,将与所述多个部分结构信息对应的词素串转换成数值序列,由此生成语句结构向量。/n

【技术特征摘要】
【国外来华专利技术】1.一种语句结构向量化装置,其特征在于,该语句结构向量化装置具有:
词素分析部,其对输入语句进行词素分析,由此生成多个词素;
依赖分析部,其对所述多个词素进行依赖分析,由此生成与所述多个词素相关的依存结构图;以及
语句结构向量化部,其从所述依存结构图中提取多个部分结构信息,将与所述多个部分结构信息对应的词素串转换成数值序列,由此生成语句结构向量。


2.根据权利要求1所述的语句结构向量化装置,其特征在于,
所述语句结构向量化部生成多个词素信息,该多个词素信息包含所述多个词素的各个词素与通过依赖分析得到的表示依赖关系的信息的对,
所述语句结构向量化部从所述多个词素信息中提取所述多个部分结构信息。


3.根据权利要求1或2所述的语句结构向量化装置,其特征在于,
在设N为3以上的整数时,所述多个部分结构信息包含与1个词素相关的1词素结构信息~与N个词素相关的N词素结构信息,
所述语句结构向量化部通过对N-1词素结构信息和2词素结构信息进行合并的处理来生成所述N词素结构信息。


4.根据权利要求1~3中的任意一项所述的语句结构向量化装置,其特征在于,该语句结构向量化装置还具有存储部,该存储部存储所述语句结构向量。


5.根据权利要求1~4中的任意...

【专利技术属性】
技术研发人员:伍井启恭
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1