语句结构向量化装置、语句结构向量化方法及语句结构向量化程序制造方法及图纸

技术编号：29882297 阅读：15 留言：0更新日期：2021-08-31 23:59

语句结构向量化装置(100)具有：词素分析部(110)，其对输入语句进行词素分析，由此生成多个词素；依赖分析部(120)，其对多个词素进行依赖分析，由此生成与多个词素相关的依存结构图；以及语句结构向量化部(130)，其从依存结构图中提取多个部分结构信息，将与多个部分结构信息对应的词素串转换成数值序列，由此生成语句结构向量。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】语句结构向量化装置、语句结构向量化方法及语句结构向量化程序
本专利技术涉及语句结构向量化装置、语句结构向量化方法及语句结构向量化程序。
技术介绍
由于万维网(WorldWideWeb)的普及扩大，积累有以自然语言记述的大量电子化文本(以下也称作“文本”)。因此，从积累的文本中找出希望的文本的全文检索技术、结合记述内容对积累的文本进行分类的文档分类技术等的重要性不断提高。例如，在全文检索技术中，基于输入的查询文本(即，提问语句文本)与检索对象文本之间的内容相似度，决定检索对象文本的排序(即，位次)。另外，在文档分类技术中，基于文本间的内容相似度，将各文本分类成多个类别中的任意一个。为了求出文本间的内容相似度即文本中包含的语句间的语义相似度，已知有从文本中提取被称作概念向量的特征量的技术。例如，专利文献1提出有如下系统：对文本进行词素分析，提取内容词(即，词条)，并且生成基于词条的索引，将各词条作为根据文本内的重要度加权后的词条向量进行处理，通过对词条向量进行合成而得到的向量来表现各文本的特征量。在检索时，使用对加权后的词条向量进行合成而得到的检索查询向量，计算查询文本与检索对象文本的相似度。相似度例如是2个向量所成的角的余弦即余弦(cosine)相似度。但是，在该方法中，由于使用通过词素分析得到的各个词条来构成向量，因此，存在以下问题：即使是彼此的语义不同的文本，对于内容词组(Bag-of-Words：BoW，词袋模型)相同的文本，也判定为相似度高。为了解决该问题，专利文献2提出有如下方法：通过...

【技术保护点】
1.一种语句结构向量化装置，其特征在于，该语句结构向量化装置具有：/n词素分析部，其对输入语句进行词素分析，由此生成多个词素；/n依赖分析部，其对所述多个词素进行依赖分析，由此生成与所述多个词素相关的依存结构图；以及/n语句结构向量化部，其从所述依存结构图中提取多个部分结构信息，将与所述多个部分结构信息对应的词素串转换成数值序列，由此生成语句结构向量。/n

【技术特征摘要】
【国外来华专利技术】1.一种语句结构向量化装置，其特征在于，该语句结构向量化装置具有：
词素分析部，其对输入语句进行词素分析，由此生成多个词素；
依赖分析部，其对所述多个词素进行依赖分析，由此生成与所述多个词素相关的依存结构图；以及
语句结构向量化部，其从所述依存结构图中提取多个部分结构信息，将与所述多个部分结构信息对应的词素串转换成数值序列，由此生成语句结构向量。

2.根据权利要求1所述的语句结构向量化装置，其特征在于，
所述语句结构向量化部生成多个词素信息，该多个词素信息包含所述多个词素的各个词素与通过依赖分析得到的表示依赖关系的信息的对，
所述语句结构向量化部从所述多个词素信息中提取所述多个部分结构信息。

3.根据权利要求1或2所述的语句结构向量化装置，其特征在于，
在设N为3以上的整数时，所述多个部分结构信息包含与1个词素相关的1词素结构信息～与N个词素相关的N词素结构信息，
所述语句结构向量化部通过对N-1词素结构信息和2词素结构信息进行合并的处理来生成所述N词素结构信息。

4.根据权利要求1～3中的任意一项所述的语句结构向量化装置，其特征在于，该语句结构向量化装置还具有存储部，该存储部存储所述语句结构向量。

5.根据权利要求1～4中的任意...

【专利技术属性】
技术研发人员：伍井启恭，
申请(专利权)人：三菱电机株式会社，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人