信息处理装置、生成方法以及生成程序制造方法及图纸

技术编号:37102977 阅读:13 留言:0更新日期:2023-04-01 05:02
信息处理装置(100)具有:取得部(120),其取得多个字符串;词素分析执行部(130),其对多个字符串执行词素分析;以及生成部(150),其根据作为通过对多个字符串执行词素分析而得到的多个带词性单词中的多个谓语的多个单词和多个带词性单词中的多个单词,生成已学习模型,该已学习模型对多个带词性单词中的多个单词中的第1单词的意思进行推理。词中的第1单词的意思进行推理。词中的第1单词的意思进行推理。

【技术实现步骤摘要】
【国外来华专利技术】信息处理装置、生成方法以及生成程序


[0001]本专利技术涉及信息处理装置、生成方法以及生成程序。

技术介绍

[0002]已研究多年从庞大的文本中检索期望文本的全文检索技术、按照描述内容对文本进行分类的文档分类技术和计算机回答人的提问的提问应答技术。在这些技术中,重要的是分析以自然语言描述的文本内容意思的意思处理。在此,已提出与意思处理相关的技术(参照专利文献1)。此外,非专利文献1中记载有与意思处理相关的技术。例如,在非专利文献1中例示有基于方差表现的学习。
[0003]现有技术文献
[0004]专利文献
[0005]专利文献1:日本特开昭62

221776号公报
[0006]非专利文献
[0007]非专利文献1:岡崎直観「言語処理
における
分散表現学習
のフロンティア
」、人工知能、Vol.31、No2、p189

201、2016.3

技术实现思路

[0008]专利技术要解决的课题
[0009]在非专利文献1记载的技术中,对1个单词分配有1个单词向量。因此,被分配有单词向量的单词仅被推理1个意思。但是,单词的意思根据上下文而改变。因此,非专利文献1记载的技术未能与单词的多义性对应。此外,非专利文献1记载的技术的向量被维度压缩,因此,在学习时需要庞大的处理时间。
[0010]本专利技术的目的在于,以较短的处理时间生成与多义性对应的已学习模型。
[0011]用于解决课题的手段
[0012]提供本专利技术一个方式的信息处理装置。信息处理装置具有:取得部,其取得多个字符串;词素分析执行部,其对所述多个字符串执行词素分析;以及生成部,其根据作为通过对所述多个字符串执行词素分析而得到的多个带词性单词中的多个谓语的多个单词和所述多个带词性单词中的多个单词,生成已学习模型,该已学习模型对所述多个带词性单词中的多个单词中的第1单词的意思进行推理。
[0013]专利技术效果
[0014]根据本专利技术,能够以较短的处理时间生成与多义性对应的已学习模型。
附图说明
[0015]图1是示出实施方式1的信息处理装置具有的硬件结构的图。
[0016]图2是示出实施方式1的学习阶段中的信息处理装置具有的功能块的图。
[0017]图3是示出实施方式1的学习阶段中的信息处理装置执行的处理的例子的流程图
(其一)。
[0018]图4是示出实施方式1的学习处理的例子的流程图。
[0019]图5是示出实施方式1的子单词上下文矩阵的例子(其一)的图。
[0020]图6是示出实施方式1的子单词上下文矩阵的例子(其二)的图。
[0021]图7是示出实施方式1的学习阶段中的信息处理装置执行的处理的例子的流程图(其二)。
[0022]图8是示出实施方式1的根据提问句和应答句生成已学习模型的情况下的具体例的图。
[0023]图9是示出实施方式1的运用阶段中的信息处理装置具有的功能块的图。
[0024]图10是示出实施方式1的运用阶段中的信息处理装置执行的处理的例子的流程图。
[0025]图11是示出比较例的图。
[0026]图12是示出实施方式2的运用阶段中的信息处理装置具有的功能块的图。
[0027]图13是示出实施方式2的运用阶段中的信息处理装置执行的处理的例子的流程图。
具体实施方式
[0028]以下,参照附图说明实施方式。以下的实施方式仅是一例,能够在本专利技术的范围内进行各种变更。
[0029]实施方式1
[0030]<学习阶段>
[0031]图1是示出实施方式1的信息处理装置具有的硬件结构的图。信息处理装置100是执行生成方法的装置。信息处理装置100也可以称作学习装置。例如,信息处理装置100可以被认为是云服务器。此外,信息处理装置100也可以是系统的一部分。
[0032]信息处理装置100具有处理器101、易失性存储装置102和非易失性存储装置103。
[0033]处理器101对信息处理装置100的整体进行控制。例如,处理器101是CPU(Central Processing Unit:中央处理单元)、FPGA(Field Programmable Gate Array:现场可编程门阵列)等。处理器101也可以是多处理器。信息处理装置100也可以通过处理电路实现,或者,也可以通过软件、固件或它们的组合实现。另外,处理电路还可以是单一电路或者复合电路。
[0034]易失性存储装置102是信息处理装置100的主存储装置。例如,易失性存储装置102是RAM(Random Access Memory:随机存取存储器)。非易失性存储装置103是信息处理装置100的辅助存储装置。例如,非易失性存储装置103是HDD(Hard Disk drive:硬盘驱动器)或者SSD(Solid State drive:固态驱动器)。
[0035]接着,说明信息处理装置100具有的功能。
[0036]图2是示出实施方式1的学习阶段中的信息处理装置具有的功能块的图。信息处理装置100具有存储部110、取得部120、词素分析执行部130、谓语分割部140和生成部150。
[0037]存储部110也可以作为易失性存储装置102或者非易失性存储装置103中确保的存储区域实现。
[0038]取得部120、词素分析执行部130、谓语分割部140和生成部150的一部分或全部也可以通过处理电路实现。取得部120、词素分析执行部130、谓语分割部140和生成部150的一部分或全部也可以作为处理器101执行的程序的模块实现。例如,处理器101执行的程序也称作生成程序。例如,生成程序记录于记录介质。
[0039]取得部120取得学习用数据。详细而言,取得部120取得多个字符串。例如,取得部120取得包含多个字符串的学习用数据。学习用数据是文本数据。此外,学习用数据也可以称作学习用例句。
[0040]词素分析执行部130对多个字符串执行词素分析。由此,得到多个带词性单词。
[0041]在此,取得部120也可以依次取得作为学习用数据的字符串。由此,取得多个字符串。而且,词素分析执行部130也可以对依次取得的多个字符串执行词素分析。由此,得到多个带词性单词。
[0042]谓语分割部140的功能容后说明。另外,谓语分割部140的功能也可以包含于生成部150。即,信息处理装置100也可以具有存储部110、取得部120、词素分析执行部130和包含谓语分割部140的功能的生成部150。
[0043]生成部150根据作为通过对多个字符串执行词素分析而得到的多个带词性单词中的多个谓语的多个单词和该多个带词性单词中的多个单词,生成已学习模型。换言之,生成部150根据与该多个带词性单词中的多个谓语对应的多个单词和该多个带词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种信息处理装置,其中,该信息处理装置具有:取得部,其取得多个字符串;词素分析执行部,其对所述多个字符串执行词素分析;以及生成部,其根据作为通过对所述多个字符串执行词素分析而得到的多个带词性单词中的多个谓语的多个单词和所述多个带词性单词中的多个单词,生成已学习模型,该已学习模型对所述多个带词性单词中的多个单词中的第1单词的意思进行推理。2.根据权利要求1所述的信息处理装置,其中,所述生成部根据作为所述多个带词性单词中的多个动词的多个单词和所述多个带词性单词中的多个单词,生成所述已学习模型。3.根据权利要求1或2所述的信息处理装置,其中,所述多个字符串是提问句的字符串和针对所述提问句的应答句的字符串。4.根据权利要求1~3中的任意一项所述的信息处理装置,其中,该信息处理装置还具有指定受理部和推理部,所述取得部取得作为包含所述第1单词的字符串的字符串数据,所述词素分析执行部对所述字符串数据执行词素分析,所述指定受理部受理通过对所述字符串数据执行词素分析而得到的多个单词中的所述第1单词的指定,所述推理部根据通过对所述字符串数据执行词素分析而得到的多个单词和所述已学习模型,对所述第1单词的意思进行推理。5....

【专利技术属性】
技术研发人员:伍井启恭
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1