自动识别语句关系和实体的方法及装置制造方法及图纸

技术编号:15704829 阅读:257 留言:0更新日期:2017-06-26 09:54
本发明专利技术属于智能识别技术领域,提供了一种自动识别语句关系和实体的方法及装置。本发明专利技术的自动识别语句关系和实体的方法包括:将用户的输入语句投影到一个固定维度的空间中,得到所述输入语句在所述固定维度的空间中的句子向量;将所述句子向量输入预先训练好的深度学习分类器,得到所述输入语句的关系类别;若识别出关系类别,则识别所述输入语句中的实体。本发明专利技术提供的方法及系统,利用深度学习,从语义上对用户输入进行判断,可以精准识别关系;将实体识别建模为序列标注问题,利用条件随机场求解最优标注,从而精准识别实体;结合深度学习和条件随机场,实现了关系和实体的自动化抽取。

【技术实现步骤摘要】
自动识别语句关系和实体的方法及装置
本专利技术涉及智能识别术领域,具体涉及一种自动识别语句关系和实体的方法及装置。
技术介绍
在人机对话系统中,我们常常要识别用户是否是在表达某些特定领域的信息,比如喜好、昵称等信息;如果用户是在表达这些信息,我们往往还需要能够精确提取到这些信息所指的具体对象。通常,这些信息可以通过关系和实体来进行表示。关系主要是指用户在表达什么样的信息,比如是否是喜好、昵称等;而实体则是指关系所指的具体对象。比如用户表达“我喜欢吃麻辣香锅”,对应的关系是“喜欢”,对应的实体是“麻辣香锅”。在对话系统中,如何自动识别这种特定领域的关系和实体是一个颇具挑战性的问题。最常用来识别关系和实体的方法主要有两种:基于关键词和基于正则表达式。基于关键词的方法主要是通过关键词来识别关系。以喜好为例,如果用户输入的句子中包含“喜欢”一词,就认为是在表达喜欢;如果包含“不喜欢”一词,就认为是在表达不喜欢。然后再结合语法依存分析或者语义角色标注(SRL)来提取该关系的实体。比如“我喜欢周杰伦”,其中包含喜欢,基于关键词的方法认为这句话是在表达“喜欢”;通过依存分析可以知道,“周杰伦”依存于核心词“喜欢”,因此喜欢的对象是“周杰伦”,即识别出的实体是“周杰伦”。基于关键词的方法的缺点是存在大量的误判,即包含某个关键词的句子并不一定必然表达该关系。拿上面的喜好为例,用户输入“我目前还说不好是不是喜欢周杰伦”,里面既包含关键词“喜欢”,表达的意思却是一种不确定的状态。如果根据里面包含“喜欢”,就认为是喜欢关系,就难免有失偏颇了。这个例子揭示了仅仅根据关键词本身还是无法判断出关系,因为关键词包含的信息有限。对于判断关系所需要的信息比关键词本身所包含的信息大的情形,比如“说不好是不是喜欢”所包含的信息比单独的“喜欢”一词的信息量要大,基于关键词的方法就无能为力了。为了解决上面的问题,人们通常利用正则表达式来添加更多的限定条件,从而进行关系判断和实体抽取。比如通过正则表达式“我喜欢(.*)”来识别喜欢关系,表示只有句子中包含“我喜欢”的,才算是表达喜欢关系;后面的“(.*)”表示跟在“我喜欢”后面的所有文字,都认为是喜欢的对象,即实体。例如“我喜欢周杰伦”,可以识别到的关系是“喜欢”,实体是“周杰伦”。基于正则表达式的方法也存在跟基于关键词的方法同样的缺点,即存在大量的误判,连不属于该关系的情形也被识别为该关系。基于正则表达式的方法的另一个缺点是实体提取的功能比较脆弱,常常会提取到错误的实体。比如“我喜欢周杰伦才怪”符合上面的“我喜欢(.*)”模式,而意思却截然相反,用户表达的是不喜欢的关系。如果根据上面的正则,系统识别为喜欢的关系,而喜欢的对象是“周杰伦才怪”;这种情况之下,关系和实体皆识别错误。基于关键词和正则表达式的方法的另一个缺点是难以维护。由于自然语言表达的多样性,需要大量的关键词和正则表达式来覆盖各种各样的情形。而随着关键词和正则表达式的增多,系统也会变得很复杂。新增的关键词和正则表达式有可能跟现存在关键词和正则表达式相冲突。更糟的是,这种冲突通常比较隐蔽,人们通常很难事先判断是否存在这种冲突。很多情况是当出现问题之后,通过追踪问题的根源,才发现原来是规则之间的冲突所导致的。基于SRL或者依存关系来提取实体也不尽完善。由于中文表达的复杂性,SRL或者依存关系本身的准确率就不高。这种准确性不高情况之下,再利用各种规则进行实体识别,其精度也会受到影响,导致实体提取不准确的问题。综上所述,现有技术的缺陷如下:1、关系判断不准确的问题。仅仅根据关键词或者正则,没有考虑到句子本身的语义,从而导致关系误判。2、实体提取不准确的问题。根据正则表达式、SRL、语法分析、依存分析所提取到的实体,容易受到该方法本身存在的精度影响,导致实体提取错误。3、随着规则的增多,系统复杂度变高,很难事先判断新增的规则是否能够与原有的规则兼容,因此系统难以维护。
技术实现思路
针对现有技术中的缺陷,本专利技术提供的自动识别语句关系和实体的方法及装置,利用深度学习,从语义上对用户输入进行判断,可以精准识别关系;将实体识别建模为序列标注问题,利用条件随机场求解最优标注,从而精准识别实体;结合深度学习和条件随机场,实现了关系和实体的自动化抽取。第一方面,本专利技术提供的一种自动识别语句关系和实体的方法,包括:将用户的输入语句投影到一个固定维度的空间中,得到所述输入语句在所述固定维度的空间中的句子向量;将所述句子向量输入预先训练好的深度学习分类器,得到所述输入语句的关系类别;若识别出关系类别,则识别所述输入语句中的实体。本专利技术提供的自动识别语句关系和实体的方法,利用深度学习,从语义上对用户的输入语句进行判断,可以精准识别关系,有助于提高实体识别的准确度。优选地,所述将用户的输入语句投影到一个固定维度的空间中,得到所述输入语句在所述固定维度的空间中的句子向量,包括:对用户的输入语句进行分词;通过查找word2vec词向量,将每个分词转换成对应的词向量;根据每个分词的词向量,得到所述输入语句在一个固定维度的空间中的句子向量。优选地,所述将所述句子向量输入预先训练好的深度学习分类器,得到所述输入语句的关系类别,包括:将所述句子向量输入CNN层进行卷积操作,得到所述输入语句的局部特征;将所述局部特征输入LSTM层,得到所述输入语句中的前后词之间的关系编码;将所述关系编码输入ReLU层进行非线性变换;将非线性变换结果传递给输出层,得到所述输入语句的关系类别。优选地,所述深度学习分类器包括多个CNN层。优选地,所述深度学习分类器包括多个LSTM层。优选地,所述深度学习分类器的输出层采用Softmax函数或Sigmoid函数。优选地,所述识别所述输入语句中的实体,包括:将所述输入语句输入CRF模型,得到所述输入语句的最优序列标注,根据所述最优序列标注得到所述输入语句中的实体。优选地,所述深度学习分类器的训练步骤包括:将训练样本的句子向量输入预先构建的深度学习分类器,经过前馈得到训练样本的预测关系类别LP;通过损失函数F(LP,L)得到loss值,其中,L为样本实际标注的关系类别,loss值为LP与L之间的差异程度,根据所述loss值,使用随机梯度下降来进行梯度反向传播,修改所述深度学习分类器的参数;迭代训练所述深度学习分类器,直到所述深度学习分类器输出的预测关系类别与样本实际标注的关系类别的loss值小于预先设定的阈值,或者迭代次数超过预先设定的次数阈值。优选地,所述损失函数可以是交叉熵或者均方误差。第二方面,本专利技术提供的一种自动识别语句关系和实体的装置,包括:预处理模块,用于将用户的输入语句投影到一个固定维度的空间中,得到所述输入语句在所述固定维度的空间中的句子向量;关系识别模块,用于将所述句子向量输入预先训练好的深度学习分类器,得到所述输入语句的关系类别;实体识别模块,用于若识别出关系类别,则识别所述输入语句中的实体。本专利技术提供的自动识别语句关系和实体的装置,利用深度学习,从语义上对用户的输入语句进行判断,可以精准识别关系,有助于提高实体识别的准确度。附图说明图1为本专利技术实施例所提供的一种自动识别语句关系和实体的方法的流程图;图2为本专利技术实施例所提供的一种自本文档来自技高网
...
自动识别语句关系和实体的方法及装置

【技术保护点】
一种自动识别语句关系和实体的方法,其特征在于,包括:将用户的输入语句投影到一个固定维度的空间中,得到所述输入语句在所述固定维度的空间中的句子向量;将所述句子向量输入预先训练好的深度学习分类器,得到所述输入语句的关系类别;若识别出关系类别,则识别所述输入语句中的实体。

【技术特征摘要】
1.一种自动识别语句关系和实体的方法,其特征在于,包括:将用户的输入语句投影到一个固定维度的空间中,得到所述输入语句在所述固定维度的空间中的句子向量;将所述句子向量输入预先训练好的深度学习分类器,得到所述输入语句的关系类别;若识别出关系类别,则识别所述输入语句中的实体。2.根据权利要求1所述的方法,其特征在于,所述将用户的输入语句投影到一个固定维度的空间中,得到所述输入语句在所述固定维度的空间中的句子向量,包括:对用户的输入语句进行分词;通过查找word2vec词向量,将每个分词转换成对应的词向量;根据每个分词的词向量,得到所述输入语句在一个固定维度的空间中的句子向量。3.根据权利要求2所述的方法,其特征在于,所述将所述句子向量输入预先训练好的深度学习分类器,得到所述输入语句的关系类别,包括:将所述句子向量输入CNN层进行卷积操作,得到所述输入语句的局部特征;将所述局部特征输入LSTM层,得到所述输入语句中的前后词之间的关系编码;将所述关系编码输入ReLU层进行非线性变换;将非线性变换结果传递给输出层,得到所述输入语句的关系类别。4.根据权利要求3所述的方法,其特征在于,所述深度学习分类器包括多个CNN层。5.根据权利要求3所述的方法,其特征在于,所述深度学习分类器包括多个LSTM层。6.根据权利要求3所述的方法,其特征在于,所述深度学习分类器...

【专利技术属性】
技术研发人员:简仁贤王海波
申请(专利权)人:竹间智能科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1