【技术实现步骤摘要】
文本编码方法及系统
本专利技术涉及自然语言处理领域,尤其是一种文本编码方法及系统。
技术介绍
随着人工智能的不断发展,人类对人机交互的期待与要求越来越高,自然语言处理作为人机交互中的重要一环,备受人们的关注。目前,自然语言处理正处于探索阶段,句法分析、自然语言信息提取等技术都是研究热点。其中,研究人员较为关注的任务之一是如何可以将自然语言的文本数据进行编码,将编码后的文本用于复杂的自然语言处理中。现有的文本编码方法一般是将文本数据表示为二叉树的形式,基于二叉树的结构构建文本编码模型,利用该文本编码模型将文本数据映射到一个低维的向量空间中,将文本数据表示成向量,所述向量即编码后的文本表示。然而,基于二叉树的结构构建的文本编码模型,由于二叉树的构建是直接将每句文本中的词堆叠在一起,并且二叉树中的所有子节点与父节点之间词向量的映射使用相同的转换矩阵和偏置项,导致训练得到的文本编码模型不能清晰地体现出词与词之间的依赖关系,同时也不能表现出文本的语义信息;因此,使用该文本编码模型对文本进行编码时,并不能使编码后的文本与原文本的句法结构及语义信息更接近,降低了文本编码的有效性。
技术实现思路
本专利技术提供一种文本编码方法及系统,以使编码后的文本与原文本的句法结构及语义信息更接近,提高文本编码的有效性。为此,本专利技术提供如下技术方案:一种文本编码方法,包括:预先构建基于依存句法树的文本编码模型,所述文本编码模型用于描述不同依存关系对应的转换矩阵和偏置项、以及每个词向量映射到隐藏层的转换矩阵和偏置项,相同依存关系对应相同的转换矩阵和偏置项,不同依存关系对应的转换矩阵和/或 ...
【技术保护点】
一种文本编码方法,其特征在于,包括:预先构建基于依存句法树的文本编码模型,所述文本编码模型用于描述不同依存关系对应的转换矩阵和偏置项、以及每个词向量映射到隐藏层的转换矩阵和偏置项,相同依存关系对应相同的转换矩阵和偏置项,不同依存关系对应的转换矩阵和/或偏置项不同;接收待编码文本;以句为单位,对所述待编码文本进行依存句法分析,得到待编码文本中各句文本的依存句法树;利用所述文本编码模型及待编码文本中各句文本的依存句法树对待编码文本进行编码,得到编码后的文本。
【技术特征摘要】
1.一种文本编码方法,其特征在于,包括:预先构建基于依存句法树的文本编码模型,所述文本编码模型用于描述不同依存关系对应的转换矩阵和偏置项、以及每个词向量映射到隐藏层的转换矩阵和偏置项,相同依存关系对应相同的转换矩阵和偏置项,不同依存关系对应的转换矩阵和/或偏置项不同;接收待编码文本;以句为单位,对所述待编码文本进行依存句法分析,得到待编码文本中各句文本的依存句法树;利用所述文本编码模型及待编码文本中各句文本的依存句法树对待编码文本进行编码,得到编码后的文本。2.根据权利要求1所述的方法,其特征在于,所述构建基于依存句法树的文本编码模型包括:收集文本数据;以句为单位,对所述文本数据进行依存句法分析,得到每句文本的依存句法树,所述依存句法树中包括句中词与词之间的依存关系;根据所有依存句法树训练基于依存句法树的文本编码模型。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述对各词和词性标注后的文本进行依存句法分析之前,去除每句文本中的无意义字符及非法字符。4.根据权利要求2所述的方法,其特征在于,所述对各句文本进行依存句法分析,得到各句文本的依存句法树包括:对各句文本进行分词,得到各句文本中的各词;对各词进行词性标注;对各词和词性标注后的文本进行依存句法分析,得到各句文本的依存句法树。5.根据权利要求2所述的方法,其特征在于,所述根据所有依存句法树训练基于依存句法树的文本编码模型包括:将各依存句法树中每个词初始化为词向量;前向计算过程:根据所述依存句法树中每个词的词向量及依存关系对应的转换矩阵和偏置项计算出各节点映射到隐藏层的值;后向预测过程:根据所述依存句法树中根节点隐藏层的值及依存关系预测出各子节点隐藏层的值;参数更新过程:通过迭代执行所述前向计算过程和后向预测过程更新模型参数,并且当前向计算出的所有节点隐藏层的值与后向预测出的对应节点隐藏层的值之间的误差小于设定阈值时,结束参数更新过程,得到基于依存句法树的文本编码模型的模型参数。6.根据权利要求1至5任一项所述的方法,其特征在于,所述利用所述文本编码模型及待编码文本中各句文本的依存句法树对待编码文本进行编码,得到编码后的文本包括:依次将待编码文本中各句文本的依存句法树作为文本编码的结构,根据文本编码模型的参数,从叶子节点开始递归向上计算每个节点映射到隐藏层的值,直到根节点,将计算得到的根节点映射到隐藏层的值作为该句文本的编码。7.一种文本编码系统,其特征在于,包括:模型构建模块,用于预先构建基于依存句法树的文本编...
【专利技术属性】
技术研发人员:胡加学,孙瑜声,金重九,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。