文本编码方法及系统技术方案

技术编号:15639265 阅读:61 留言:0更新日期:2017-06-15 22:26
本发明专利技术公开了一种文本编码方法及系统,该方法包括:预先构建基于依存句法树的文本编码模型,所述文本编码模型用于描述不同依存关系对应的转换矩阵和偏置项、以及每个词向量映射到隐藏层的转换矩阵和偏置项,相同依存关系对应相同的转换矩阵和偏置项,不同依存关系对应的转换矩阵和/或偏置项不同;接收待编码文本;以句为单位,对所述待编码文本进行依存句法分析,得到待编码文本中各句文本的依存句法树;利用所述文本编码模型及待编码文本中各句文本的依存句法树对待编码文本进行编码,得到编码后的文本。利用本发明专利技术,可以提高文本编码的有效性。

【技术实现步骤摘要】
文本编码方法及系统
本专利技术涉及自然语言处理领域,尤其是一种文本编码方法及系统。
技术介绍
随着人工智能的不断发展,人类对人机交互的期待与要求越来越高,自然语言处理作为人机交互中的重要一环,备受人们的关注。目前,自然语言处理正处于探索阶段,句法分析、自然语言信息提取等技术都是研究热点。其中,研究人员较为关注的任务之一是如何可以将自然语言的文本数据进行编码,将编码后的文本用于复杂的自然语言处理中。现有的文本编码方法一般是将文本数据表示为二叉树的形式,基于二叉树的结构构建文本编码模型,利用该文本编码模型将文本数据映射到一个低维的向量空间中,将文本数据表示成向量,所述向量即编码后的文本表示。然而,基于二叉树的结构构建的文本编码模型,由于二叉树的构建是直接将每句文本中的词堆叠在一起,并且二叉树中的所有子节点与父节点之间词向量的映射使用相同的转换矩阵和偏置项,导致训练得到的文本编码模型不能清晰地体现出词与词之间的依赖关系,同时也不能表现出文本的语义信息;因此,使用该文本编码模型对文本进行编码时,并不能使编码后的文本与原文本的句法结构及语义信息更接近,降低了文本编码的有效性。
技术实现思路
本专利技术提供一种文本编码方法及系统,以使编码后的文本与原文本的句法结构及语义信息更接近,提高文本编码的有效性。为此,本专利技术提供如下技术方案:一种文本编码方法,包括:预先构建基于依存句法树的文本编码模型,所述文本编码模型用于描述不同依存关系对应的转换矩阵和偏置项、以及每个词向量映射到隐藏层的转换矩阵和偏置项,相同依存关系对应相同的转换矩阵和偏置项,不同依存关系对应的转换矩阵和/或偏置项不同;接收待编码文本;以句为单位,对所述待编码文本进行依存句法分析,得到待编码文本中各句文本的依存句法树;利用所述文本编码模型及待编码文本中各句文本的依存句法树对待编码文本进行编码,得到编码后的文本。优选地,所述构建基于依存句法树的文本编码模型包括:收集文本数据;以句为单位,对所述文本数据进行依存句法分析,得到每句文本的依存句法树,所述依存句法树中包括句中词与词之间的依存关系;根据所有依存句法树训练基于依存句法树的文本编码模型。优选地,所述方法还包括:在所述对各词和词性标注后的文本进行依存句法分析之前,去除每句文本中的无意义字符及非法字符。优选地,所述对各句文本进行依存句法分析,得到各句文本的依存句法树包括:对各句文本进行分词,得到各句文本中的各词;对各词进行词性标注;对各词和词性标注后的文本进行依存句法分析,得到各句文本的依存句法树。优选地,所述根据所有依存句法树训练基于依存句法树的文本编码模型包括:将各依存句法树中每个词初始化为词向量;前向计算过程:根据所述依存句法树中每个词的词向量及依存关系对应的转换矩阵和偏置项计算出各节点映射到隐藏层的值;后向预测过程:根据所述依存句法树中根节点隐藏层的值及依存关系预测出各子节点隐藏层的值;参数更新过程:通过迭代执行所述前向计算过程和后向预测过程更新模型参数,并且当前向计算出的所有节点隐藏层的值与后向预测出的对应节点隐藏层的值之间的误差小于设定阈值时,结束参数更新过程,得到基于依存句法树的文本编码模型的模型参数。优选地,所述利用所述文本编码模型及待编码文本中各句文本的依存句法树对待编码文本进行编码,得到编码后的文本包括:依次将待编码文本中各句文本的依存句法树作为文本编码的结构,根据文本编码模型的参数,从叶子节点开始递归向上计算每个节点映射到隐藏层的值,直到根节点,将计算得到的根节点映射到隐藏层的值作为该句文本的编码。一种文本编码系统,包括:模型构建模块,用于预先构建基于依存句法树的文本编码模型,所述文本编码模型用于描述不同依存关系对应的转换矩阵和偏置项、以及每个词向量映射到隐藏层的转换矩阵和偏置项,相同依存关系对应相同的转换矩阵和偏置项,不同依存关系对应的转换矩阵和/或偏置项不同。;文本接收模块,用于接收待编码文本;句法分析模块,用于以句为单位,对所述待编码文本进行依存句法分析,得到待编码文本中各句文本的依存句法树;编码模块,用于利用所述文本编码模型及待编码文本中各句文本的依存句法树对待编码文本进行编码,得到编码后的文本。优选地,所述模型构建模块包括:数据收集单元,用于收集文本数据;句法分析单元,用于以句为单位,对所述文本数据进行依存句法分析,得到每句文本的依存句法树,所述依存句法树中包括句中词与词之间的依存关系;模型训练单元,用于根据所有依存句法树训练基于依存句法树的文本编码模型。优选地,所述模型构建模块还包括:过滤单元,用于在所述句法分析单元对各词和词性标注后的文本进行依存句法分析之前,去除每句文本中的无意义字符及非法字符。优选地,所述句法分析单元包括:分词单元,用于对各句文本进行分词,得到各句文本中的各词;标注单元,用于对各词进行词性标注;分析单元,用于对各词和词性标注后的文本进行依存句法分析,得到各句文本的依存句法树。优选地,所述模型训练单元包括:初始化单元,用于将各依存句法树中每个词初始化为词向量;前向计算单元,用于执行前向计算过程:根据所述依存句法树中每个词的词向量及依存关系对应的转换矩阵和偏置项计算出各节点映射到隐藏层的值;后向预测单元,用于执行后向预测过程:根据所述依存句法树中根节点隐藏层的值及依存关系预测出各子节点隐藏层的值;迭代控制单元,用于执行参数更新过程:通过迭代方式触发所述前向计算单元执行所述前向计算过程、触发所述后向预测单元执行所述后向预测过程,以更新模型参数,并且当前向计算出的所有节点隐藏层的值与后向预测出的对应节点隐藏层的值之间的误差小于设定阈值时,结束参数更新过程,得到基于依存句法树的文本编码模型的模型参数。优选地,所述编码模块,具体用于依次将待编码文本中各句文本的依存句法树作为文本编码的结构,根据文本编码模型的参数,从叶子节点开始递归向上计算每个节点映射到隐藏层的值,直到根节点,将计算得到的根节点映射到隐藏层的值作为该句文本的编码。本专利技术实施例提供的文本编码方法及系统,对待编码文本以句为单位进行依存句法分析,得到待编码文本中各句文本的依存句法树,所述依存句法树可以清晰地表达文本的句法结构;然后根据预先构建的基于依存句法树的文本编码模型及各句文本的依存句法树,对文本进行编码,得到编码后的文本。由于采用依存句法树描述文本的句法结构,而且在文本编码模型训练时,进一步根据子节点词向量与父节点词向量依存关系的不同,对子节点与父节点之间的映射,使用不同的转换矩阵和偏置项,从而保留了不同依存关系的节点间的语义信息,使编码后的文本与原文本的句法结构及语义信息更接近,提高了文本编码的有效性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是现有技术中基于二叉树结构的文本编码模型的结构示意图;图2是本专利技术实施例中构建基于依存句法树的文本编码模型的流程图;图3是本专利技术实施例中依存句法树的结构示意图;图4是本专利技术实施例中基于依存句法树的文本编码模型的结构示意图;图5是本专利技术实施例文本编本文档来自技高网...
文本编码方法及系统

【技术保护点】
一种文本编码方法,其特征在于,包括:预先构建基于依存句法树的文本编码模型,所述文本编码模型用于描述不同依存关系对应的转换矩阵和偏置项、以及每个词向量映射到隐藏层的转换矩阵和偏置项,相同依存关系对应相同的转换矩阵和偏置项,不同依存关系对应的转换矩阵和/或偏置项不同;接收待编码文本;以句为单位,对所述待编码文本进行依存句法分析,得到待编码文本中各句文本的依存句法树;利用所述文本编码模型及待编码文本中各句文本的依存句法树对待编码文本进行编码,得到编码后的文本。

【技术特征摘要】
1.一种文本编码方法,其特征在于,包括:预先构建基于依存句法树的文本编码模型,所述文本编码模型用于描述不同依存关系对应的转换矩阵和偏置项、以及每个词向量映射到隐藏层的转换矩阵和偏置项,相同依存关系对应相同的转换矩阵和偏置项,不同依存关系对应的转换矩阵和/或偏置项不同;接收待编码文本;以句为单位,对所述待编码文本进行依存句法分析,得到待编码文本中各句文本的依存句法树;利用所述文本编码模型及待编码文本中各句文本的依存句法树对待编码文本进行编码,得到编码后的文本。2.根据权利要求1所述的方法,其特征在于,所述构建基于依存句法树的文本编码模型包括:收集文本数据;以句为单位,对所述文本数据进行依存句法分析,得到每句文本的依存句法树,所述依存句法树中包括句中词与词之间的依存关系;根据所有依存句法树训练基于依存句法树的文本编码模型。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述对各词和词性标注后的文本进行依存句法分析之前,去除每句文本中的无意义字符及非法字符。4.根据权利要求2所述的方法,其特征在于,所述对各句文本进行依存句法分析,得到各句文本的依存句法树包括:对各句文本进行分词,得到各句文本中的各词;对各词进行词性标注;对各词和词性标注后的文本进行依存句法分析,得到各句文本的依存句法树。5.根据权利要求2所述的方法,其特征在于,所述根据所有依存句法树训练基于依存句法树的文本编码模型包括:将各依存句法树中每个词初始化为词向量;前向计算过程:根据所述依存句法树中每个词的词向量及依存关系对应的转换矩阵和偏置项计算出各节点映射到隐藏层的值;后向预测过程:根据所述依存句法树中根节点隐藏层的值及依存关系预测出各子节点隐藏层的值;参数更新过程:通过迭代执行所述前向计算过程和后向预测过程更新模型参数,并且当前向计算出的所有节点隐藏层的值与后向预测出的对应节点隐藏层的值之间的误差小于设定阈值时,结束参数更新过程,得到基于依存句法树的文本编码模型的模型参数。6.根据权利要求1至5任一项所述的方法,其特征在于,所述利用所述文本编码模型及待编码文本中各句文本的依存句法树对待编码文本进行编码,得到编码后的文本包括:依次将待编码文本中各句文本的依存句法树作为文本编码的结构,根据文本编码模型的参数,从叶子节点开始递归向上计算每个节点映射到隐藏层的值,直到根节点,将计算得到的根节点映射到隐藏层的值作为该句文本的编码。7.一种文本编码系统,其特征在于,包括:模型构建模块,用于预先构建基于依存句法树的文本编...

【专利技术属性】
技术研发人员:胡加学孙瑜声金重九
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1