一种文本语义表达方法及装置制造方法及图纸

技术编号:19857505 阅读:19 留言:0更新日期:2018-12-22 11:42
本申请公开了一种文本语义表达方法及装置,该方法包括:在获取到待表达的目标文本后,目标文本进行分词处理,以得到各个目标词语,然后对目标文本进行依存句法分析,以确定各个目标词语之间的依存关系,接着,可以根据各个目标词语之间的依存关系,对目标文本进行语义表达。可见,本申请实施例在获取到待表达的目标文本后,不再采用常见的one‑hot方式对目标文本进行语义表达,而是根据目标文本中各个目标词语之间的依存关系,对该目标文本进行语义表达,即,在对目标文本进行语义表达时考虑了文本中词语之间的语义关系,从而提高语义表达结果的准确性。

【技术实现步骤摘要】
一种文本语义表达方法及装置
本申请涉及自然语言处理
,尤其涉及一种文本语义表达方法及装置。
技术介绍
文本可以指句子或篇章,文本的语义表达是指将自然语言形式的文本,编码成一个特定的向量,使得这个向量包含该文本的语义信息。一个好的语义表达结果将有助于提升文本相似性检索、情感分类、领域分类等各类任务的效果和性能。现有的语义表达方式通常采用one-hot的方式,也就是用0、1来表示一个文本中的词语是否存在,具体来讲,可以预先创建一个包括大量词语的词表,以文本A为例,可以将词表中属于文本A的词语用1表示,而词表中不属于文本A的词语用0表示,从而形成一个由0和1组成的文本向量来表达文本A的语义信息,且使该文本向量的维度与词表中的词语个数相同。但是,现有的这种采用one-hot方式对文本进行语义表达的方式,并不考虑文本中词语之间的语义关系,导致语义表达结果不准确。
技术实现思路
本申请实施例的主要目的在于提供一种文本语义的表达方法及装置,能够提高语义表达结果的准确性。本申请实施例提供了一种文本语义表达方法,包括:获取待表达的目标文本;将所述目标文本进行分词处理,得到各个目标词语;对所述目标文本进行依存句法分析,确定各个目标词语之间的依存关系;根据各个目标词语之间的依存关系,对所述目标文本进行语义表达。可选的,所述确定各个目标词语之间的依存关系,包括:确定与所述目标词语具有依存关系的支配词语,得到由所述目标词语和所述支配词语组成的词语对,其中,所述支配词语是根节点标识或不同于所述目标词语的另一目标词语,所述根节点标识是依存句法树的根节点的标识,所述依存句法树描述了各个目标词语之间的依存关系;对于各个目标词语分别对应的词语对,确定所述词语对中的两个词语之间的依存关系。可选的,所述根据各个目标词语之间的依存关系,对所述目标文本进行语义表达,包括:对于每一词语对,确定所述词语对中每一词语对应的词向量以及所述词语对中两个词语之间的依存关系对应的关系向量;利用每一词语对对应的两个词向量以及关系向量进行编码,得到所述目标文本的文本编码向量,其中,所述文本编码向量表达了所述目标文本的句法信息和词语序列信息;采用所述文本编码向量,表达所述目标文本的语义信息。可选的,所述根据各个目标词语之间的依存关系,对所述目标文本进行语义表达,包括:根据各个目标词语之间的依存关系以及每条依存路径,对所述目标文本进行语义表达,其中,所述每条依存路径是依存句法树中的每条子路径,所述依存句法树描述了各个目标词语之间的依存关系,所述子路径的终点为所述依存句法树的叶子节点。可选的,所述根据各个目标词语之间的依存关系以及每条依存路径,对所述目标文本进行语义表达,包括:确定所述目标文本的语义表达结果的应用场景;分别确定每条依存路径在所述应用场景中的重要度;根据各个目标词语之间的依存关系以及每条依存路径的重要度,对所述目标文本进行语义表达。可选的,所述分别确定每条依存路径在所述应用场景中的重要度,包括:对于每一词语对,确定所述词语对中每一词语对应的词向量以及所述词语对中两个词语之间的依存关系对应的关系向量;利用每一词语对对应的两个词向量以及关系向量进行编码,得到所述目标文本的文本编码向量,其中,所述文本编码向量表达了所述目标文本的句法信息和词语序列信息;对每条依存路径进行编码,得到对应于每条依存路径的路径编码向量,所述路径编码向量表达了所述依存路径中各个目标词语形成的路径信息;利用所述文本编码向量与所述路径编码向量,确定所述依存路径的路径权重,其中,所述路径权重表征了所述依存路径在所述应用场景下的重要度。可选的,所述根据各个目标词语之间的依存关系以及每条依存路径的重要度,对所述目标文本进行语义表达,包括:根据对应于每条依存路径的路径编码向量和路径权重,确定对应于所有依存路径的路径编码向量;采用所述文本编码向量以及对应于所有依存路径的路径编码向量,表达所述目标文本的语义信息。本申请实施例还提供了一种文本语义表达装置,包括:目标文本获取单元,用于获取待表达的目标文本;目标词语获得单元,用于将所述目标文本进行分词处理,得到各个目标词语;依存关系确定单元,用于对所述目标文本进行依存句法分析,确定各个目标词语之间的依存关系;文本语义表达单元,用于根据各个目标词语之间的依存关系,对所述目标文本进行语义表达。可选的,所述依存关系确定单元包括:词语对获得子单元,用于确定与所述目标词语具有依存关系的支配词语,得到由所述目标词语和所述支配词语组成的词语对,其中,所述支配词语是根节点标识或不同于所述目标词语的另一目标词语,所述根节点标识是依存句法树的根节点的标识,所述依存句法树描述了各个目标词语之间的依存关系;依存关系确定子单元,用于对于各个目标词语分别对应的词语对,确定所述词语对中的两个词语之间的依存关系。可选的,所述文本语义表达单元包括:第一关系向量确定子单元,用于对于每一词语对,确定所述词语对中每一词语对应的词向量以及所述词语对中两个词语之间的依存关系对应的关系向量;第一编码向量获得子单元,用于利用每一词语对对应的两个词向量以及关系向量进行编码,得到所述目标文本的文本编码向量,其中,所述文本编码向量表达了所述目标文本的句法信息和词语序列信息;第一语义信息表达子单元,用于采用所述文本编码向量,表达所述目标文本的语义信息。可选的,所述文本语义表达单元,具体用于根据各个目标词语之间的依存关系以及每条依存路径,对所述目标文本进行语义表达,其中,所述每条依存路径是依存句法树中的每条子路径,所述依存句法树描述了各个目标词语之间的依存关系,所述子路径的终点为所述依存句法树的叶子节点。可选的,所述文本语义表达单元包括:应用场景确定子单元,用于确定所述目标文本的语义表达结果的应用场景;重要度确定子单元,用于分别确定每条依存路径在所述应用场景中的重要度;文本语义表达子单元,用于根据各个目标词语之间的依存关系以及每条依存路径的重要度,对所述目标文本进行语义表达。可选的,所述重要度确定子单元包括:第二关系向量确定子单元,用于对于每一词语对,确定所述词语对中每一词语对应的词向量以及所述词语对中两个词语之间的依存关系对应的关系向量;第二编码向量获得子单元,用于利用每一词语对对应的两个词向量以及关系向量进行编码,得到所述目标文本的文本编码向量,其中,所述文本编码向量表达了所述目标文本的句法信息和词语序列信息;路径编码向量获得子单元,用于对每条依存路径进行编码,得到对应于每条依存路径的路径编码向量,所述路径编码向量表达了所述依存路径中各个目标词语形成的路径信息;路径权重确定子单元,用于利用所述文本编码向量与所述路径编码向量,确定所述依存路径的路径权重,其中,所述路径权重表征了所述依存路径在所述应用场景下的重要度。可选的,所述文本语义表达子单元包括:路径编码向量确定子单元,用于根据对应于每条依存路径的路径编码向量和路径权重,确定对应于所有依存路径的路径编码向量;第二语义信息表达子单元,用于采用所述文本编码向量以及对应于所有依存路径的路径编码向量,表达所述目标文本的语义信息。本申请实施例还提供了一种文本语义表达装置,包括:处理器、存储器、系统总线;所述处理器以及所述存储器通过所述系统总线相连;所述本文档来自技高网...

【技术保护点】
1.一种文本语义表达方法,其特征在于,包括:获取待表达的目标文本;将所述目标文本进行分词处理,得到各个目标词语;对所述目标文本进行依存句法分析,确定各个目标词语之间的依存关系;根据各个目标词语之间的依存关系,对所述目标文本进行语义表达。

【技术特征摘要】
1.一种文本语义表达方法,其特征在于,包括:获取待表达的目标文本;将所述目标文本进行分词处理,得到各个目标词语;对所述目标文本进行依存句法分析,确定各个目标词语之间的依存关系;根据各个目标词语之间的依存关系,对所述目标文本进行语义表达。2.根据权利要求1所述的方法,其特征在于,所述确定各个目标词语之间的依存关系,包括:确定与所述目标词语具有依存关系的支配词语,得到由所述目标词语和所述支配词语组成的词语对,其中,所述支配词语是根节点标识或不同于所述目标词语的另一目标词语,所述根节点标识是依存句法树的根节点的标识,所述依存句法树描述了各个目标词语之间的依存关系;对于各个目标词语分别对应的词语对,确定所述词语对中的两个词语之间的依存关系。3.根据权利要求2所述的方法,其特征在于,所述根据各个目标词语之间的依存关系,对所述目标文本进行语义表达,包括:对于每一词语对,确定所述词语对中每一词语对应的词向量以及所述词语对中两个词语之间的依存关系对应的关系向量;利用每一词语对对应的两个词向量以及关系向量进行编码,得到所述目标文本的文本编码向量,其中,所述文本编码向量表达了所述目标文本的句法信息和词语序列信息;采用所述文本编码向量,表达所述目标文本的语义信息。4.根据权利要求1所述的方法,其特征在于,所述根据各个目标词语之间的依存关系,对所述目标文本进行语义表达,包括:根据各个目标词语之间的依存关系以及每条依存路径,对所述目标文本进行语义表达,其中,所述每条依存路径是依存句法树中的每条子路径,所述依存句法树描述了各个目标词语之间的依存关系,所述子路径的终点为所述依存句法树的叶子节点。5.根据权利要求4所述的方法,其特征在于,所述根据各个目标词语之间的依存关系以及每条依存路径,对所述目标文本进行语义表达,包括:确定所述目标文本的语义表达结果的应用场景;分别确定每条依存路径在所述应用场景中的重要度;根据各个目标词语之间的依存关系以及每条依存路径的重要度,对所述目标文本进行语义表达。6.根据权利要求5所述的方法,其特征在于,所述分别确定每条依存路径在所述应用场景中的重要度,包括:对于每一词语对,确定所述词语对中每一词语对应的词向量以及所述词语对中两个词语之间的依存关系对应的关系向量;利用每一词语对对应的两个词向量以及关系向量进行编码,得到所述目标文本的文本编码向量,其中,所述文本编码向量表达了所述目标文本的句法信息和词语序列信息;对每条依存路径进行编码,得到对应于每条依存路径的路径编码向量,所述路径编码向量表达了所述依存路径中各个目标词语形成的路径信息;利用所述文本编码向量与所述路径编码向量,确定所述依存路径的路径权重,其中,所述路径权重表征了所述依存路径在所述应用场景下的重要度。7.根据权利要求6所述的方法,其特征在于,所述根据各个目标词语之间的依存关系以及每条依存路径的重要度,对所述目标文本进行语义表达,包括:根据对应于每条依存路径的路径编码向量和路径权重,确定对应于所有依存路径的路径编码向量;采用所述文本编码向量以及对应于所有依存路径的路径编码向量,表达所述目标文本的语义信息。8.一种文本语义表达装置,其特征在于,包括:目标文本获取单元,用于获取待表达的目标文本;目标词语获得单元,用于将所述目标文本进行分词处理,得到各个目标词语;依存关系确定单元,用于对所述目标文本进行依存句法分析,确定各个目标词语之间的依存关系;文本语义表达单元,用于根据各个目标词语之间的依存关系,对所述目标文本进行语义表达。9.根据权利要求8所述的装置,其特征在于,所述依存关系...

【专利技术属性】
技术研发人员:华磊刘权陈志刚
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1