当前位置: 首页 > 专利查询>清华大学专利>正文

用于多方对话的篇章解析方法、装置、介质及计算设备制造方法及图纸

技术编号:20866689 阅读:24 留言:0更新日期:2019-04-17 09:23
本发明专利技术的实施方式提供了一种用于多方对话的篇章解析方法、装置、介质及计算设备。该方法包括:获得EDU序列;按照发言顺序依次对EDU序列中的每个EDU进行处理,其中,在针对当前EDU的处理中:根据当前EDU的非结构化特征以及当前EDU之前的每个EDU的非结构化特征和结构化特征,通过第一多层神经网络获得当前EDU与当前EDU之前的每个EDU之间的依赖程度,将当前EDU之前的多个EDU之中与当前EDU之间依赖程度最大的EDU,作为当前EDU的父亲EDU,以及在当前EDU及其父亲EDU之间构建依赖链接,以基于已构建的依赖链接,确定当前已解析的篇章结构并获得当前EDU的结构化特征。本发明专利技术的上述技术,能够实现多方对话场景下的篇章解析,解析结果相比现有技术能够显著提高。

【技术实现步骤摘要】
用于多方对话的篇章解析方法、装置、介质及计算设备
本专利技术的实施方式涉及电子信息领域,更具体地,本专利技术的实施方式涉及一种用于多方对话的篇章解析方法、装置、介质及计算设备。
技术介绍
自然语言处理(NaturalLanguageProcessing,NLP)是人工智能的一个子领域,也是人工智能领域中最难的问题之一,对自然语言处理的研究是充满魅力和挑战的。对于诸如对话理解、问答、情感分析等各种NLP任务而言,篇章结构无疑是极其重要的。篇章通常可以被分割为从句级单元,称为基本篇章单元(ElementaryDiscourseUnits,EDUs),EDU是篇章解析中最基本的单位。因此,篇章解析的准确度越高,对于各种NLP任务而言就越有益。现有技术中存在很多篇章解析方法,但由于多方对话数据在本质上具有更复杂的篇章结构,这使得现有的篇章解析方法均不能对其进行很好的解析。以目前现有的基于修辞结构理论(RhetoricalStructureTheory,RST)的篇章解析方法为例,由于该方法专为书面文本而设计,其只允许相邻篇章单元之间出现篇章关系,因此不适用于处理多方对话。
技术实现思路
在本上下文中,本专利技术的实施方式期望提供一种用于多方对话的篇章解析方法、装置、介质及计算设备,以至少解决现有篇章解析方法在多方对话场景下进行篇章解析时的解析结果不准确的问题。在本专利技术实施方式的第一方面中,提供了一种用于多方对话的篇章解析方法,包括:获得所述篇章的待解析的包括有多个EDU的EDU序列,其中,所述EDU序列中的多个EDU按照其所属多方对话中的发言顺序排序;以及按照发言顺序依次对所述EDU序列中的每个EDU进行处理,其中,在针对当前EDU的处理中:根据当前EDU的非结构化特征以及当前EDU之前的每个EDU的非结构化特征和结构化特征,通过第一多层神经网络获得当前EDU与当前EDU之前的每个EDU之间的依赖程度,将当前EDU之前的多个EDU之中与当前EDU之间依赖程度最大的EDU,作为当前EDU的父亲EDU,以及在当前EDU及其父亲EDU之间构建依赖链接,以基于已构建的依赖链接,确定当前已解析的篇章结构并获得当前EDU的结构化特征。进一步地,每个EDU的非结构化特征包括:采用句子编码器对该EDU进行编码所得到的局部非结构化特征。进一步地,每个EDU的非结构化特征还包括:采用非结构化篇章编码器对从所述EDU序列中的首个EDU至该EDU所对应的多个局部非结构化特征进行编码所得到的全局非结构化特征。进一步地,所述获得当前EDU的结构化特征的步骤包括:利用结构化篇章编码器,基于当前已解析的篇章结构,对从根节点EDU至当前EDU的路径进行编码,以获得当前EDU的结构化特征。进一步地,所述对从根节点EDU至当前EDU的路径进行编码的步骤包括:基于获取当前EDU的父亲EDU的结构化特征的所述结构化篇章编码器的状态,将当前EDU的局部非结构化特征输入所述结构化篇章编码器,改变所述结构化篇章编码器的状态,以获得当前EDU的结构化特征。进一步地,在所述针对当前EDU的处理中,在获得当前EDU的父亲EDU之后还包括:获得当前EDU及其父亲EDU之间的依赖关系类型。进一步地,所述获得当前EDU及其父亲EDU之间的依赖关系类型包括:通过第二多层神经网络,根据当前EDU的非结构化特征,以及根据当前EDU的父亲EDU的非结构化特征和结构化特征,获得当前EDU及其父亲EDU之间的依赖关系类型是多个预设关系类型中各类型的概率,以及在所述多个预设关系类型中,选择对应概率最大的预设关系类型,作为当前EDU及其父亲EDU之间的依赖链接对应的依赖关系类型。进一步地,所述获得当前EDU的结构化特征的步骤包括:利用结构化篇章编码器,基于当前已解析的篇章结构,对从根节点EDU至当前EDU的路径、该路径中各依赖链接对应的依赖关系类型进行编码,以获得当前EDU的结构化特征。进一步地,所述对从根节点EDU至当前EDU的路径、该路径中各依赖链接对应的依赖关系类型进行编码的步骤包括:基于获取当前EDU的父亲EDU的结构化特征的所述结构化篇章编码器的状态,将当前EDU的局部非结构化特征以及当前EDU与其父亲EDU之间依赖链接所对应的依赖关系类型输入所述结构化篇章编码器,改变所述结构化篇章编码器的状态,以获得当前EDU的结构化特征。进一步地,在所述针对当前EDU的处理中:对于当前EDU所属路径中的每个节点,若该节点的发言人与当前EDU的发言人相同,则该节点的结构化特征采用对应的第一结构化篇章编码器编码实现,以及若该节点的发言人与当前EDU的发言人不同,则该节点的结构化特征采用对应的第二结构化篇章编码器编码实现。进一步地,在所述针对当前EDU的处理中:针对所述多方对话所涉及的所有发言人中的每一个,判定当前EDU的发言人是否为该发言人:若是,采用所述第一结构化篇章编码器编码获得当前EDU的结构化特征,用于确定其后续的子EDU以及由后续确定的其子EDU使用;否则,采用所述第二结构化篇章编码器编码编码获得当前EDU的结构化特征,用于确定其后续的子EDU以及由后续确定的其子EDU使用。进一步地,在所述针对当前EDU的处理中,还包括计算当前EDU的非结构化特征。进一步地,所述EDU序列中的每个EDU的非结构化特征是预先获得的。进一步地,所述通过第一多层神经网络获得当前EDU与当前EDU之前的每个EDU之间的依赖程度的步骤包括:对于当前EDU之前的每个EDU,将该EDU的结构化特征和非结构化特征以及当前EDU的非结构化特征输入所述第一多层神经网络,获得当前EDU与该EDU之间的相关性分数;至少基于当前EDU之前的每个EDU与当前EDU之间的相关性分数,获得所述当前EDU之前的每个EDU与当前EDU之间的依赖程度。进一步地,所述当前EDU之前的每个EDU与当前EDU之间的依赖程度通过如下方式获得:通过对当前EDU之前的各EDU与当前EDU之间的相关性分数进行归一化,获得当前EDU之前的每个EDU与当前EDU之间的依赖概率,用于描述每个EDU与当前EDU之间的依赖程度。进一步地,在针对当前EDU的处理中,通过如下方式获得当前EDU与当前EDU之前的每个EDU之间的依赖程度:对于当前EDU之前的每个EDU,将通过对当前EDU的非结构化特征、该EDU的非结构化特征以及结构化特征进行拼接所得到的输入向量输入所述第一多层神经网络,以获得该EDU与当前EDU之间的依赖程度。进一步地,在针对当前EDU的处理中,对于当前EDU之前的每个EDU,所述将通过对当前EDU的非结构化特征、该EDU的非结构化特征以及结构化特征进行拼接所得到的第一输入向量输入所述第一多层神经网络的步骤包括:将通过对当前EDU的局部非结构化特征、全局非结构化特征、该EDU的全局非结构化特征和结构化特征进行拼接所得的输入向量输入所述第一多层神经网络。根据本专利技术的另一方面还提供了一种用于多方对话的篇章解析装置,包括:EDU获取单元,适于获得所述篇章的待解析的包括有多个EDU的EDU序列,其中,所述EDU序列中的多个EDU按照其所属多方对话中的发言顺序排序;以及处理单元,适于按照发言顺序依次对所述EDU序列中的每个EDU进行处理;其中,所述处理单元本文档来自技高网...

【技术保护点】
1.用于多方对话的篇章解析方法,其特征在于包括:获得所述篇章的待解析的包括有多个基本篇章单元(EDU)的EDU序列,其中,所述EDU序列中的多个EDU按照其所属多方对话中的发言顺序排序;以及按照发言顺序依次对所述EDU序列中的每个EDU进行处理,其中,在针对当前EDU的处理中:根据当前EDU的非结构化特征以及当前EDU之前的每个EDU的非结构化特征和结构化特征,通过第一多层神经网络获得当前EDU与当前EDU之前的每个EDU之间的依赖程度,将当前EDU之前的多个EDU之中与当前EDU之间依赖程度最大的EDU,作为当前EDU的父亲EDU,以及在当前EDU及其父亲EDU之间构建依赖链接,以基于已构建的依赖链接,确定当前已解析的篇章结构并获得当前EDU的结构化特征。

【技术特征摘要】
1.用于多方对话的篇章解析方法,其特征在于包括:获得所述篇章的待解析的包括有多个基本篇章单元(EDU)的EDU序列,其中,所述EDU序列中的多个EDU按照其所属多方对话中的发言顺序排序;以及按照发言顺序依次对所述EDU序列中的每个EDU进行处理,其中,在针对当前EDU的处理中:根据当前EDU的非结构化特征以及当前EDU之前的每个EDU的非结构化特征和结构化特征,通过第一多层神经网络获得当前EDU与当前EDU之前的每个EDU之间的依赖程度,将当前EDU之前的多个EDU之中与当前EDU之间依赖程度最大的EDU,作为当前EDU的父亲EDU,以及在当前EDU及其父亲EDU之间构建依赖链接,以基于已构建的依赖链接,确定当前已解析的篇章结构并获得当前EDU的结构化特征。2.根据权利要求1所述的篇章解析方法,其特征在于,每个EDU的非结构化特征包括:采用句子编码器对该EDU进行编码所得到的局部非结构化特征。3.根据权利要求2所述的篇章解析方法,其特征在于,每个EDU的非结构化特征还包括:采用非结构化篇章编码器对从所述EDU序列中的首个EDU至该EDU所对应的多个局部非结构化特征进行编码所得到的全局非结构化特征。4.根据权利要求1-3中任一项所述的篇章解析方法,其特征在于,在所述针对当前EDU的处理中,在获得当前EDU的父亲EDU之后还包括:获得当前EDU及其父亲EDU之间的依赖关系类型。5.根据权利要求4所述的篇章解析方法,其特征在于,所述获得当前EDU及其父亲EDU之间的依赖关系类型包括:通过第二多层神经网络,根据当前EDU的非结构化特征,以及根据当前EDU的父亲EDU的非结构化特征和结构化特征,获得当前EDU及其父亲EDU之间依赖链接所对应的依赖关系类型是多个预设关系类型中各类型的概率,以及在所述多个预设关系类型中,选择对应概率最大的预设关系类型,作为当前EDU及其父亲EDU之间的依赖链接对应的依赖关系类型。6.根据权利要求1-5中任一...

【专利技术属性】
技术研发人员:黄民烈朱小燕
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1