文本的表达方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:25270795 阅读:16 留言:0更新日期:2020-08-14 23:04
本申请公开了一种文本的表达方法、装置、电子设备及可读存储介质,涉及深度学习技术领域和自然语言处理技术领域。具体实现方案为:根据待表达文本的文本结构信息,获得待表达文本的图结构;利用结点表达模型,获得待表达文本的图结构中各结点的向量表达;根据待表达文本的图结构中各结点的向量表达,利用图结构表达模型,获得待表达文本的图结构的向量表达,以作为待表达文本的向量表达。由于充分考虑了文本的非线性特征所进行的图结构表达,使得所获得的文本表达在语义上能够很好地体现文本的结构信息,同时保留了重要的语义信息,使得所获得的文本表达的表达能力更强,从而提高了文本表达的可靠性。

【技术实现步骤摘要】
文本的表达方法、装置、电子设备及可读存储介质
涉及计算机
,具体涉及深度学习
和自然语言处理
,尤其涉及一种文本的表达方法、装置、电子设备及可读存储介质。
技术介绍
随着基于深度学习的表达学习技术的发展,自然语言处理领域很多问题都归结于文本的表达学习,即如何通过表达学习的相关方法,将文本片段,例如词语、句子、文章等表达为一个连续的低维向量。通常,可以将文本切分为多个片段,对每个片段进行表达计算,进而再进一步融合各个片段的表达,作为文本的表达。然而,由于只考虑文本的线性特征所进行的顺序表达,可能会使得所获得的文本表达在语义上存在缺失,从而导致了文本表达的可靠性的降低。
技术实现思路
本申请的多个方面提供一种文本的表达方法、装置、电子设备及可读存储介质,用以提高文本表达的可靠性。根据第一方面,提供了一种文本的表达方法,包括:根据待表达文本的文本结构信息,获得所述待表达文本的图结构;利用结点表达模型,获得所述待表达文本的图结构中各结点的向量表达;根据所述待表达文本的图结构中各结点的向量表达,利用图结构表达模型,获得所述待表达文本的图结构的向量表达,以作为所述待表达文本的向量表达。根据第二方面,提供了一种文本的表达装置,包括:图结构获得单元,用于根据待表达文本的文本结构信息,获得所述待表达文本的图结构;结点表达单元,用于利用结点表达模型,获得所述待表达文本的图结构中各结点的向量表达;图结构表达单元,根据所述待表达文本的图结构中各结点的向量表达,利用图结构表达模型,获得所述待表达文本的图结构的向量表达,以作为所述待表达文本的向量表达。根据第三方面,提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。根据第四方面,提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。由上述技术方案可知,本申请实施例通过根据待表达文本的文本结构信息,获得所述待表达文本的图结构,进而,利用结点表达模型,获得所述待表达文本的图结构中各结点的向量表达,使得能够根据所述待表达文本的图结构中各结点的向量表达,利用图结构表达模型,获得所述待表达文本的图结构的向量表达,以作为所述待表达文本的向量表达,通过利用文本的文本结构信息,将文本表示成文本的图结构,进而获得表达能力更强的文本表达,由于充分考虑了文本的非线性特征所进行的图结构表达,使得所获得的文本表达在语义上能够很好地体现文本的结构信息,同时保留了重要的语义信息,使得所获得的文本表达的表达能力更强,从而提高了文本表达的可靠性。另外,采用本申请所提供的技术方案,能够有效地提高用户的体验。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。附图仅仅用于更好地理解本方案,不构成对本申请的限定。其中:图1A是根据本申请第一实施例的示意图;图1B为图1A所对应的实施例中待表达文本的图结构的示意图;图2A是根据本申请第二实施例的示意图;图2B为图2A所对应的实施例中样本文本的图结构的示意图;图3是根据本申请第三实施例的示意图;图4是根据本申请第四实施例的示意图;图5是用来实现本申请实施例的文本的表达方法的电子设备的示意图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。需要说明的是,本申请实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(PersonalDigitalAssistant,PDA)、无线手持设备、平板电脑(TabletComputer)等智能设备;显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。在文本的语义表达方法,尤其是长文本如文章等,往往具有短文本所不具备的特殊性质。例如,长文本的篇幅决定了一般情况下,会有多个段落分布在长文本中,在不同的段落里,会有一些概念前后呼应,例如,文章各部分的标题等。如何有效地利用起来这些分布于文本不同位置的概念,甚至是在文本之外相关的知识,都为文本处理与表达带来了挑战。本申请提出了一种文本的表达方法,通过利用文本的文本结构信息,将文本表示成文本的图结构,进而获得表达能力更强的文本表达,使得所获得的文本表达在语义上具有完整的表达能力,能够有效提高文本表达的可靠性。本申请所提供的技术方案,可以适用于各种文本的表达,例如,句子、段落等短文本的表达,尤其适用于文章、小说等长文本的表达。图1A是根据本申请第一实施例的示意图,如图1A所示。101、根据待表达文本的文本结构信息,获得所述待表达文本的图结构。102、利用结点表达模型,获得所述待表达文本的图结构中各结点的向量表达。103、根据所述待表达文本的图结构中各结点的向量表达,利用图结构表达模型,获得所述待表达文本的图结构的向量表达,以作为所述待表达文本的向量表达。需要说明的是,101~103的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopmentKit,SDK)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,例如,网络侧的文本处理平台中的处理引擎或者分布式系统等,本实施例对此不进行特别限定。可以理解的是,所述应用可以是安装在本地终端上的本地程序(nativeApp),或者还可以是本地终端上的本文档来自技高网...

【技术保护点】
1.一种文本的表达方法,包括:/n根据待表达文本的文本结构信息,获得所述待表达文本的图结构;/n利用结点表达模型,获得所述待表达文本的图结构中各结点的向量表达;/n根据所述待表达文本的图结构中各结点的向量表达,利用图结构表达模型,获得所述待表达文本的图结构的向量表达,以作为所述待表达文本的向量表达。/n

【技术特征摘要】
1.一种文本的表达方法,包括:
根据待表达文本的文本结构信息,获得所述待表达文本的图结构;
利用结点表达模型,获得所述待表达文本的图结构中各结点的向量表达;
根据所述待表达文本的图结构中各结点的向量表达,利用图结构表达模型,获得所述待表达文本的图结构的向量表达,以作为所述待表达文本的向量表达。


2.根据权利要求1所述的方法,其中,所述根据待表达文本的文本结构信息,获得所述待表达文本的图结构,包括:
根据所述待表达文本的文本内容信息,将所述待表达文本中的特定内容,表示成所述待表达文本的图结构的各结点;
根据所述待表达文本的文本结构信息,将所述待表达文本中的特定内容之间的结构关系,表示成所述待表达文本的图结构的各结点之间的边。


3.根据权利要求1所述的方法,其中,所述利用结点表达模型,获得所述待表达文本的图结构中各结点的向量表达之前,还包括:
根据各样本文本的文本内容信息,将所述各样本文本中的特定内容,表示成所述各样本文本的图结构的各结点;
根据所述各样本文本的文本结构信息,将所述各样本文本中的特定内容之间的结构关系,表示成所述各样本文本的图结构的各结点之间的边;
利用所述各样本文本的图结构,对所述结点表达模型和所述利用图结构表达模型进行训练,以构建所述结点表达模型和所述图结构表达模型。


4.根据权利要求3所述的方法,其中,所述利用所述各样本文本的图结构,对所述结点表达模型和所述利用图结构表达模型进行训练,以构建所述结点表达模型和利用图结构表达模型,包括:
对第一样本文本的图结构中结点进行随机掩盖处理,以分别获得所述第一样本文本的第二图结构和所述第一样本文本的第三图结构;
随机获取第二样本文本的图结构;
利用所述结点表达模型,分别获得所述第一样本文本的第二图结构中各结点的向量表达、所述第一样本文本的第三图结构中各结点的向量表达和所述第二样本文本的图结构中各结点的向量表达;
根据所述第一样本文本的第二图结构中各结点的向量表达、所述第一样本文本的第三图结构中各结点的向量表达和所述第二样本文本的图结构中各结点的向量表达,利用图结构表达模型,分别获得所述第一样本文本的第二图结构的向量表达、所述第一样本文本的第三图结构的向量表达和所述第二样本文本的图结构的向量表达;
根据所述第一样本文本的第二图结构的向量表达、所述第一样本文本的第三图结构的向量表达和所述第二样本文本的图结构的向量表达,对所述结点表达模型和所述图结构表达模型进行训练,以构建所述结点表达模型和所述图结构表达模型。


5.根据权利要求4所述的方法,其中,所述根据所述第一样本文本的第二图结构的向量表达、所述第一样本文本的第三图结构的向量表达和所述第二样本文本的图结构的向量表达,对所述结点表达模型和所述图结构表达模型进行训练,以构建所述结点表达模型和所述图结构表达模型,包括:
根据所述第一样本文本的第二图结构的向量表达和所述第一样本文本的第三图结构的向量表达,获得所述第一样本文本的第二图结构的向量表达与所述第一样本文本的第三图结构的向量表达之间的第一相似函数;
根据所述第一样本文本的第二图结构的向量表达和所述第二样本文本的图结构的向量表达,获得所述第一样本文本的第二图结构的向量表达与所述第二样本文本的图结构的向量表达之间的第二相似函数;
根据所述第一相似函数和所述第二相似函数的损失函数,对所述结点表达模型和所述图结构表达模型进行训练,以构建所述结点表达模型和所述图结构表达模型。


6.根据权利要求1-5中任一项所述的方法,其中,所述待表达文本的文本结构信息包括所述待表达文本内的结构信息和所述待表达文本外的结构信息中的至少一项。


7.一种文本的表达装置,包括:
图结构获得单元,用于根据待...

【专利技术属性】
技术研发人员:刘佳祥冯仕堃王硕寰黄世维何径舟孙宇吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1