文本特征确定方法、装置、设备及介质制造方法及图纸

技术编号:31319661 阅读:41 留言:0更新日期:2021-12-13 00:02
本发明专利技术实施例公开了一种文本特征确定方法、装置、设备及介质。该方法通过将预先训练出的文本特征提取模型,获取目标文本对应的文本特征,其中,该预先训练出的文本特征提取模型包括外部先验表征模块和特征融合模块,外部先验表征模块用于向特征融合模块提供外部先验信息,特征融合模块用于基于外部先验信息确定目标文本的文本特征,以在确定目标文本的文本特征的过程中集成额外的先验信息,使得所确定出的文本特征同时包含文本内部关联信息以及文本外部关联信息,提高文本的特征表征质量;并且,本发明专利技术实施例提供的文本特征确定方法可应用于各种文本分析预测模型,具有较大的适应性。提高表征质量可提升应用的各类分析预测模型的精度。型的精度。型的精度。

【技术实现步骤摘要】
文本特征确定方法、装置、设备及介质


[0001]本专利技术实施例涉及自然语言处理
,尤其涉及一种文本特征确定方法、装置、设备及介质。

技术介绍

[0002]针对文本的自然语言智能应用多数都依赖于某种形式的文本符号特征。自然语言处理技术的快速发展正是近年来文本符号特征的表征能力的提升的结果,而这种提升主要依赖神经网络模型带来的特征自动提取方法的广泛使用。目前基于神经网络模型的文本特征方法一般以词或字为基本标识单元(token)进行特征提取,这种提取通过表征学习集成了一般自然语言的内在结构特征,并以此分析当前文本的各字符间的关联信息。
[0003]然而,现有的技术只支持分析当前文本的各字符间的关联信息,一般情况下只加入关联对象本身的信息,而忽视了外部的关联对象的信息,使得文本的表征质量较低。

技术实现思路

[0004]本专利技术实施例提供了一种文本特征确定方法、装置、设备及介质,以提高文本的特征表征质量。
[0005]第一方面,本专利技术实施例提供了一种文本特征确定方法,所述方法包括:
[0006]获取目标文本;
[0007]基于所述目标文本和预先训练出的文本特征提取模型,生成所述目标文本对应的文本特征;
[0008]其中,所述文本特征提取模型包括外部先验表征模块和特征融合模块,所述外部先验表征模块用于向所述特征融合模块提供外部先验信息,所述特征融合模块用于基于所述外部先验信息确定所述目标文本的文本特征。
[0009]第二方面,本专利技术实施例还提供了一种文本特征确定装置,所述装置包括:
[0010]文本获取模块,用于获取目标文本;
[0011]文本特征提取模块,用于基于所述目标文本和预先训练出的文本特征提取模型,生成所述目标文本对应的文本特征;
[0012]其中,所述文本特征提取模型包括外部先验表征模块和特征融合模块,所述外部先验表征模块用于向所述特征融合模块提供外部先验信息,所述特征融合模块用于基于所述外部先验信息确定所述目标文本的文本特征。
[0013]第三方面,本专利技术实施例还提供了一种电子设备,所述电子设备包括:
[0014]一个或多个处理器;
[0015]存储装置,用于存储一个或多个程序,
[0016]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任意实施例提供的文本特征确定方法。
[0017]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机
程序,该程序被处理器执行时实现如本专利技术任意实施例提供的文本特征确定方法。
[0018]上述专利技术中的实施例具有如下优点或有益效果:
[0019]通过将预先训练出的文本特征提取模型,可以生成获取到的目标文本对应的文本特征,其中,该预先训练出的文本特征提取模型包括外部先验表征模块和特征融合模块,外部先验表征模块用于向特征融合模块提供外部先验信息,特征融合模块用于基于外部先验信息确定目标文本的文本特征,以在确定目标文本的文本特征的过程中集成额外的先验信息,使得所确定出的文本特征同时包含文本内部关联信息以及文本外部关联信息,提高文本的特征表征质量;并且,本专利技术实施例提供的文本特征确定方法可应用于各种文本分析预测模型,具有较大的适用性,提高表征质量可提升应用的各类文本分析预测模型的预测精度。
附图说明
[0020]为了更加清楚地说明本专利技术示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本专利技术所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
[0021]图1A为本专利技术实施例一所提供的一种文本特征确定方法的流程示意图;
[0022]图1B为本专利技术实施例一所提供的一种各主干标识元之间的关联关系以及主干标识元与外部对象的关联关系的示意图;
[0023]图2A为本专利技术实施例二所提供的一种文本特征确定方法的流程示意图;
[0024]图2B为本专利技术实施例二所提供的一种内部节点直接连接的示意图;
[0025]图2C为本专利技术实施例二所提供的一种内外节点连接的示意图;
[0026]图2D为本专利技术实施例二所提供的一种内部节点层级化连接的示意图;
[0027]图2E为本专利技术实施例二所提供的一种在内部节点层级化连接中构建抽象实体的示意图;
[0028]图2F为本专利技术实施例二所提供的一种内部节点层级化连接的关联投影信息示意图;
[0029]图3为本专利技术实施例三所提供的一种文本特征确定方法的流程示意图;
[0030]图4为本专利技术实施例四所提供的一种外部先验表征模块的构建方法的流程示意图;
[0031]图5为本专利技术实施例五所提供的一种文本特征确定装置的结构示意图;
[0032]图6为本专利技术实施例六所提供的一种电子设备的结构示意图。
具体实施方式
[0033]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0034]在对本专利技术各实施例进行介绍之前,先对本专利技术提供的文本特征确定方法的应用场景进行示例性说明。示例性的,该文本特征确定方法可以应用于文本分类的应用场景,例
如,在文本分类模型的模型结构中引入该文本特征确定方法,使得可以根据提取到的文本特征进一步对文本进行分类,如,规范用语的文本以及不规范用语的文本的分类,或者,对文本的意图进行分类,又或者,对文本的情感进行分类,等。示例性的,该文本特征确定方法还可以应用于智能问答场景,例如,在问答预测模型的模型结果中引入该文本特征确定方法,使得可以根据提取到的文本特征进一步对文本进行回复预测,如,对用户在线上问诊所输入的文本进行回复预测,自动输出回复,或者,对用户在购物平台的聊天记录中输入的文本进行回复预测,等。示例性的,该文本特征确定方法还可以应用于文本标记场景,例如,根据提取到的文本特征进一步判断出文本中与预设词汇相关的词语,输出该词语在文本中的位置信息。
[0035]实施例一
[0036]图1A为本专利技术实施例一提供的一种文本特征确定方法的流程示意图,本实施例可适用于将目标文本输入至预先训练出的文本特征提取模型,得到文本特征提取模型输出的文本特征的情况,该方法可以由文本特征确定装置来执行,该装置可以由硬件和/或软件来实现,该方法具体包括如下步骤:
[0037]S110、获取目标文本。
[0038]其中,目标文本可以是段落级别长度的文本,也可以是句子级别长度的文本。具体的,目标文本可以是用户输入至文本特征提取模型的文本信息,或者,目标文本还可以是用户输入至其它自然语言处理模型的文本信息,如,文本分类模型、智能问答模型、文本标签生成模型、文本摘要生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本特征确定方法,其特征在于,所述方法包括:获取目标文本;基于所述目标文本和预先训练出的文本特征提取模型,生成所述目标文本对应的文本特征;其中,所述文本特征提取模型包括外部先验表征模块和特征融合模块,所述外部先验表征模块用于向所述特征融合模块提供外部先验信息,所述特征融合模块用于基于所述外部先验信息确定所述目标文本的文本特征。2.根据权利要求1所述的文本特征确定方法,其特征在于,所述基于所述目标文本和预先训练出的文本特征提取模型,生成所述目标文本对应的文本特征,包括:通过所述外部先验表征模块,向所述特征融合模块发送外部先验信息;通过所述特征融合模块,基于所述外部先验信息确定所述目标文本的主干标识元所包含的连接关系以及连接关系对应的连接类型,根据所述连接关系以及所述连接关系对应的连接类型确定所述主干标识元的关联投影信息,基于所述关联投影信息与所述主干标识元的融合结果确定所述目标文本的文本特征。3.根据权利要求2所述的文本特征确定方法,其特征在于,所述基于所述外部先验信息确定所述目标文本的主干标识元所包含的连接关系以及连接关系对应的连接类型,包括:确定所述外部先验信息包含的外部实体,其中,所述外部先验信息包括外部实体以及各外部实体之间的连接关系;将所述外部实体与所述目标文本的主干标识元进行实体对齐,基于实体对齐的结果确定目标文本的主干标识元所包含的连接关系以及连接关系对应的连接类型。4.根据权利要求2所述的文本特征确定方法,其特征在于,所述连接关系的种类包括内部节点连接以及内外节点连接,所述内部节点连接包括内部节点直接连接,所述基于所述连接关系以及所述连接关系对应的连接类型确定所述主干标识元的关联投影信息,包括:确定所述连接关系中与所述主干标识元相对的另一实体的特征向量以及所述另一实体的源端属性;基于所述特征向量、所述源端属性以及所述连接关系对应的连接类型,计算所述连接关系在所述主干标识元上的关联投影信息。5.根据权利要求4所述的文本特征确定方法,其特征在于,所述内部节点连接还包括内部节点层级化连接,所述内部节点层级化连接包括顶层连接和底层连接,所述基于所述连接关系以及所述连接关系对应的连接类型确定所述主干标识元的关联投影信息,还包括:针对内部节点层级化连接,在所述顶层连接中的间接端点处构建抽象实体,其中,所述抽象...

【专利技术属性】
技术研发人员:吴边
申请(专利权)人:挂号网杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1