文本数据处理方法、相关装置及计算机程序产品制造方法及图纸

技术编号:27743384 阅读:14 留言:0更新日期:2021-03-19 13:37
本申请公开了一种文本数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,涉及深度学习、自然语言处理、知识图谱构建、智能问答等人工智能技术领域。该方法的一具体实施方式包括:将获取到的待处理行业文本转换为文本序列;根据文本序列生成包含上下文语境的各文本向量;利用预设的多指针模型分别确定文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置,多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系;从起止位置抽取得到相应的关系对文本,并根据对应关系对生成待处理行业文本的主谓宾三元组。应用该实施方式可以尽可能准确的挖掘出文本向量存在的多层嵌套关系文本对。

【技术实现步骤摘要】
文本数据处理方法、相关装置及计算机程序产品
本申请涉及数据处理
,具体涉及深度学习、自然语言处理、知识图谱构建、智能问答等人工智能
,尤其涉及文本数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
技术介绍
得益于人工智能与深度学习技术的发展,信息抽取等自然语言处理相关技术近些年出现了突飞猛进的发展。借助信息抽取技术可以用于辅助行业中的智能问答、智能客服等依赖信息处理与信息检索的需求,进而直接向用户返回查询结果,而不是向用户返回可能包含查询结果的网页或文件列表。
技术实现思路
本申请实施例提出了一种文本数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。第一方面,本申请实施例提出了一种文本数据处理方法,包括:将获取到的待处理行业文本转换为文本序列;根据文本序列生成包含上下文语境的各文本向量;利用预设的多指针模型分别确定文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置,多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系;从起止位置抽取得到相应的关系对文本,并根据对应关系对生成待处理行业文本的主谓宾三元组。第二方面,本申请实施例提出了一种文本数据处理装置,包括:文本处理单元,被配置成将获取到的待处理行业文本转换为文本序列;文本向量生成单元,被配置成根据文本序列生成包含上下文语境的各文本向量;嵌套关系对起止位置确定单元,被配置成利用预设的多指针模型分别确定文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置,多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系;主谓宾三元组生成单元,被配置成从起止位置抽取得到相应的关系对文本,并根据对应关系对生成待处理行业文本的主谓宾三元组。第三方面,本申请实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的文本数据处理方法。第四方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的文本数据处理方法。第五面,本申请实施例提供了一种包括计算机程序的计算机程序产品,该计算机程序在被处理器执行时能够实现如第一方面中任一实现方式描述的文本数据处理方法。本申请实施例提供的文本数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,首先,将获取到的待处理行业文本转换为文本序列;然后,根据文本序列生成包含上下文语境的各文本向量;接着,利用预设的多指针模型分别确定文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置,多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系;最后,从起止位置抽取得到相应的关系对文本,并根据对应关系对生成待处理行业文本的主谓宾三元组。本申请针对存在多层、复杂嵌套关系的行业文本,提供一种基于Schema约束构建的多指针模型,多指针模型经服从Schema约束的训练样本的训练,得以尽可能准确的挖掘出文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系,进而提升对包含多层、复杂嵌套关系文本对抽取准确性,进而提升主谓宾三元组的提取全面性和提取准确性。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构;图2为本申请实施例提供的一种文本数据处理方法的流程图;图3为本申请实施例提供的另一种文本数据处理方法的流程图;图4为本申请实施例为主谓宾生成方法提供的一种基于分类器识别首层关系对各成分起止位置的方法的流程图;图5为本申请实施例提供的在一应用场景下的文本数据处理方法的流程示意图;图6为本申请实施例提供的一种文本数据处理装置的结构框图;图7为本申请实施例提供的一种适用于执行文本数据处理方法的电子设备的结构示意图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。图1示出了可以应用本申请的文本数据处理方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。其中,终端设备101、102、103用于通过网络104向服务器105发送用于待处理行业文本,网络104为终端设备101、102、103与服务器105之间进行数据通信的通信链路,服务器105则用于从接收到的待处理行业文本中提取出其中包含的所有关系文本对,并根据关系文本对生成主谓宾三元组。具体的,终端设备101、102、103和服务器105可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是包括智能手机、平板电脑、膝上型便携计算机和台式计算机在内的各种电子设备;当终端设备101、102、103为软件时,可以是安装在上述所列举的电子设备中的单/多个软件/功能模块,在此不做具体限定。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器;服务器为软件时,也可以实现成单/多个软件/功能模块,在此不做具体限定。上述目的可通过安装在终端设备101、102、103和服务器105上的应用来实现,例如主谓宾三元组提取应用(可进一步分为客户端的部分和服务端的部分),另外,为尽可能保障主谓宾三元组提取操作的良好稳定运行,终端设备101、102、103和服务器105上还可以安装其他应用,例如故障诊断类应用、用于与管理或运维人员进行通信的通信类应用等等。以提供针对行业文本的主谓宾三元组提取服务的主谓宾三元组提取应用为例,安装有该应用的服务器105可在运行该主谓宾三元组提取应用时实现如下效果:首先,通过网络104从终端设备101、102、103处获取到待处理行业文本;然后,将获取到的待处理行业文本转换为文本序列;接下来,根据文本序列生成包含上下文语境的各文本向量;下一步,利用预设的多指针模型分别确定文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置,多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系本文档来自技高网...

【技术保护点】
1.一种文本数据处理方法,包括:/n将获取到的待处理行业文本转换为文本序列;/n根据所述文本序列生成包含上下文语境的各文本向量;/n利用预设的多指针模型分别确定所述文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置,所述多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系;/n从所述起止位置抽取得到相应的关系对文本,并根据所述对应关系对生成所述待处理行业文本的主谓宾三元组。/n

【技术特征摘要】
1.一种文本数据处理方法,包括:
将获取到的待处理行业文本转换为文本序列;
根据所述文本序列生成包含上下文语境的各文本向量;
利用预设的多指针模型分别确定所述文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置,所述多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系;
从所述起止位置抽取得到相应的关系对文本,并根据所述对应关系对生成所述待处理行业文本的主谓宾三元组。


2.根据权利要求1所述的方法,其中,所述根据所述文本序列生成包含上下文语境特征的各文本向量,包括:
将所述文本序列输入预先训练好的语言模型;其中,所述语言模型用于表征文本序列与包含上下文语境文本的文本向量之间的转换对应关系;
接收所述语言模型输出的与输出的文本序列对应的文本向量。


3.根据权利要求1所述的方法,其中,当所述文本向量仅存在两层嵌套关系的关系对时,所述利用预设的多指针模型分别确定所述文本向量中存在的两层嵌套关系的关系对中每层关系对各自的起止位置,包括:
利用所述多指针模型中的第一分类器识别所述文本向量中首层关系对的起止位置;
利用所述多指针模型中的第二分类器识别所述文本向量中第二层关系对的起止位置。


4.根据权利要求3所述的方法,其中,所述利用所述多指针模型中的第一分类器识别所述文本向量中首层关系对的起止位置,包括:
利用所述多指针模型中的第一分类器中的第一子分类器识别所述文本向量中首层关系对中主语的起止位置;
利用所述多指针模型中的第一分类器中的第二子分类器识别所述文本向量中首层关系对中谓语或宾语的起止位置。


5.根据权利要求4所述的方法,还包括:
利用所述多指针模型中的第一分类器中的第三子分类器识别所述文本向量中首层关系对中非主语、非谓语和非宾语的其它成本的起止位置,并将其作为非必要成分位置;
利用所述非必要成分位置验证所述主语、所述谓语、所述宾语的起止位置的准确性。


6.根据权利要求1至5任一项所述的方法,还包括:
根据所述主谓宾三元组构建所述待处理行业文本所属行业的知识图谱。


7.根据权利要求6所述的方法,还包括:
接收用户传入的行业知识查询请求;
根据所述行业知识查询请求在对应行业的知识图谱中查询目标知识;
将所述目标知识作为查询结果返回给所述用户。


8.一种文本数据处理装置,包括:
文本处理单元,被配置成将获取到的待处理行业文本转换为文本序列;
文本向量生成单元,被配置成根据所述文本序列生成包含上下文语境的各文本向量;
嵌套关系对起止位置确定单元,被配置成利用预设的多指针模型分别确定所述文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置,所述多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系;
主谓宾三元组生成单元...

【专利技术属性】
技术研发人员:方舟史亚冰蒋烨柴春光
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1