文本数据处理方法、相关装置及计算机程序产品制造方法及图纸

技术编号：27743384 阅读：14 留言：0更新日期：2021-03-19 13:37

本申请公开了一种文本数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，涉及深度学习、自然语言处理、知识图谱构建、智能问答等人工智能技术领域。该方法的一具体实施方式包括：将获取到的待处理行业文本转换为文本序列；根据文本序列生成包含上下文语境的各文本向量；利用预设的多指针模型分别确定文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置，多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系；从起止位置抽取得到相应的关系对文本，并根据对应关系对生成待处理行业文本的主谓宾三元组。应用该实施方式可以尽可能准确的挖掘出文本向量存在的多层嵌套关系文本对。

全部详细技术资料下载

【技术实现步骤摘要】
文本数据处理方法、相关装置及计算机程序产品
本申请涉及数据处理
，具体涉及深度学习、自然语言处理、知识图谱构建、智能问答等人工智能
，尤其涉及文本数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
技术介绍
得益于人工智能与深度学习技术的发展，信息抽取等自然语言处理相关技术近些年出现了突飞猛进的发展。借助信息抽取技术可以用于辅助行业中的智能问答、智能客服等依赖信息处理与信息检索的需求，进而直接向用户返回查询结果，而不是向用户返回可能包含查询结果的网页或文件列表。
技术实现思路
本申请实施例提出了一种文本数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。第一方面，本申请实施例提出了一种文本数据处理方法，包括：将获取到的待处理行业文本转换为文本序列；根据文本序列生成包含上下文语境的各文本向量；利用预设的多指针模型分别确定文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置，多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系；从起止位置抽取得到相应的关系对文本，并根据对应关系对生成待处理行业文本的主谓宾三元组。第二方面，本申请实施例提出了一种文本数据处理装置，包括：文本处理单元，被配置成将获取到的待处理行业文本转换为文本序列；文本向量生成单元，被配置成根据文本序列生成包含上下文语境的各文本向量；嵌套关系对起止位置确定单元，被配置成利用预设的多指针模型分别确定文本向量中存在的至少两层嵌套关系对中每层关系对各...

【技术保护点】
1.一种文本数据处理方法，包括：/n将获取到的待处理行业文本转换为文本序列；/n根据所述文本序列生成包含上下文语境的各文本向量；/n利用预设的多指针模型分别确定所述文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置，所述多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系；/n从所述起止位置抽取得到相应的关系对文本，并根据所述对应关系对生成所述待处理行业文本的主谓宾三元组。/n

【技术特征摘要】
1.一种文本数据处理方法，包括：
将获取到的待处理行业文本转换为文本序列；
根据所述文本序列生成包含上下文语境的各文本向量；
利用预设的多指针模型分别确定所述文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置，所述多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系；
从所述起止位置抽取得到相应的关系对文本，并根据所述对应关系对生成所述待处理行业文本的主谓宾三元组。

2.根据权利要求1所述的方法，其中，所述根据所述文本序列生成包含上下文语境特征的各文本向量，包括：
将所述文本序列输入预先训练好的语言模型；其中，所述语言模型用于表征文本序列与包含上下文语境文本的文本向量之间的转换对应关系；
接收所述语言模型输出的与输出的文本序列对应的文本向量。

3.根据权利要求1所述的方法，其中，当所述文本向量仅存在两层嵌套关系的关系对时，所述利用预设的多指针模型分别确定所述文本向量中存在的两层嵌套关系的关系对中每层关系对各自的起止位置，包括：
利用所述多指针模型中的第一分类器识别所述文本向量中首层关系对的起止位置；
利用所述多指针模型中的第二分类器识别所述文本向量中第二层关系对的起止位置。

4.根据权利要求3所述的方法，其中，所述利用所述多指针模型中的第一分类器识别所述文本向量中首层关系对的起止位置，包括：
利用所述多指针模型中的第一分类器中的第一子分类器识别所述文本向量中首层关系对中主语的起止位置；
利用所述多指针模型中的第一分类器中的第二子分类器识别所述文本向量中首层关系对中谓语或宾语的起止位置。

5.根据权利要求4所述的方法，还包括：
利用所述多指针模型中的第一分类器中的第三子分类器识别所述文本向量中首层关系对中非主语、非谓语和非宾语的其它成本的起止位置，并将其作为非必要成分位置；
利用所述非必要成分位置验证所述主语、所述谓语、所述宾语的起止位置的准确性。

6.根据权利要求1至5任一项所述的方法，还包括：
根据所述主谓宾三元组构建所述待处理行业文本所属行业的知识图谱。

7.根据权利要求6所述的方法，还包括：
接收用户传入的行业知识查询请求；
根据所述行业知识查询请求在对应行业的知识图谱中查询目标知识；
将所述目标知识作为查询结果返回给所述用户。

8.一种文本数据处理装置，包括：
文本处理单元，被配置成将获取到的待处理行业文本转换为文本序列；
文本向量生成单元，被配置成根据所述文本序列生成包含上下文语境的各文本向量；
嵌套关系对起止位置确定单元，被配置成利用预设的多指针模型分别确定所述文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置，所述多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系；
主谓宾三元组生成单元...

【专利技术属性】
技术研发人员：方舟，史亚冰，蒋烨，柴春光，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人