文本处理方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:38260592 阅读:13 留言:0更新日期:2023-07-27 10:21
本申请实施例提供一种文本处理方法、装置、设备及计算机可读存储介质,至少应用于人工智能技术领域,其中,方法包括:针对于待处理文本中的每一第一类型词,对第一类型词和待处理文本进行编码处理,得到对应于第一类型词和待处理文本的文本词向量;对文本词向量进行上下位关系解码处理,得到待处理文本中的每一分词与第一类型词具有上下位关系的置信度;根据置信度从至少两个分词中确定出与每一第一类型词对应的第二类型词;将第一类型词与第二类型词进行关联,得到对应于待处理文本的至少一个上下位词对。通过本申请,能够准确的识别出待处理文本中的多对上下位词对,并且能够提高上下位词对的识别效率。上下位词对的识别效率。上下位词对的识别效率。

【技术实现步骤摘要】
文本处理方法、装置、设备及计算机可读存储介质


[0001]本申请实施例涉及互联网
,涉及但不限于一种文本处理方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着互联网技术的高速发展,互联网上的信息量和数据量激增,从而提高了信息搜索的难度,而随着人工智能技术的发展,对信息搜索的搜索准确度要求越来越高。在进行信息搜索时,大部分场景下是在输入上位概念词时检索与该上位概念词对应的下位实体词的信息,或者是在输入下位实体词时检索与该下位实体词对应的上位概念词的信息,因此,需要预先得到上位概念词与下位实体词之间的对应关系,也就是需要预先确定出上下位词对。
[0003]相关技术中,在确定上下位词对时,通常采用以下方式实现:基于预定规则的方式、通过模板匹配的方式、采用序列标注的方式或者基于上下位关系分类的方式。
[0004]但是,相关技术中的方法均不能对仅输入纯文本的情况进行准确的上下位词对识别,且每次只能识别文本中的一对上下位词对,因此,相关技术中的方法对上下位词对的识别准确率和识别效率均较低。

技术实现思路

[0005]本申请实施例提供一种文本处理方法、装置、设备及计算机可读存储介质,至少应用于人工智能
,能够准确的识别出待处理文本中的多对上下位词对,并且能够提高上下位词对的识别效率。
[0006]本申请实施例的技术方案是这样实现的:
[0007]本申请实施例提供一种文本处理方法,所述方法包括:
[0008]对待处理文本进行第一类型词识别,得到至少一个第一类型词;
[0009]针对于每一所述第一类型词,对所述第一类型词和所述待处理文本进行编码处理,得到对应于所述第一类型词和所述待处理文本的文本词向量;其中,所述待处理文本包括至少两个分词;
[0010]对所述文本词向量进行上下位关系解码处理,得到所述至少两个分词中的每一分词与所述第一类型词具有上下位关系的置信度;
[0011]根据所述置信度,从所述至少两个分词中确定出与每一所述第一类型词对应的第二类型词;
[0012]将所述第一类型词与所述第二类型词进行关联,得到对应于所述待处理文本的至少一个上下位词对。
[0013]本申请实施例提供一种文本处理装置,所述装置包括:
[0014]识别模块,用于对待处理文本进行第一类型词识别,得到至少一个第一类型词;
[0015]编码处理模块,用于针对于每一所述第一类型词,对所述第一类型词和所述待处
理文本进行编码处理,得到对应于所述第一类型词和所述待处理文本的文本词向量;其中,所述待处理文本包括至少两个分词;
[0016]解码处理模块,用于对所述文本词向量进行上下位关系解码处理,得到所述至少两个分词中的每一分词与所述第一类型词具有上下位关系的置信度;
[0017]确定模块,用于根据所述置信度,从所述至少两个分词中确定出与每一所述第一类型词对应的第二类型词;
[0018]关联模块,用于将所述第一类型词与所述第二类型词进行关联,得到对应于所述待处理文本的至少一个上下位词对。
[0019]本申请实施例提供一种文本处理设备,包括:
[0020]存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现上述文本处理方法。
[0021]本申请实施例提供一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中;其中,计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令,所述处理器用于执行所述计算机指令,实现上述的文本处理方法。
[0022]本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行所述可执行指令时,实现上述文本处理方法。
[0023]本申请实施例具有以下有益效果:在对待处理文本进行处理时,先识别出待处理文本中的第一类型词,再基于第一类型词,依次对第一类型词和待处理文本进行编码处理和上下位关系解码处理,得到待处理文本中的每一分词的置信度,基于置信度从至少两个分词中确定出与每一第一类型词具有上下位关系的第二类型词,从而形成至少一个上下位词对。如此,由于在只输入待处理文件的条件下就可以同时识别出待处理文本中的全部上下位词对,因此,能够极大的提高文本识别的效率,并且,由于是基于先识别出的第一类型词,依次进行编码处理和上下位关系解码处理,因此,能够准确的识别出与第一类型词对应的第二类型词,从而能够准确的识别出待处理文本中的多对上下位词对。
附图说明
[0024]图1A是基于规则的概念上下位关系挖掘方法挖掘上下位词对的界面图;
[0025]图1B是基于Bootstrapping的模板匹配技术的上下位词对识别过程;
[0026]图1C是基于序列标注的上下位关系抽取方法的抽取过程示意图;
[0027]图1D是基于预训练模型BERT的上下位关系分类方法的分类过程示意图;
[0028]图2是本申请实施例提供的文本处理系统的一个可选的架构示意图;
[0029]图3是本申请实施例提供的文本处理设备的结构示意图;
[0030]图4是本申请实施例提供的文本处理方法的一个可选的流程示意图;
[0031]图5是本申请实施例提供的文本处理方法的另一个可选的流程示意图;
[0032]图6是本申请实施例提供的文本处理方法的再一个可选的流程示意图;
[0033]图7是本申请实施例提供的搜索联想词推荐的产品界面图;
[0034]图8是本申请实施例提供的概念类候选搜索框词生成的产品界面图;
[0035]图9是本申请实施例提供的基于知识图谱的问答系统的问答匹配过程示意图;
[0036]图10是本申请实施例提供的文本处理系统实现文本处理方法的流程图;
[0037]图11是本申请实施例提供的三种场景示意图;
[0038]图12是本申请实施例提供的MRC模型的结构示意图;
[0039]图13是本申请实施例提供的MRC模型的编码器的结构示意图;
[0040]图14是采用本申请实施例的方法预测的案例示意图。
具体实施方式
[0041]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0042]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。除非另有定义,本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的
的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0043]在说明本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:对待处理文本进行第一类型词识别,得到至少一个第一类型词;针对于每一所述第一类型词,对所述第一类型词和所述待处理文本进行编码处理,得到对应于所述第一类型词和所述待处理文本的文本词向量;其中,所述待处理文本包括至少两个分词;对所述文本词向量进行上下位关系解码处理,得到所述至少两个分词中的每一分词与所述第一类型词具有上下位关系的置信度;根据所述置信度,从所述至少两个分词中确定出与每一所述第一类型词对应的第二类型词;将所述第一类型词与所述第二类型词进行关联,得到对应于所述待处理文本的至少一个上下位词对。2.根据权利要求1所述的方法,其特征在于,所述对所述第一类型词和所述待处理文本进行编码处理,得到对应于所述第一类型词和所述待处理文本的文本词向量,包括:通过编码器对所述第一类型词进行特征提取,得到对应于所述第一类型词的第一词向量;对所述待处理文本进行分词处理,得到所述至少两个分词;通过所述编码器对每一所述分词进行特征提取,得到与每一所述分词对应的第二词向量;其中,所述至少两个分词对应的全部第二词向量构成所述待处理文本的文本向量,所述第一词向量和所述文本向量构成所述文本词向量。3.根据权利要求2所述的方法,其特征在于,所述对所述文本词向量进行上下位关系解码处理,得到所述至少两个分词中的每一分词与所述第一类型词具有上下位关系的置信度,包括:通过解码器中的线性层,基于所述第一词向量对每一所述分词对应的第二向量进行二分类映射,得到每一所述分词的第二词向量的二分类结果;对所述二分类结果进行所述解码处理,得到所述至少两个分词中的每一分词与所述第一类型词具有所述上下位关系的置信度。4.根据权利要求3所述的方法,其特征在于,当所述第一类型词为下位实体词时,所述第二类型词为上位概念词;当所述第一类型词为上位概念词时,所述第二类型词为下位实体词;所述二分类结果用于表征所述分词属于所述第一类型词的上位概念词的一部分,或者,所述二分类结果用于表征所述分词属于所述第一类型词的下位实体词的一部分。5.根据权利要求1所述的方法,其特征在于,所述根据所述置信度,从所述至少两个分词中确定出与每一所述第一类型词对应的第二类型词,包括以下方式中的至少之一:将所述置信度大于置信度阈值的分词,确定为所述第二类型词;以及,当所述置信度大于置信度阈值的多个分词在所述待处理文本中的位置连续时,将连续的所述多个分词对应的文本片段确定为所述第二类型词。6.根据权利要求1所述的方法,其特征在于,所述对所述第一类型词和所述待处理文本进行编码处理,得到对应于所述第一类型词和所述待处理文本的文本词向量,包括:
对所述第一类型词和所述待处理文本进行拼接,形成拼接文本;将所述拼接文本输入至预先训练的MRC模型中,通过所述MRC模型的编码模块,对所述拼接文本进行编码处理,得到对应于所述第一类型词和所述待处理文本的文本词向量;其中,所述MRC模型是采用基于全词遮掩的样本词生成方式生成的样本词进行训练得到...

【专利技术属性】
技术研发人员:曾双刘康龙荆宁梁海金
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1