文本处理方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：38260592 阅读：13 留言：0更新日期：2023-07-27 10:21

本申请实施例提供一种文本处理方法、装置、设备及计算机可读存储介质，至少应用于人工智能技术领域，其中，方法包括：针对于待处理文本中的每一第一类型词，对第一类型词和待处理文本进行编码处理，得到对应于第一类型词和待处理文本的文本词向量；对文本词向量进行上下位关系解码处理，得到待处理文本中的每一分词与第一类型词具有上下位关系的置信度；根据置信度从至少两个分词中确定出与每一第一类型词对应的第二类型词；将第一类型词与第二类型词进行关联，得到对应于待处理文本的至少一个上下位词对。通过本申请，能够准确的识别出待处理文本中的多对上下位词对，并且能够提高上下位词对的识别效率。上下位词对的识别效率。上下位词对的识别效率。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、设备及计算机可读存储介质

[0001]本申请实施例涉及互联网
，涉及但不限于一种文本处理方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着互联网技术的高速发展，互联网上的信息量和数据量激增，从而提高了信息搜索的难度，而随着人工智能技术的发展，对信息搜索的搜索准确度要求越来越高。在进行信息搜索时，大部分场景下是在输入上位概念词时检索与该上位概念词对应的下位实体词的信息，或者是在输入下位实体词时检索与该下位实体词对应的上位概念词的信息，因此，需要预先得到上位概念词与下位实体词之间的对应关系，也就是需要预先确定出上下位词对。
[0003]相关技术中，在确定上下位词对时，通常采用以下方式实现：基于预定规则的方式、通过模板匹配的方式、采用序列标注的方式或者基于上下位关系分类的方式。
[0004]但是，相关技术中的方法均不能对仅输入纯文本的情况进行准确的上下位词对识别，且每次只能识别文本中的一对上下位词对，因此，相关技术中的方法对上下位词对的识别准确率和识别效率均较低。

技术实现思路

[0005]本申请实施例提供一种文本处理方法、装置、设备及计算机可读存储介质，至少应用于人工智能
，能够准确的识别出待处理文本中的多对上下位词对，并且能够提高上下位词对的识别效率。
[0006]本申请实施例的技术方案是这样实现的：
[0007]本申请实施例提供一种文本处理方法，所述方法包括：
[0008]对待处理文本进行第一类型词识别，得到至少一...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，所述方法包括：对待处理文本进行第一类型词识别，得到至少一个第一类型词；针对于每一所述第一类型词，对所述第一类型词和所述待处理文本进行编码处理，得到对应于所述第一类型词和所述待处理文本的文本词向量；其中，所述待处理文本包括至少两个分词；对所述文本词向量进行上下位关系解码处理，得到所述至少两个分词中的每一分词与所述第一类型词具有上下位关系的置信度；根据所述置信度，从所述至少两个分词中确定出与每一所述第一类型词对应的第二类型词；将所述第一类型词与所述第二类型词进行关联，得到对应于所述待处理文本的至少一个上下位词对。2.根据权利要求1所述的方法，其特征在于，所述对所述第一类型词和所述待处理文本进行编码处理，得到对应于所述第一类型词和所述待处理文本的文本词向量，包括：通过编码器对所述第一类型词进行特征提取，得到对应于所述第一类型词的第一词向量；对所述待处理文本进行分词处理，得到所述至少两个分词；通过所述编码器对每一所述分词进行特征提取，得到与每一所述分词对应的第二词向量；其中，所述至少两个分词对应的全部第二词向量构成所述待处理文本的文本向量，所述第一词向量和所述文本向量构成所述文本词向量。3.根据权利要求2所述的方法，其特征在于，所述对所述文本词向量进行上下位关系解码处理，得到所述至少两个分词中的每一分词与所述第一类型词具有上下位关系的置信度，包括：通过解码器中的线性层，基于所述第一词向量对每一所述分词对应的第二向量进行二分类映射，得到每一所述分词的第二词向量的二分类结果；对所述二分类结果进行所述解码处理，得到所述至少两个分词中的每一分词与所述第一类型词具有所述上下位关系的置信度。4.根据权利要求3所述的方法，其特征在于，当所述第一类型词为下位实体词时，所述第二类型词为上位概念词；当所述第一类型词为上位概念词时，所述第二类型词为下位实体词；所述二分类结果用于表征所述分词属于所述第一类型词的上位概念词的一部分，或者，所述二分类结果用于表征所述分词属于所述第一类型词的下位实体词的一部分。5.根据权利要求1所述的方法，其特征在于，所述根据所述置信度，从所述至少两个分词中确定出与每一所述第一类型词对应的第二类型词，包括以下方式中的至少之一：将所述置信度大于置信度阈值的分词，确定为所述第二类型词；以及，当所述置信度大于置信度阈值的多个分词在所述待处理文本中的位置连续时，将连续的所述多个分词对应的文本片段确定为所述第二类型词。6.根据权利要求1所述的方法，其特征在于，所述对所述第一类型词和所述待处理文本进行编码处理，得到对应于所述第一类型词和所述待处理文本的文本词向量，包括：
对所述第一类型词和所述待处理文本进行拼接，形成拼接文本；将所述拼接文本输入至预先训练的MRC模型中，通过所述MRC模型的编码模块，对所述拼接文本进行编码处理，得到对应于所述第一类型词和所述待处理文本的文本词向量；其中，所述MRC模型是采用基于全词遮掩的样本词生成方式生成的样本词进行训练得到...

【专利技术属性】
技术研发人员：曾双，刘康龙，荆宁，梁海金，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人