文本处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：34475136 阅读：27 留言：0更新日期：2022-08-10 08:50

本公开实施例提供了一种文本处理方法、装置、电子设备及存储介质。其中，文本处理方法包括：针对待处理文本中的每个字符，从待处理文本中选取字符对应的文本序列；将字符对应的文本序列输入预训练的知识词典部分，通过知识词典部分对文本序列对应的子词序列进行知识信息融合，得到子词序列的知识融合向量表示，通过后处理部分基于子词序列的知识融合向量表示获取字符的知识融合向量表示；其中，知识词典部分利用样本文本序列和样本文本序列对应的知识信息标签预训练得到。本公开实施例中知识词典部分的预训练过程相比于实体词典和知识图谱的构建过程更加简便，并且知识词典部分能够灵活地与自然语言处理过程结合，具有良好的适配性和灵活性。的适配性和灵活性。的适配性和灵活性。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、电子设备及存储介质

[0001]本公开涉及互联网
，特别是涉及一种文本处理方法、装置、电子设备及存储介质。

技术介绍

[0002]自然语言处理(Natural Language Processing，NLP)是研究人与计算机交互的语言问题的一门学科，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。一方面它是语言信息处理的一个分支，另一方面它是人工智能的核心课题之一。
[0003]在NLP任务中，通常会利用模型对文本进行分析，以便得到文本中的字符的向量表示，从而具体地表征文本中字符的特征。但是，对于NLP任务来说，单纯地依靠标注数据来提高模型的性能效果有限，如果要对自然语言深层次的语义理解，越来越需要将人类世界中产生的丰富的知识信息融入到模型当中。
[0004]现有技术中知识融合的方式，一种是基于实体词典的知识融合，通过匹配实体词典中的实体是否出现在文本中来进行知识融合。但是，基于实体词典的知识融合，需要对具体任务领域的数据进行实体词典的构建，构建实体词典的流程过于繁...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，包括：针对待处理文本中的每个字符，从所述待处理文本中选取所述字符对应的文本序列；将所述字符对应的文本序列输入预训练的知识词典部分，通过所述知识词典部分对所述文本序列对应的子词序列进行知识信息融合，得到所述子词序列的知识融合向量表示，通过后处理部分基于所述子词序列的知识融合向量表示获取所述字符的知识融合向量表示；其中，所述知识词典部分利用样本文本序列和所述样本文本序列对应的知识信息标签预训练得到。2.根据权利要求1所述的方法，其特征在于，所述知识词典部分包括分词部分和至少一个嵌入部分，一个嵌入部分基于一种类型的样本文本序列预训练得到；通过所述知识词典部分对所述文本序列对应的子词序列进行知识信息融合，得到所述子词序列的知识融合向量表示，包括：通过所述分词部分对所述文本序列进行子词粒度的分词，得到所述文本序列对应的子词序列；通过各嵌入部分分别对所述子词序列中的各子词进行知识信息融合，得到各嵌入部分对应的所述子词序列的知识融合向量表示。3.根据权利要求2所述的方法，其特征在于，所述后处理部分包括转换部分和池化部分；通过后处理部分基于所述子词序列的知识融合向量表示获取所述字符的知识融合向量表示，包括：通过所述转换部分分别对各嵌入部分对应的所述子词序列的知识融合向量表示进行子词间的融合处理，得到各嵌入部分对应的所述文本序列的知识融合向量表示；通过所述池化部分对全部嵌入部分对应的所述文本序列的知识融合向量表示进行聚合处理，得到所述字符的知识融合向量表示。4.根据权利要求1所述的方法，其特征在于，所述知识词典部分包括分词部分和至少一个嵌入部分，一个嵌入部分基于一种类型的样本文本序列预训练得到；针对任一嵌入部分，知识词典部分通过如下方式预训练得到：将所述嵌入部分对应类型的样本文本序列输入所述知识词典部分中的分词部分，通过所述分词部分对所述样本文本序列进行子词粒度的分词，得到所述样本文本序列对应的样本子词序列；通过所述嵌入部分对所述样本子词序列中的各样本子词进行知识信息融合，得到所述样本子词序列的知识融合向量表示；通过文本卷积神经网络对所述样本子词序列的知识融合向量表示进行融合抽取特征，得到所述样本文本序列的知识融合向量表示；基于所述样本文本序列的知识融合向量表示和所述样本文本序列的知识信息标签确定训练完成后，得到所述知识词典部分。5.根据权利要求1所述的方法，其特征在于，所述从所述待处理文本中选取所述字符对应的文本序列，包括：从所述待处理文本中选取包含所述字符以及所述字符前端和/或后端的至少一个字符的文本序列，作为所述字符对应的文本序列。
6.一种文本处理装置，其特征在于，包括：选取模块，用于针对待处理文本中的每个字符，从所述待处理文本中选取所述字符对应的文本序列；处理模块，用于将所述字符对应的文本序列...

【专利技术属性】
技术研发人员：郭林森，彭冲，程兵，华瑜，
申请(专利权)人：北京三快在线科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人