一种文本解析方法、装置、电子设备及存储介质制造方法及图纸

技术编号：33246593 阅读：22 留言：0更新日期：2022-04-27 17:59

本发明专利技术公开了一种文本解析方法、装置、电子设备及存储介质，包括：获取待解析的文本，对文本进行预处理后获取文本中的字符和词汇；通过共享预训练编码层对字符和词汇进行编码，生成字词编码结果；对字词编码结果中的实体进行抽取，生成文本实体集；根据文本实体集进行预训练后，生成目标向量集，对目标向量集进行最大值池化操作后，生成第一向量；对字词编码结果进行最大值池化操作后，生成第二向量；将第一向量和第二向量拼接后，输入全连接层和Softmax函数，得到文本的分类结果。本发明专利技术将解析抽取任务的特征融合进分类任务中，解决质押回购任务中的高阶推理问题，在质押回购的文本的解析和文本分类的联合任务中，提高整体的准确率。确率。确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本解析方法、装置、电子设备及存储介质

[0001]本专利技术涉及数据处理
，尤其涉及一种文本解析方法、装置、电子设备及存储介质。

技术介绍

[0002]在文本理解中，文本分类任务和文本解析任务是最常用的两项技术，它主要目的是对一段文本进行意图识别和核心要素的提取。例如在金融业务中，文本“出隔夜，1.3e 2.3％押中债资信AA+”。这是质押回购的一段文本，其意图是“出资金”，业务类别是“询价过程”，核心要素如下表1所示。
[0003]表1
[0004]类别方向期限总量利率评级询价出1D13000W2.3％中债资信AA+
[0005]在文本理解中，通常需要将非结构文本，转化成如上的标准的结构化文本。这里就涉及到了深度学习的两个方向，文本分类任务和文本解析任务。
[0006]在文本分类、文本解析任务中，主要有两类技术方案，一类是管道(pipeline)的形式，即将分类任务和解析任务独立出来，分别采用不同的算法模型解决具体的子任务。文本分类任务，即判断文本属于哪个类别，或者文本表达的是什...

【技术保护点】

【技术特征摘要】
1.一种文本解析方法,其特征在于,所述方法包括：获取待解析的文本，对文本进行预处理后获取文本中的字符和词汇；通过共享预训练编码层对字符和词汇进行编码，生成字词编码结果；对字词编码结果中的实体进行抽取，生成文本实体集；根据文本实体集进行预训练后，生成目标向量集，对目标向量集进行最大值池化操作后，生成第一向量；对字词编码结果进行最大值池化操作后，生成第二向量；将第一向量和第二向量拼接后，输入全连接层和Softmax函数，得到文本的分类结果。2.根据权利要求1所述的方法，其特征在于，所述通过共享预训练编码层对字符和词汇进行编码，生成字词编码结果，包括：对字符进行特征编码，生成每个字对应的字向量；对词汇进行特征编码后，生成每个词汇对应的词向量；对字向量和词向量进行联合建模，生成字词编码结果。3.根据权利要求2所述的方法，其特征在于，所述对字符进行特征编码，生成每个字对应的字向量，包括：通过BiLSTM网络对字符进行特征编码，生成每个字对应的字向量。4.根据权利要求3所述的方法，其特征在于，所述对词汇进行特征编码后，生成每个词汇对应的词向量，包括：采用word2vec算法对词汇进行特征编码，生成每个词对应的词向量。5.根据权利要求4所述的方法，其特征在于，所述对字向量和词向量进行联合建模，生成字词编码结果，包括：根据词向量，将词向量输入图注意力网络层后，构建三类不同的图，分别记为图C、图T和图L；获取图C、图T和图L对应的邻接矩阵，并分别记为邻接矩阵AC、邻接矩阵AT和邻接矩阵AL；对邻接矩阵AC、邻接矩阵AT和邻接矩阵AL进行特征学习后，将学习后特征结果对应的记为特征GAT(AC)、特征GAT(AT)和特征GAT(AL)；将特征GAT(AC)、特征GAT(AT)和特征GAT(AL)与字向量进行拼接，生成字词编码结果。6.根据权利要求5所述的方法，其特征在于，所述对...

【专利技术属性】
技术研发人员：袁阳平，李文灏，邹鸿岳，周靖宇，
申请(专利权)人：北京快确信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人