一种文本解析方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33246593 阅读:22 留言:0更新日期:2022-04-27 17:59
本发明专利技术公开了一种文本解析方法、装置、电子设备及存储介质,包括:获取待解析的文本,对文本进行预处理后获取文本中的字符和词汇;通过共享预训练编码层对字符和词汇进行编码,生成字词编码结果;对字词编码结果中的实体进行抽取,生成文本实体集;根据文本实体集进行预训练后,生成目标向量集,对目标向量集进行最大值池化操作后,生成第一向量;对字词编码结果进行最大值池化操作后,生成第二向量;将第一向量和第二向量拼接后,输入全连接层和Softmax函数,得到文本的分类结果。本发明专利技术将解析抽取任务的特征融合进分类任务中,解决质押回购任务中的高阶推理问题,在质押回购的文本的解析和文本分类的联合任务中,提高整体的准确率。确率。确率。

【技术实现步骤摘要】
一种文本解析方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种文本解析方法、装置、电子设备及存储介质。

技术介绍

[0002]在文本理解中,文本分类任务和文本解析任务是最常用的两项技术,它主要目的是对一段文本进行意图识别和核心要素的提取。例如在金融业务中,文本“出隔夜,1.3e 2.3%押中债资信AA+”。这是质押回购的一段文本,其意图是“出资金”,业务类别是“询价过程”,核心要素如下表1所示。
[0003]表1
[0004]类别方向期限总量利率评级询价出1D13000W2.3%中债资信AA+
[0005]在文本理解中,通常需要将非结构文本,转化成如上的标准的结构化文本。这里就涉及到了深度学习的两个方向,文本分类任务和文本解析任务。
[0006]在文本分类、文本解析任务中,主要有两类技术方案,一类是管道(pipeline)的形式,即将分类任务和解析任务独立出来,分别采用不同的算法模型解决具体的子任务。文本分类任务,即判断文本属于哪个类别,或者文本表达的是什么意图。这是一个比较本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本解析方法,其特征在于,所述方法包括:获取待解析的文本,对文本进行预处理后获取文本中的字符和词汇;通过共享预训练编码层对字符和词汇进行编码,生成字词编码结果;对字词编码结果中的实体进行抽取,生成文本实体集;根据文本实体集进行预训练后,生成目标向量集,对目标向量集进行最大值池化操作后,生成第一向量;对字词编码结果进行最大值池化操作后,生成第二向量;将第一向量和第二向量拼接后,输入全连接层和Softmax函数,得到文本的分类结果。2.根据权利要求1所述的方法,其特征在于,所述通过共享预训练编码层对字符和词汇进行编码,生成字词编码结果,包括:对字符进行特征编码,生成每个字对应的字向量;对词汇进行特征编码后,生成每个词汇对应的词向量;对字向量和词向量进行联合建模,生成字词编码结果。3.根据权利要求2所述的方法,其特征在于,所述对字符进行特征编码,生成每个字对应的字向量,包括:通过BiLSTM网络对字符进行特征编码,生成每个字对应的字向量。4.根据权利要求3所述的方法,其特征在于,所述对词汇进行特征编码后,生成每个词汇对应的词向量,包括:采用word2vec算法对词汇进行特征编码,生成每个词对应的词向量。5.根据权利要求4所述的方法,其特征在于,所述对字向量和词向量进行联合建模,生成字词编码结果,包括:根据词向量,将词向量输入图注意力网络层后,构建三类不同的图,分别记为图C、图T和图L;获取图C、图T和图L对应的邻接矩阵,并分别记为邻接矩阵AC、邻接矩阵AT和邻接矩阵AL;对邻接矩阵AC、邻接矩阵AT和邻接矩阵AL进行特征学习后,将学习后特征结果对应的记为特征GAT(AC)、特征GAT(AT)和特征GAT(AL);将特征GAT(AC)、特征GAT(AT)和特征GAT(AL)与字向量进行拼接,生成字词编码结果。6.根据权利要求5所述的方法,其特征在于,所述对...

【专利技术属性】
技术研发人员:袁阳平李文灏邹鸿岳周靖宇
申请(专利权)人:北京快确信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1