【技术实现步骤摘要】
一种文本解析方法、装置、电子设备及存储介质
[0001]本专利技术涉及数据处理
,尤其涉及一种文本解析方法、装置、电子设备及存储介质。
技术介绍
[0002]在文本理解中,文本分类任务和文本解析任务是最常用的两项技术,它主要目的是对一段文本进行意图识别和核心要素的提取。例如在金融业务中,文本“出隔夜,1.3e 2.3%押中债资信AA+”。这是质押回购的一段文本,其意图是“出资金”,业务类别是“询价过程”,核心要素如下表1所示。
[0003]表1
[0004]类别方向期限总量利率评级询价出1D13000W2.3%中债资信AA+
[0005]在文本理解中,通常需要将非结构文本,转化成如上的标准的结构化文本。这里就涉及到了深度学习的两个方向,文本分类任务和文本解析任务。
[0006]在文本分类、文本解析任务中,主要有两类技术方案,一类是管道(pipeline)的形式,即将分类任务和解析任务独立出来,分别采用不同的算法模型解决具体的子任务。文本分类任务,即判断文本属于哪个类别,或者文本表达的是什 ...
【技术保护点】
【技术特征摘要】
1.一种文本解析方法,其特征在于,所述方法包括:获取待解析的文本,对文本进行预处理后获取文本中的字符和词汇;通过共享预训练编码层对字符和词汇进行编码,生成字词编码结果;对字词编码结果中的实体进行抽取,生成文本实体集;根据文本实体集进行预训练后,生成目标向量集,对目标向量集进行最大值池化操作后,生成第一向量;对字词编码结果进行最大值池化操作后,生成第二向量;将第一向量和第二向量拼接后,输入全连接层和Softmax函数,得到文本的分类结果。2.根据权利要求1所述的方法,其特征在于,所述通过共享预训练编码层对字符和词汇进行编码,生成字词编码结果,包括:对字符进行特征编码,生成每个字对应的字向量;对词汇进行特征编码后,生成每个词汇对应的词向量;对字向量和词向量进行联合建模,生成字词编码结果。3.根据权利要求2所述的方法,其特征在于,所述对字符进行特征编码,生成每个字对应的字向量,包括:通过BiLSTM网络对字符进行特征编码,生成每个字对应的字向量。4.根据权利要求3所述的方法,其特征在于,所述对词汇进行特征编码后,生成每个词汇对应的词向量,包括:采用word2vec算法对词汇进行特征编码,生成每个词对应的词向量。5.根据权利要求4所述的方法,其特征在于,所述对字向量和词向量进行联合建模,生成字词编码结果,包括:根据词向量,将词向量输入图注意力网络层后,构建三类不同的图,分别记为图C、图T和图L;获取图C、图T和图L对应的邻接矩阵,并分别记为邻接矩阵AC、邻接矩阵AT和邻接矩阵AL;对邻接矩阵AC、邻接矩阵AT和邻接矩阵AL进行特征学习后,将学习后特征结果对应的记为特征GAT(AC)、特征GAT(AT)和特征GAT(AL);将特征GAT(AC)、特征GAT(AT)和特征GAT(AL)与字向量进行拼接,生成字词编码结果。6.根据权利要求5所述的方法,其特征在于,所述对...
【专利技术属性】
技术研发人员:袁阳平,李文灏,邹鸿岳,周靖宇,
申请(专利权)人:北京快确信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。