一种基于联合学习的文本情报分类方法、装置及计算机设备制造方法及图纸

技术编号:19342485 阅读:33 留言:0更新日期:2018-11-07 14:00
本发明专利技术涉及一种基于联合学习的文本情报分类方法、装置及计算机设备,该方法包括:S1:将第一文本情报输入双向长短期记忆循环神经网络Bi‑LSTM进行处理;S2:将经过所述双向长短期记忆循环神经网络Bi‑LSTM处理后的输出,分别作为长短期记忆网络LSTM和协同卷积神经网络CNN的输入,共同进行混合神经网络训练,得到文本情报的分类网络;S3:将第二文本情报输入双向长短期记忆循环神经网络Bi‑LSTM进行处理,将处理的结果输入到所述分类网络,得到所述第二文本情报的情报实体间关系的分类。解决了现有的文本情报由于种类多、数据量大,存在分类/梳理困难的问题。能够自动识别文本情报中的“人员”“地点”“时间”等情报实体,显著降低办案人员时间成本。

Text intelligence classification method, device and computer equipment based on joint learning

The present invention relates to a text information classification method, device and computer equipment based on joint learning. The method includes: S1: input the first text information into Bi_LSTM bi-directional long-term and short-term memory circulation neural network for processing; S2: output after Bi_LSTM bi-directional long-term and short-term memory circulation neural network processing; As input of long-term and short-term memory network LSTM and collaborative convolution neural network CNN, the hybrid neural network is trained to get the classification network of text information. S3: Input the second text information into Bi_LSTM for processing, and input the processing results to the classification network. The classification of intelligence entity relationships obtained from the second text intelligence. It solves the problem of classifying and sorting out the existing text intelligence because of many kinds and large amounts of data. It can automatically identify information entities such as \personnel\, \location\ and \time\ in text information, which can significantly reduce the time cost of case handlers.

【技术实现步骤摘要】
一种基于联合学习的文本情报分类方法、装置及计算机设备
本专利技术涉及大数据分析
,尤其涉及一种基于联合学习的文本情报分类方法、装置及计算机设备。
技术介绍
文本情报作为一种犯罪行为研判的依据,在案件侦破中发挥着重要作用,尤其在大数据背景下,网站社交数据、通讯内容、聊天记录等文本情报的获取,极大丰富了研判信息,为案件侦破提供了稳固的信息支撑。然而,伴随着文本情报的急剧增加,情报难梳理、难利用的问题日益凸显,“数据量大、价值密度低、利用低下”成为文本情报分析的难点。文本情报提取成为解决以上问题的重要途径。文本情报提取主要由两部分组成,一、命名实体识别(NamedEntityRecognition,NER),即从文本情报中对命名实体进行识别,在公共安全领域,命名实体主要包含“人员”、“地点”、“时间”等(以下统称情报实体);二、关系分类(RelationClassification,RC),即依据NER过程提取的命名实体,对实体间的关系按设定类型进行分类。在公共安全领域,主要针对人员与人员的关联关系,人员与地点的所属关系,时间与人员的对应关系进行实体关系分类(以下统称情报实体关系分类)。传统的情报提取方式将NER过程和RC过程作为两个独立单元进行处理并且过于依赖人工特征(依据领域理解和自然语言处理工具对文本进行特征提取的过程),存在以下问题:NER与RC过程割裂,忽略了实体与关系的内在联系,致使关系分类效果不佳;人工特征过程繁琐耗时,对于多元海量文本情报的提取尤其显著。
技术实现思路
本专利技术针对现有的文本情报由于种类多、数据量大,存在分类/梳理困难的问题,提供了一种基于联合学习的文本情报分类方法、装置及计算机设备,能够自动识别文本情报中的“人员”“地点”“时间”等情报实体,从中提取人与人、人与地点、人与事件的关系,在充分利用大数据背景下多样化文本情报的同时,显著降低办案人员时间成本。第一方面,本专利技术提供了一种基于联合学习的文本情报分类方法,包括:S1:将第一文本情报输入双向长短期记忆循环神经网络Bi-LSTM进行处理;所述第一文本情报为训练分类网络所用的文本情报;S2:将经过所述双向长短期记忆循环神经网络Bi-LSTM处理后的输出,分别作为长短期记忆网络LSTM和协同卷积神经网络CNN的输入,共同进行混合神经网络训练,得到文本情报的分类网络;S3:将第二文本情报输入双向长短期记忆循环神经网络Bi-LSTM进行处理,将处理的结果输入到所述分类网络,得到所述第二文本情报的情报实体间关系的分类;所述第二文本情报为待分类的文本情报。本专利技术的有益效果是:在充分利用大数据背景下多样化文本情报的同时,显著降低办案人员的时间成本。进一步,在所述S1和S3中,所述处理过程包括:通过双向长短期记忆循环神经网络Bi-LSTM对输入的第一/第二文本情报进行编码,得到情报融合向量。进一步,在所述S2中,所述作为LSTM的输入和协同卷积神经网络CNN的输入,共同进行混合神经网络训练的过程包括:对编码后得到的所述融合向量通过长短期记忆循环神经网络LSTM进行情报实体识别,得到情报实体识别模型;对编码后得到的所述融合向量通过协同卷积神经网络CNN进行情报实体识别,得到情报实体关系类别模型;将所述情报实体识别模型、和所述情报实体关系类别模型作为所述分类网络。进一步,所述得到所述第二文本情报的情报实体间关系的分类的过程包括:将处理所述第二文本情报的情报融合向量,输入到情报实体识别模型,得到情报实体标签;将处理所述第二文本情报的情报融合向量,输入到情报实体关系类别模型,得到情报实体关系类别。进一步,所述S2中使用的所述卷积神经网络CNN为5层卷积层,5层池化层,卷积核大小为5×5,每层卷积层的卷积核为6个,激活函数为线性整流函数ReLU函数。采用上述进一步的技术方案的有益技术效果在于,采用ReLU函数作为激活函数,首先,在反向传播求梯度时,整个过程的计算量会节省很多。其次,对于深层网络,使用sigmoid函数作为激活函数时,反向传播非常容易出现梯度消失的问题,所以传统的BP神经网络一般不能超过三层,而引入ReLU函数之后,它的右侧是不会饱和的,所以一般不会出现梯度消失的问题。第三,ReLU函数在输入小于0的时候,会一直输出0。这就会使一部分神经元输出为0,从而使得网络具有稀疏性。第二方面,本专利技术提供了一种基于联合学习的文本情报提取装置,所述装置包括:输入模块:用于将第一文本情报输入双向长短期记忆循环神经网络Bi-LSTM;所述第一文本情报为训练分类网络所用的文本情报;训练模块:用于将经过所述双向长短期记忆循环神经网络Bi-LSTM处理后的输出,分别作为长短期记忆网络LSTM和协同卷积神经网络CNN的输入,共同进行混合神经网络训练,得到文本情报的分类网络;分类模块:用于将第二文本情报输入双向长短期记忆循环神经网络Bi-LSTM进行处理,将处理的结果输入到所述分类网络,得到所述第二文本情报的情报实体间关系的分类;所述第二文本情报为待分类的文本情报。本专利技术的有益效果是:在充分利用大数据背景下多样化文本情报的同时,显著降低办案人员的时间成本。进一步的,所述输入模块的所述处理过程包括:通过双向长短期记忆循环神经网络Bi-LSTM对输入的第一/第二文本情报进行编码,得到情报融合向量。进一步的,所述作为LSTM的输入和协同卷积神经网络CNN的输入,共同进行混合神经网络训练的过程包括:对编码后得到的所述融合向量通过长短期记忆循环神经网络LSTM进行情报实体识别,得到情报实体识别模型;对编码后得到的所述融合向量通过协同卷积神经网络CNN进行情报实体识别,得到情报实体关系类别模型;将所述情报实体识别模型、和所述情报实体关系类别模型作为所述分类网络。进一步的,所述分类模块的所述得到所述第二文本情报的情报实体间关系的分类的过程包括:将处理所述第二文本情报的情报融合向量,输入到情报实体识别模型,得到情报实体标签;将处理所述第二文本情报的情报融合向量,输入到情报实体关系类别模型,得到情报实体关系类别。第三方面,本专利技术提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。本专利技术的有益效果是:1.文本编码过程结合实体和实体关系,充分考虑情报实体上下文联系以及情报实体间隐含关系,引入双向循环神经网络和联合学习对文本编码进行更新;2.融合情报关系抽取和情报实体发现过程,通过共享文本编码过程,实现其动态交互上,提高情报实体关系分类的准确率,为辅助研判提供了信息支撑。3.构建“人员”“地点”“时间”情报关系网络,分析人与人,人与地点,人与时间的关系,在简化文本情报的同时,掌握情报主线,展示情报来龙去脉。4.实体关系分类过程进行多特征融合,并采用深度学习,自动学习文本情报特征,避免了复杂的人工特征提取过程,降低了人力成本;5.实体识别过程中优化LSTM结构,充分模拟实体信息交互过程,提高实体识别准确率。附图说明图1为本专利技术实施例提供的一种基于联合学习的文本情报分类方法的流程示意图;图2位本专利技术的一种基于联合学习的文本情报分类方法的结构图;图3为本专利技术实施例提供的一种基于联合学习的文本情报分类本文档来自技高网...

【技术保护点】
1.一种基于联合学习的文本情报分类方法,其特征在于,包括:S1:将第一文本情报输入双向长短期记忆循环神经网络Bi‑LSTM进行处理;所述第一文本情报为训练分类网络所用的文本情报;S2:将经过所述双向长短期记忆循环神经网络Bi‑LSTM处理后的输出,分别作为长短期记忆网络LSTM和协同卷积神经网络CNN的输入,共同进行混合神经网络训练,得到文本情报的分类网络;S3:将第二文本情报输入双向长短期记忆循环神经网络Bi‑LSTM进行处理,将处理的结果输入到所述分类网络,得到所述第二文本情报的情报实体间关系的分类;所述第二文本情报为待分类的文本情报。

【技术特征摘要】
1.一种基于联合学习的文本情报分类方法,其特征在于,包括:S1:将第一文本情报输入双向长短期记忆循环神经网络Bi-LSTM进行处理;所述第一文本情报为训练分类网络所用的文本情报;S2:将经过所述双向长短期记忆循环神经网络Bi-LSTM处理后的输出,分别作为长短期记忆网络LSTM和协同卷积神经网络CNN的输入,共同进行混合神经网络训练,得到文本情报的分类网络;S3:将第二文本情报输入双向长短期记忆循环神经网络Bi-LSTM进行处理,将处理的结果输入到所述分类网络,得到所述第二文本情报的情报实体间关系的分类;所述第二文本情报为待分类的文本情报。2.根据权利要求1所述的方法,其特征在于,在所述S1和S3中,所述处理过程包括:通过双向长短期记忆循环神经网络Bi-LSTM对输入的第一/第二文本情报进行编码,得到情报融合向量。3.根据权利要求2所述的方法,其特征在于,在所述S2中,所述作为LSTM的输入和协同卷积神经网络CNN的输入,共同进行混合神经网络训练的过程包括:对编码后得到的所述融合向量通过长短期记忆循环神经网络LSTM进行情报实体识别,得到情报实体识别模型;对编码后得到的所述融合向量通过协同卷积神经网络CNN进行情报实体识别,得到情报实体关系类别模型;将所述情报实体识别模型、和所述情报实体关系类别模型作为所述分类网络。4.根据权利要求3所述的方法,其特征在于,在所述S3中,所述得到所述第二文本情报的情报实体间关系的分类的过程包括:将处理所述第二文本情报的情报融合向量,输入到情报实体识别模型,得到情报实体标签;将处理所述第二文本情报的情报融合向量,输入到情报实体关系类别模型,得到情报实体关系类别。5.根据权利要求1或4所述的方法,其特征在于,所述S2中使用的所述卷积神经网络CNN为5层卷积层,5层池化层,卷积核大小为5×5,每层卷积层的卷积核为6个,激活函数为线性整流函数ReLU...

【专利技术属性】
技术研发人员:张镇伊文超史云飞梁波赵国强
申请(专利权)人:中国华戎科技集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1