The present invention relates to a text information classification method, device and computer equipment based on joint learning. The method includes: S1: input the first text information into Bi_LSTM bi-directional long-term and short-term memory circulation neural network for processing; S2: output after Bi_LSTM bi-directional long-term and short-term memory circulation neural network processing; As input of long-term and short-term memory network LSTM and collaborative convolution neural network CNN, the hybrid neural network is trained to get the classification network of text information. S3: Input the second text information into Bi_LSTM for processing, and input the processing results to the classification network. The classification of intelligence entity relationships obtained from the second text intelligence. It solves the problem of classifying and sorting out the existing text intelligence because of many kinds and large amounts of data. It can automatically identify information entities such as \personnel\, \location\ and \time\ in text information, which can significantly reduce the time cost of case handlers.
【技术实现步骤摘要】
一种基于联合学习的文本情报分类方法、装置及计算机设备
本专利技术涉及大数据分析
,尤其涉及一种基于联合学习的文本情报分类方法、装置及计算机设备。
技术介绍
文本情报作为一种犯罪行为研判的依据,在案件侦破中发挥着重要作用,尤其在大数据背景下,网站社交数据、通讯内容、聊天记录等文本情报的获取,极大丰富了研判信息,为案件侦破提供了稳固的信息支撑。然而,伴随着文本情报的急剧增加,情报难梳理、难利用的问题日益凸显,“数据量大、价值密度低、利用低下”成为文本情报分析的难点。文本情报提取成为解决以上问题的重要途径。文本情报提取主要由两部分组成,一、命名实体识别(NamedEntityRecognition,NER),即从文本情报中对命名实体进行识别,在公共安全领域,命名实体主要包含“人员”、“地点”、“时间”等(以下统称情报实体);二、关系分类(RelationClassification,RC),即依据NER过程提取的命名实体,对实体间的关系按设定类型进行分类。在公共安全领域,主要针对人员与人员的关联关系,人员与地点的所属关系,时间与人员的对应关系进行实体关系分类(以下统称情报实体关系分类)。传统的情报提取方式将NER过程和RC过程作为两个独立单元进行处理并且过于依赖人工特征(依据领域理解和自然语言处理工具对文本进行特征提取的过程),存在以下问题:NER与RC过程割裂,忽略了实体与关系的内在联系,致使关系分类效果不佳;人工特征过程繁琐耗时,对于多元海量文本情报的提取尤其显著。
技术实现思路
本专利技术针对现有的文本情报由于种类多、数据量大,存在分类/梳理困难的问题, ...
【技术保护点】
1.一种基于联合学习的文本情报分类方法,其特征在于,包括:S1:将第一文本情报输入双向长短期记忆循环神经网络Bi‑LSTM进行处理;所述第一文本情报为训练分类网络所用的文本情报;S2:将经过所述双向长短期记忆循环神经网络Bi‑LSTM处理后的输出,分别作为长短期记忆网络LSTM和协同卷积神经网络CNN的输入,共同进行混合神经网络训练,得到文本情报的分类网络;S3:将第二文本情报输入双向长短期记忆循环神经网络Bi‑LSTM进行处理,将处理的结果输入到所述分类网络,得到所述第二文本情报的情报实体间关系的分类;所述第二文本情报为待分类的文本情报。
【技术特征摘要】
1.一种基于联合学习的文本情报分类方法,其特征在于,包括:S1:将第一文本情报输入双向长短期记忆循环神经网络Bi-LSTM进行处理;所述第一文本情报为训练分类网络所用的文本情报;S2:将经过所述双向长短期记忆循环神经网络Bi-LSTM处理后的输出,分别作为长短期记忆网络LSTM和协同卷积神经网络CNN的输入,共同进行混合神经网络训练,得到文本情报的分类网络;S3:将第二文本情报输入双向长短期记忆循环神经网络Bi-LSTM进行处理,将处理的结果输入到所述分类网络,得到所述第二文本情报的情报实体间关系的分类;所述第二文本情报为待分类的文本情报。2.根据权利要求1所述的方法,其特征在于,在所述S1和S3中,所述处理过程包括:通过双向长短期记忆循环神经网络Bi-LSTM对输入的第一/第二文本情报进行编码,得到情报融合向量。3.根据权利要求2所述的方法,其特征在于,在所述S2中,所述作为LSTM的输入和协同卷积神经网络CNN的输入,共同进行混合神经网络训练的过程包括:对编码后得到的所述融合向量通过长短期记忆循环神经网络LSTM进行情报实体识别,得到情报实体识别模型;对编码后得到的所述融合向量通过协同卷积神经网络CNN进行情报实体识别,得到情报实体关系类别模型;将所述情报实体识别模型、和所述情报实体关系类别模型作为所述分类网络。4.根据权利要求3所述的方法,其特征在于,在所述S3中,所述得到所述第二文本情报的情报实体间关系的分类的过程包括:将处理所述第二文本情报的情报融合向量,输入到情报实体识别模型,得到情报实体标签;将处理所述第二文本情报的情报融合向量,输入到情报实体关系类别模型,得到情报实体关系类别。5.根据权利要求1或4所述的方法,其特征在于,所述S2中使用的所述卷积神经网络CNN为5层卷积层,5层池化层,卷积核大小为5×5,每层卷积层的卷积核为6个,激活函数为线性整流函数ReLU...
【专利技术属性】
技术研发人员:张镇,伊文超,史云飞,梁波,赵国强,
申请(专利权)人:中国华戎科技集团有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。