Classification and extraction method, the invention relates to an information device, computer device and storage medium, the method comprises: acquiring the announcement information, the announcement information to generate a plurality of text blocks; the classifier to classify multiple text blocks using the classifier, to add a block of text labels after classification; according to the category labels to classify text blocks after segmentation, multiple block segmentation; segmentation blocks corresponding to multiple category labels were screened; the correlation between the selected segment calculation and corresponding category labels, according to the correlation to extract segments selected by block segmentation; extraction to the composition of information extraction results. This method can improve the efficiency of information extraction.
【技术实现步骤摘要】
信息的分类抽取方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种信息的分类抽取方法、装置、计算机设备和存储介质。
技术介绍
随着计算机信息技术的快速发展,人们在日常生活中会接触到各种文本信息。在大数据时代,通过信息抽取的方式可以从海量繁杂的信息中快速准确地提取出有价值的、人们感兴趣的信息,以便对抽取出的信息进行分析和处理。在传统的方式中,通过对数据信息中的文本分词,识别信息中的语义词特征,对数据信息进行匹配分析,按照一定规则对信息进行抽取。但是随着数据量增加,信息抽取的效率无法得到保证。如何提高信息抽取的效率成为目前需要解决的技术问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高信息抽取的效率的信息的分类抽取方法、装置、计算机设备和存储介质。一种信息的分类抽取方法,包括:获取公告信息,利用所述公告信息生成多个文本块;获取分类器,利用所述分类器对多个文本块进行分类,对分类后的文本块添加类别标签;根据所述类别标签对分类后的文本块进行分割,得到多个分割块;对多个类别标签对应的分割块进行筛选;计算与类别标签对应的筛选出的分割块之间的 ...
【技术保护点】
一种信息的分类抽取方法,包括:获取公告信息,利用所述公告信息生成多个文本块;获取分类器,利用所述分类器对多个文本块进行分类,对分类后的文本块添加类别标签;根据所述类别标签对分类后的文本块进行分割,得到多个分割块;对多个类别标签对应的分割块进行筛选;计算与类别标签对应的筛选出的分割块之间的相关性,根据所述相关性对筛选出的分割块进行抽取;利用抽取到的分割块组成抽取结果信息。
【技术特征摘要】
1.一种信息的分类抽取方法,包括:获取公告信息,利用所述公告信息生成多个文本块;获取分类器,利用所述分类器对多个文本块进行分类,对分类后的文本块添加类别标签;根据所述类别标签对分类后的文本块进行分割,得到多个分割块;对多个类别标签对应的分割块进行筛选;计算与类别标签对应的筛选出的分割块之间的相关性,根据所述相关性对筛选出的分割块进行抽取;利用抽取到的分割块组成抽取结果信息。2.根据权利要求1所述的方法,其特征在于,所述获取分类器的步骤之前还包括:获取训练集,通过对训练集中进行训练,得到初始分类器;获取第一验证集,所述第一验证集中包括多个第一验证文本块;将多个第一验证文本块输入至初始分类器的,得到所述多个第一验证文本块对应的类别概率;对多个第一验证文本块对应的类别概率进行筛选,将筛选出的第一验证文本块发送终端,以使得选出的第一验证文本块添加类别标签,得到添加类别标签的验证集;利用所述添加类别标签的验证集和所述训练集进行训练,得到验证分类器;获取第二验证集,所述第二验证集中包括多个第二验证文本块;将多个第二验证文本块输入至所述验证分类器,得到所述多个第二验证文本块对应的类别概率;当多个第二验证文本块对应的类别概率在预设范围内的数量达到预设数据时,得到所需的分类器。3.根据权利要求1所述的方法,其特征在于,所述利用所述分类器对多个文本块进行分类,对分类后的文本块添加类别标签的步骤包括:对所述文本块进行分句,计算所述文本块中多个句子的句向量;提取所述句向量的特征,根据多个所述句向量的特征计算出文本块向量;将所述文本块向量作为分类器的输入,得到所述文本块对应的类别,对所述文本块添加类别标签。4.根据权利要求1所述的方法,其特征在于,所述根据所述类别标签对分类后的文本块进行分割,得到多个分割块的步骤包括:根据所述类别标签对分类后的文本块进行分句,计算所述分类后的文本块中多个句子的句向量;通过所述句向量计算所述分类后的文本块中相邻句子之间的相关性;当所述句子之间的相关性小于第一阈值时,对所述相邻句子进行分割,得到多个分割块。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述对多个类别标签对应的分割块进行筛选的步骤包括:提取与所述类别标签对应的多个分割块中的关...
【专利技术属性】
技术研发人员:王昕,张剑,黄石磊,吉书龙,
申请(专利权)人:北京大学深圳研究院,深港产学研基地,深圳报业集团,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。