一种信息挖掘方法及计算机设备技术

技术编号:26342480 阅读:39 留言:0更新日期:2020-11-13 20:34
本申请涉及数据处理技术领域,提供了一种信息挖掘方法、信息挖掘装置、计算机设备及计算机可读存储介质。其中,一种信息挖掘方法,通过对周期性汇报文件进行文本分解,利用预先构建的词典对分解得到的文本片段集合中的内容进行识别,得到关键词集合,由于已训练的分类器用于描述关键词与类型标签之间的对应关系,因此通过已训练的分类器对关键词集合中的每个关键词进行类型识别,能够为每个关键词匹配相应的类型标签,又因为类型标签能够区分关键词集合中多个关键词之间的含义,所以基于每个关键词的类型标签能够输出表征该周期性汇报文件特征的信息挖掘结果,为周期性汇报文件提供了进行信息挖掘的方案。本申请方案还可以应用于区块链领域。

A method of information mining and computer equipment

【技术实现步骤摘要】
一种信息挖掘方法及计算机设备
本专利技术属于涉及数据处理及区块链技术,尤其涉及一种信息挖掘方法、信息挖掘装置、计算机设备及计算机可读存储介质。
技术介绍
如今,为了提升科技创新活力,越来越多领域早已通过对已有的用户信息或数据进行深度分析,开发用户需求,进而研发出受消费者追捧的产品。现有的信息分析技术中,大多是对用户的数据进行统计,得到大量的用户信息,通过对用户信息进行科学化分析,确定相关的用户需求,并以此作为产品研发提供参考或者导向。虽然,在现有的信息分析方案中,采用的用户数据均是客观且无人为干预的数据,例如,用户在线上浏览产品时的操作数据,用户在线上浏览产品的种类等。但对于一些非客观汇总得到的数据或信息,例如,用户对产品的评价信息、使用心得等;再例如,用户对自己工作内容的总结与汇总等,均无法使用现有的信息分析方式对其进行分析和利用,可见,现有的信息分析技术中,存在信息挖掘方案适用范围就较小的问题。
技术实现思路
有鉴于此,本申请实施例提供了一种信息挖掘方法、信息挖掘装置、计算机设备及计算机可读存储介质,以解决现有的本文档来自技高网...

【技术保护点】
1.一种信息挖掘方法,其特征在于,包括:/n对周期性汇报文件进行文本分解,得到文本片段集合;/n利用预先构建的词典对所述文本片段集合中的内容进行识别,得到关键词集合;/n通过已训练的分类器对所述关键词集合中的每个关键词进行类型识别,为每个所述关键词匹配相应的类型标签;/n基于每个所述关键词的类型标签,输出信息挖掘结果。/n

【技术特征摘要】
1.一种信息挖掘方法,其特征在于,包括:
对周期性汇报文件进行文本分解,得到文本片段集合;
利用预先构建的词典对所述文本片段集合中的内容进行识别,得到关键词集合;
通过已训练的分类器对所述关键词集合中的每个关键词进行类型识别,为每个所述关键词匹配相应的类型标签;
基于每个所述关键词的类型标签,输出信息挖掘结果。


2.根据权利要求1所述的信息挖掘方法,其特征在于,所述对周期性汇报文件进行文本分解,得到文本片段集合,包括:
确定周期性汇报文件中的断句标点符号,以及每个所述断句标点符号对应的位置信息;
基于每个所述断句标点符号对应的位置信息,对周期性汇报文件的内容进行断句处理,得到多个原始文本片段;
剔除对每个原始文本片段中的无意词与所述断句标点符号,得到文本片段集合。


3.根据权利要求1所述的信息挖掘方法,其特征在于,所述基于每个所述关键词的类型标签,输出信息挖掘结果,包括:
利用训练后的标签配置模型基于每个所述关键词的类型标签,对周期性汇报文件中的内容进行标签配置,得到新的周期性汇报文件;
将所述新的周期性汇报文件作为所述信息挖掘结果输出。


4.根据权利要求1所述的信息挖掘方法,其特征在于,在所述对周期性汇报文件进行文本分解,得到文本片段集合的步骤之前,还包括:
向预设服务器发送用于获取周期性汇报文件的请求;其中,所述预设服务器用于接收已登录用户ID的终端上传的周期性汇报文件,并将所述周期性汇报文件与所述用户ID关联储存;
接收所述预设服务器根据所述请求返回的周期性汇报文件与相应的用户ID。


5.根据权利要求1所述的信息挖掘方法,其...

【专利技术属性】
技术研发人员:吴智炜
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1