一种文本数据抽取方法、系统、电子设备及存储介质技术方案

技术编号:30906163 阅读:28 留言:0更新日期:2021-11-22 23:51
本申请公开了一种文本数据抽取方法、系统、电子设备及存储介质,本方法通过对不同数据类型的数据进行文本处理,得到待处理文本数据,对待处理文本数据按照垂直领域的主题模型进行聚类,从而得到关键数据,减少数据的亢余,同时,对标准文本和聚类后的文本数据分别进行分词得到独立句,并以标准文本和聚类后的文本数据之间的独立句的相似度筛选候选文本数据,以进一步提炼数据,并以预先建立的语言模型计算候选文本数据的PPL值,筛选候选文本数据的PPL值落入预设的评分域中的候选文本数据作为最佳保留句,从而在海量的数据中快速提炼出有效且有价值的部分数据。效且有价值的部分数据。效且有价值的部分数据。

【技术实现步骤摘要】
一种文本数据抽取方法、系统、电子设备及存储介质


[0001]本申请涉及文本处理
,尤其涉及一种文本数据抽取方法、系统、电子设备及存储介质。

技术介绍

[0002]在当今这个大数据和人工智能发展快速的时代,数据成为了人工智能不断优化进步的重要原料。在实际生活中,为调取历史记录等一些操作,人们常常会将数据存储下来。
[0003]由于数据本身的体量是巨大的,所以,在大多数领域数据的获取并不困难。但实际的情况是,数据存在大量冗余的、无效的、数据格式不统一等等并不理想的状况。
[0004]在传统的方案中,人们对数据的记载主要依赖于纸笔的记录、word、excel等工具的记录,在收集一些文本数据时,往往会收集到一批纸笔记录的拍照留存语音、图片、word、excel等记录的内容。而目前,难以在海量的数据中快速提炼出有效且有价值的部分数据。

技术实现思路

[0005]本申请提供了一种文本数据抽取方法、系统、电子设备及存储介质,用于解决上述难以在海量的数据中快速提炼出有效且有价值的部分数据的技术问题。r/>[0006]有本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本数据抽取方法,其特征在于,包括以下步骤:根据数据类型对数据库中的待处理数据进行文本处理,从而得到待处理文本数据;根据垂直领域的主题模型,对所述待处理文本数据进行聚类;对预先建立的标准文本和聚类后的待处理文本数据分别进行分词处理,得到所述预先建立的标准文本和聚类后的待处理文本数据的独立句,计算所述预先建立的标准文本和聚类后的待处理文本数据的独立句的句向量;根据预设的相似度计算规则计算所述标准文本和所述待处理文本数据的独立句之间的句向量的相似度;将所述标准文本和所述待处理文本数据的独立句之间的句向量的相似度大于预设相似度阈值的所述独立句作为候选文本数据,放入至候选数据池;将所述候选数据池中的所述候选文本数据输入至预先建立的语言模型中,得到所述候选文本数据的PPL值;判断所述候选文本数据的PPL值是否落入预设的评分域中,若所述候选文本数据的PPL值落入所述预设的评分域中,则将相应的候选文本数据作为最佳保留句,否则,则将筛除相应的候选文本数据。2.根据权利要求1所述的文本数据抽取方法,其特征在于,所述根据数据类型对数据库中的待处理数据进行文本处理,从而得到待处理文本数据的步骤包括:识别所述数据库中的所述待处理数据的数据类型;根据识别到的数据类型对所述待处理数据进行文本处理,从而得到待处理文本数据,具体为,若所述待处理数据为语音格式,则采用AI语音识别平台对所述待处理数据进行文本转化,从而得到所述待处理文本数据;若所述待处理数据为照片格式,则采用OCR技术对所述待处理数据进行文本转化,从而得到所述待处理文本数据;若所述待处理数据为word格式,则采用python的第三方工具库python

docx对所述待处理数据进行批量文本处理,从而得到所述待处理文本数据;若所述待处理数据为excel格式,则采用python的第三方工具库xlrd对所述待处理数据进行所需内容的文本抽取,从而得到所述待处理文本数据。3.根据权利要求1所述的文本数据抽取方法,其特征在于,所述根据垂直领域的主题模型,对所述待处理文本数据进行聚类的步骤具体包括:将所述待处理数据进行垂直领域划分,得到多个垂直领域;确定多个垂直领域的主题模型;对所述待处理文本数据进行主题分布,将所述待处理文本数据的主题分布与所述主题模型的匹配程度进行聚合,得到多个垂直领域的主题模型下分别对应的所述待处理文本数据。4.根据权利要求1所述的文本数据抽取方法,其特征在于,所述对预先建立的标准文本和聚类后的待处理文本数据分别进行分词处理,得到所述预先建立的标准文本和聚类后的待处理文本数据的独立句,计算所述预先建立的标准文本和聚类后的待处理文本数据的独立句的句向量的步骤具体包括:
对预先建立的标准文本和聚类后的待处理文本数据分别进行分词处理,得到所述预先建立的标准文本和聚类后的待处理文本数据的独立句;利用word2vector模型获取所述预先建立的标准文本和聚类后的待处理文本数据的每个独立句中各个词汇的词向量...

【专利技术属性】
技术研发人员:邱俊豪苏建华张宏亮吴浩珊黄城张晓波张德耀杨毅伍绍聪卢福宁
申请(专利权)人:广东电网有限责任公司肇庆供电局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1