一种非结构化数据单元堆栈分割与复原的装置与方法制造方法及图纸

技术编号:36400879 阅读:30 留言:0更新日期:2023-01-18 10:07
本发明专利技术公开了一种非结构化数据单元堆栈分割与复原的装置与方法,涉及数据处理技术领域。包括用于存储待处理的文本数据的数据模块、用于将大纲从文本数据中抽取出来的大纲抽取模块、用于对文本内容进行切词处理,获取文段中的词汇并标注词性的切词模块、用于统计经过切词模块处理后的文本数据词频,并生成高频词表的高频词标签模块、用于抽取经过切词模块处理后的文本数据主题的主题词抽取模块、文本相似度计算模块、知识图谱模块。本发明专利技术提供一种非结构化数据单元堆栈分割与复原的装置与方法,通过对非结构化数据进行大纲抽取、切词、高频词标签、主题词抽取等处理。生成从而降低非结构化数据的使用难度,提高使用效率。提高使用效率。提高使用效率。

【技术实现步骤摘要】
一种非结构化数据单元堆栈分割与复原的装置与方法


[0001]本专利技术涉及数据处理
,尤其涉及一种非结构化数据单元堆栈分割与复原的装置与方法。

技术介绍

[0002]数字经济是以数据资源为关键要素,以现代信息网络为主要载体,以信息通信技术融合应用、全要素数字化转型为重要推动力,推动了生产方式、生活方式和治理方式的改变。在数字经济的浪潮中,如果想要乘风破浪,企事业单位需要提高对数据资源的使用效率。
[0003]随着社会数字化程度的不断提高,海量的非结构化数据在数据资源中的比例快速上升,已成为数据资源的主体。
[0004]非结构化数据指的是不一定遵守标准数据结构的文本数据,其难以被计算机程序直接理解和使用,具有不便统计、存储困难等问题,非结构化数据因为具有以上这些问题,现有的技术较难获取其价值。

技术实现思路

[0005]本专利技术提供一种非结构化数据单元堆栈分割与复原的装置与方法,解决了上述
技术介绍
提出的技术问题。
[0006]为解决上述技术问题,本专利技术提供的一种非结构化数据单元堆栈分割与复原的装本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种非结构化数据单元堆栈分割与复原的装置,其特征在于,包括用于存储待处理的文本数据的数据模块、用于将大纲从文本数据中抽取出来的大纲抽取模块、用于对文本内容进行切词处理,获取文段中的词汇并标注词性的切词模块、用于统计经过切词模块处理后的文本数据词频,并生成高频词表的高频词标签模块、用于抽取经过切词模块处理后的文本数据主题的主题词抽取模块、用于对切词模块处理后的数据进行相似度计算,获取相似度较高的文段的文本相似度计算模块、用于从切词模块处理后的数据中抽取知识图谱的知识图谱模块。2.根据权利要求1所述的一种非结构化数据单元堆栈分割与复原的装置,其特征在于,所述大纲抽取模块包括文本获取单元、资源类型库单元、判断单元、文本文段转化单元、行业大纲抽取规则单元、大纲判断单元、大纲表生成单元;文本获取单元从数据库中获取文本数据,判断单元接收文本数据后与资源类型库单元中的文本类型进行比较,判断出文本数据的文本类型和行业信息等;文本文段转化单元根据文本数据相关信息将文本数据从非结构化数据转化为结构化数据;大纲判断单元按照行业大纲抽取规则单元,判断结构化数据中的大纲级别,抽取结构化数据的大纲;大纲表生成单元,接收大纲并将大纲转化为大纲表;生成的大纲表,一份与文本数据一同返回数据库,一份与大纲抽取血缘信息存入资源管理器库中。3.根据权利要求1所述的一种非结构化数据单元堆栈分割与复原的装置,其特征在于,所述切词模块包括文本数据获取单元、判断单元、文本文段转化单元、行业专有词库单元、切词单元;文本获取单元从数据库中获取文本数据;文本文段转化单元将接收到的文本文本数据进行结构转化,从非结构化数据转化为结构化数据;判断单元对接收到的文本数据进行行业判断,根据判断出来的行业结果调用行业专有词库单元,对结构化数据信息补全;切词单元对补全后的结构化数据进行切词处理,获取其中的词汇并标注词性。4.根据权利要求1所述的一种非结构化数据单元堆栈分割与复原的装置,其特征在于,高频词标签模块包括高频词统计单元、高频词表生成单元、用户私有高频词库单元、文档高频词单元;高频词统计单元接收切词单元处理的数据后,统计其中所有词的词频,统计完成的结果由高频词表生成单元转化为高频词表;生成的高频词表,一份由文档高频词单元转化为文档的高频词标签用于前端展示,一份写回资源管理器库中,一份用于更新用户私有高频词库单元中的高频词。5.根据权利要求1所述的一种非结构化数据单元堆栈分割与复原的装置,其特征在于,所述主题词抽取模块包括行业主题词模型库单元、主题词抽取单元、用户历史数据单元、用户私有主题词库单元;行业主题词模型库单元,根据切词模块判断的文本数据所述行业,调用所述行业主题词模型库中的数据对切词模块处理完成的数据进行匹配;匹配完成的数据由主题词抽取单元进行文本数据主题抽取,抽取完成的文本数据主题词同用户历史数据单元中的碎片化数据合并;合并后的数据作为样本数据,由主题词抽取单元再进行一次主题词抽取,得到用户主题词数据;用户私有主题词库单元将...

【专利技术属性】
技术研发人员:陈刚
申请(专利权)人:上海晏鼠计算机技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1