一种混合知识模型的文件要素信息挖掘方法与装置制造方法及图纸

技术编号:42082327 阅读:28 留言:0更新日期:2024-07-19 16:59
本发明专利技术公开一种混合知识模型的文件要素信息挖掘方法与装置,属于数据处理技术领域,本发明专利技术以部门文件的发文单位为切入点,介绍了一种混合知识模型的文件要素信息挖掘方法,结合部门规范文件在头部、内容和尾部可呈现不同类型的信息要素的特点,将高信息密度的文件大文本解构成模块化片段,并针对不同的片段输入混合通用注意力模型和长文本切割卷积模型的知识网络,辅以门控模型和推理模型,实现对部门文件按照脉络,从级别‑发文地区‑发文单位的多级挖掘,满足发文单位的挖掘及多级内容自反馈自核验,并且可适应文件库的基准规范。

【技术实现步骤摘要】

本专利技术属于数据处理,具体涉及一种混合知识模型的文件要素信息挖掘方法与装置


技术介绍

1、部门文件数据作为数据要素市场的重要分析对象,有着重大意义。当前市面上的文件常常由各地各级部门单位按照本地标准,在各地窗口进行发布;若需要进一步进行宏观微观分析,发挥其最大的价值,则往往需要进行爬取归集并在统一维度上进行分析。而目前对于发文单位要素的提取方式,常常是通过简单的相似度对比的方式进行匹配;进而无法避免同名市、同名区或者不同网站的命名偏差带来的误差,并且随着文件分析量级的提升,这种误差会以滚雪球效应变得越来越大。


技术实现思路

1、针对现有技术的不足,本专利技术的目的在于提供一种混合知识模型的文件要素信息挖掘方法与装置。

2、本专利技术的目的可以通过以下技术方案实现:

3、一种混合知识模型的文件要素信息挖掘方法,包括以下步骤:

4、s1:初始化标准标签数据,构建基于文件级别、发文地区、发文单位的标准数据字典列表;

5、s2:读取初始化标准标签数据,对部门文件文本本文档来自技高网...

【技术保护点】

1.一种混合知识模型的文件要素信息挖掘方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种混合知识模型的文件要素信息挖掘方法,其特征在于,初始化标准标签数据具体步骤包括:

3.根据权利要求2所述的一种混合知识模型的文件要素信息挖掘方法,其特征在于,所述段落切割的原理是通过结构识别技术,提取文件每一段的标题及标题顺序,然后提前为各组成部分预设一些样例标题列表,同时设定第一段必须为文件头、最后一段必须为文件尾,再结合文件标题与预设列表相似度与上下相邻标题的分类进行带权重的无监督的分类预测,其公式如下:

4.根据权利要求3所述的一种混合知识模型的文...

【技术特征摘要】

1.一种混合知识模型的文件要素信息挖掘方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种混合知识模型的文件要素信息挖掘方法,其特征在于,初始化标准标签数据具体步骤包括:

3.根据权利要求2所述的一种混合知识模型的文件要素信息挖掘方法,其特征在于,所述段落切割的原理是通过结构识别技术,提取文件每一段的标题及标题顺序,然后提前为各组成部分预设一些样例标题列表,同时设定第一段必须为文件头、最后一段必须为文件尾,再结合文件标题与预设列表相似度与上下相邻标题的分类进行带权重的无监督的分类预测,其公式如下:

4.根据权利要求3所述的一种混合知识模型的文件要素信息挖掘方法,其特征在于,针对文件正文的长文本切割卷积模型是基于通用注意力模型上下拓展出文本切割层、卷积处理层、数据合并层;

5.根据权利要求4所述的一种混合知识模型的文件要素信息挖掘方法,其特征在于,假设e为知识结果,其中文件头、文件正文、文件尾的知识结果分别为eheader、econtent、etail,然后将e分别传入各自对应的计算门,得到e的门控表示g,分别为gheader、econtent、gtail,考虑到针对一篇文件中的头、正文、尾存在着一定的时序关系,引入3个...

【专利技术属性】
技术研发人员:徐炽明梁孟陈楚玲杨劲业吴子弘
申请(专利权)人:京信数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1