一种用于可研文本工作量识别的数据处理系统技术方案

技术编号:36965983 阅读:59 留言:0更新日期:2023-03-22 19:26
本发明专利技术公开了一种用于可研文本工作量识别的数据处理系统,涉及文本识别处理技术领域;通过对象获取单元获取标的对象,之后借助同向搜索单元对标的对象进行同向分析,根据标的对象的关键字检索到若干可研文本数据,之后根据可研文本数据与标的对象之间的相似度确定所有的对比文档;之后借助锁存单元对比对文档和标的对象,自动进行数据确认,确认出来所有的异常数据,并提醒工作人员审核,同时也能自动识别工期,根据阶段进度识别监控时间点,本发明专利技术简单有效,且易于实用。且易于实用。且易于实用。

【技术实现步骤摘要】
一种用于可研文本工作量识别的数据处理系统


[0001]本专利技术属于可研文本识别
,具体是一种用于可研文本工作量识别的数据处理系统。

技术介绍

[0002]公开号为CN115331237A的专利公开了文本识别模型的训练方法、文本识别方法、装置及设备。该文本识别模型训练方法包括:获取第一文本识别模型;对第一文本识别模型进行训练,在第一文本识别模型的训练过程达到第一训练条件的情况下,将解码模块中的网络层减少至目标数量,得到第二文本识别模型;对第二文本识别模型进行训练,在第二文本识别模型的训练过程达到第二训练条件的情况下,基于轻量化编码模块替换第二文本识别模型中的编码模块,得到第三文本识别模型;对第三文本识别模型进行训练,在第三文本识别模型的训练过程达到第三训练条件的情况下,得到训练完成的文本识别模型。本专利技术对文本识别模型进行多次调整和训练,兼顾模型准确率和大小,提高模型的适用范围。
[0003]该专利给出了一种合理的文本识别模型,但是,针对于一些特殊的可研文本来说,如何根据文本识别进行文本鉴差,同时能够对文本内的内容进行识别,并自本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于可研文本工作量识别的数据处理系统,其特征在于,包括:对象获取单元,用于获取标的对象,并将标的对象传输到同向搜索单元,同向搜索单元接收到对象获取单元传输的标的对象,并对标的对象进行同向分析,根据标的对象的关键字检索到若干可研文本数据,之后根据可研文本数据与标的对象之间的相似度确定所有的对比文档;同向搜索单元用于将比对文档和标的对象传输到锁存单元,锁存单元接收同向搜索单元传输的比对文档和标的对象,并自动进行数据确认,数据确认具体方式为:S1:获取到标的对象内所有的数值数据,将其标记为数值标的,之后自动获取到数值标的得表头标的;S2:获取到所有对比文档内与表头标的一致的表头内容,将其标记为比对表头,获取到比对表头后的数据,将其标记为比对数据;得到若干份比对数据及其对应的比对表头;S3:之后将与表头标的一致的比对标的作为一个组合,将对应的数值标的与比对数据标记为一个比较组合;S4:获取到比较组合中所有的比对数据的最小值到最大值这个范围,将其标记为比较组合范围;S5:获取到数值标的不在比较组合范围内时,将对应数值标的的表头标的标记为异常标的,否则不做处理;S6:得到异常标的的数量,将其除以所有表头标的的数量,得到异常占比;S7:当异常占比不超过设定占比时,产生核实信号;S8:当产生核实信号时,需要工作人员对数据进行核实。2.根据权利要求1所述的一种用于可研文本工作量识别的数据处理系统,其特征在于,标的对象即为对应的可行性研究报告。3.根据权利要求1所述的一种用于可研文本工作量识别的数据处理系统,其特征在于,同向分析具体方式为:获取到标的对象,获取到标的对象的标题,检索所有包含相关标题的可研文本数据,将其标记为关联数据,具体检索方式为:获取到标的对象中的关键字,关键字通过首先对标的对象进行分词处理,得到若干个分词,之后自动获取到每个分词出现次数,按照出现次数进行从大到小的排序,将排序前五的标记为关键字;根据关键字在可研文本数据库内进行检索,将包含全部关键字的文档,全部标记为关联文档;之后将所有的关联文档与标的对象进行一一比对,得到每一个关联文档与标的对象的相似度,将相似...

【专利技术属性】
技术研发人员:袁翔石梦兰陆晓芬俞楚天程聪庄峥宇
申请(专利权)人:国网浙江省电力有限公司经济技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1