一种数据处理的方法、装置及计算机可读介质制造方法及图纸

技术编号:32434726 阅读:23 留言:0更新日期:2022-02-24 19:06
本发明专利技术实施例公开一种数据处理方法、装置及计算机可读介质,该方法首先获取目标区域文本对应的文本模式;所述目标区域包括至少两个子区域,每个所述子区域具有对应的文本;并基于所述文本模式确定目标区域的基准文本模式;之后确定任一子区域的文本是否符合所述基准文本模式;若不符合,则确定该子区域的文本为非标准文本。由此,通过确定目标区域的基准文本模式,并利用基准文本模式判断子区域的文本是否为非标准文本,从而能够对目标区域的文本内容进行自动检测,进而提高目标区域文本检测的效率和准确率;解决了现有技术中由于采用手工编程对文档中数据内容进行核查所导致的耗时耗力的问题。时耗力的问题。时耗力的问题。

【技术实现步骤摘要】
一种数据处理的方法、装置及计算机可读介质


[0001]本专利技术涉及文档编辑
,尤其涉及一种数据处理的方法、装置及计算机可读介质。

技术介绍

[0002]在数据表格领域,传统的电子表格工具(例如Excel、WPS office等)能够针对目标列或目标行自动生成筛选器;然而该筛选器的筛选结果仅仅是对目标列或目标行中相同字符串进行简单归类和排序。在实际应用中,通常会面临更复杂的场景,例如当目标列中某一单元格的内容填写错误时,就无法通过上述的筛选器自动识别和定位,需要进行人工排错。
[0003]为了确定目标列或目标行中每个单元格的内容是否正确,目前行业内普遍的做法是对某一列或某一行进行编程确定判断规则,之后基于判断规则进行判断;但是该方法存在如下缺点:对使用者的专业技能要求极高,需要学会编程;而且当电子表格数据巨大时,例如有成百上千列的数据,若通过手工编程规则就会产生巨大的工作量,从而影响文档编辑效率。为此,急需要提供一种数据处理方法,以对数据表格中的数据内容进行自动检查,提高文档编辑效率。

技术实现思路
r/>[0004]为本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:获取目标区域文本对应的文本模式;所述目标区域包括至少两个子区域,每个所述子区域具有对应的文本;基于所述文本模式确定目标区域的基准文本模式;确定任一子区域的文本是否符合所述基准文本模式;若不符合,则确定该子区域的文本为非标准文本。2.根据权利要求1所述的方法,所述基于所述文本模式确定目标区域的基准文本模式,包括:将若干所述文本模式进行分类聚合,得到不同种类的文本模式;确定每个种类的文本模式对应的权重;将权重最大的文本模式确定为目标区域的基准文本模式。3.根据权利要求1所述的方法,所述获取目标区域中文本对应的文本模式,包括:基于子区域的文本,生成正则表达式;遍历目标区域中所有子区域的文本,生成多个正则表达式。4.根据权利要求1所述的方法,还包括:确定所述非标准文本为可校正文本;基于所述基准文本模式对所述可校正文本进行校正,得到校正文本。5.根据权利要求4所述的方法,所述确定所述非标准文本为可校正文本,包括:确定非标准文本对应的文本模式与所述基准文本模式的相似度;判断所述相似度是否满足预设条件;若判断结果表征所述相似度满足预设条件,则确定所述非标准文本为可校正文本。6.根据权利要求5所述的方法,还包括:若判断结果表征所...

【专利技术属性】
技术研发人员:张冠南白路远
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1