文本校对方法、装置和电子设备制造方法及图纸

技术编号:33530794 阅读:27 留言:0更新日期:2022-05-19 02:01
本申请实施例公开了文本校对方法、装置和电子设备。该方法的一具体实施方式包括:将目标文本输入预先训练的实体词识别模型中,得到目标文本中的实体词;从目标文本中的实体词中筛选出符合预设第一条件的实体词,得到至少一个待修正实体词,其中,待修正实体词的类别包括机关;针对至少一个待修正实体词中的每个待修正实体词,将该待修正实体词与预设机关名称集合中的机关名称进行比对,确定与该待修正实体词相匹配的机关名称;在目标文本中,利用与待修正实体词相匹配的机关名称对至少一个待修正实体词进行修正,得到修正后的文本。该实施方式使得修正后的文章中的机关名称更加规范,且更加符合语言逻辑。且更加符合语言逻辑。且更加符合语言逻辑。

【技术实现步骤摘要】
文本校对方法、装置和电子设备


[0001]本公开实施例涉及计算机
,具体涉及文本校对方法、装置和电子设备。

技术介绍

[0002]在公文交流中,除特殊体例、格式要求外,通常要求使用各个机关的规范化名称。因机关规范化名称较多且审核过多依赖于公务人员的经验,机关名称写错或是名称不规范在整个公文审核中难度较高且审查效率较低。
[0003]相关的公文校对方式通常是通过编辑距离的方式解决党政机关全称或简称校对问题,即待匹配党政机关字符串通过一定数量限制内的增、删、改之后与正确机关字符串相等,则视为匹配。这种方法存在语言逻辑不符的问题,造成大量误报。

技术实现思路

[0004]提供该公开内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该公开内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0005]本公开实施例提供了一种文本校对方法、装置和电子设备,使得修正后的文章中的机关名称更加规范,且更加符合语言逻辑。<br/>[0006]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本校对方法,其特征在于,包括:将目标文本输入预先训练的实体词识别模型中,得到所述目标文本中的实体词;从所述目标文本中的实体词中筛选出符合预设第一条件的实体词,得到至少一个待修正实体词,其中,待修正实体词的类别包括机关;针对所述至少一个待修正实体词中的每个待修正实体词,将该待修正实体词与预设机关名称集合中的机关名称进行比对,确定与该待修正实体词相匹配的机关名称;在所述目标文本中,利用与待修正实体词相匹配的机关名称对所述至少一个待修正实体词进行修正,得到修正后的文本。2.根据权利要求1所述的方法,其特征在于,所述第一条件包括以下至少一项:实体词的字符长度大于预设字符长度阈值;实体词的字符为中文字符;实体词所在的位置不是目标位置,其中,所述目标位置包括发文字号内和书名号内。3.根据权利要求1所述的方法,其特征在于,在所述将该待修正实体词与预设机关名称集合中的机关名称进行比对之前,所述方法还包括:确定所述目标文本中是否包含地域名称;若包含,则确定所述地域名称的最后一个字符是否为该待修正实体词的第一个字符;若是,则利用所述地域名称,对该待修正实体词进行地域补全,将地域补全后的实体词作为该待修正实体词。4.根据权利要求1

3之一所述的方法,其特征在于,所述将该待修正实体词与预设机关名称集合中的机关名称进行比对,确定与该待修正实体词相匹配的机关名称,包括:对该待修正实体词进行拆分,得到拆分结果,其中,所述拆分结果包括以下至少一个组成部分:前缀、地域、矢名和格级名;针对预设机关名称集合中的每个机关名称,响应于检测到该待修正实体词与该机关名称满足预设第二条件,将该机关名称确定为与该待修正实体词相匹配的机关名称,其中,所述第二条件包括:该待修正实体词与该机关名称均包含同一地域或者均不包含地域、且包含的拆分结果的组成部分相同、且该机关名称包含该待修正实体词中的各个字符。5.根据权利要求4所述的方法,其特征在于,在所述对该待修正实体词进行拆分,得到拆分结果之后,所述方法还包括:响应于检测到该待修正实体词与预设机关名称集合中的各个机关名称均不满足所述第二条件,则将该待修正...

【专利技术属性】
技术研发人员:张洵刘青松刘博伟彭辉
申请(专利权)人:北京清格科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1