基于文本输入习惯的词库更新方法及系统技术方案

技术编号:39821876 阅读:13 留言:0更新日期:2023-12-22 19:41
本申请公开了一种基于文本输入习惯的词库更新方法及系统,用以解决由文本输入习惯导致文本输入准确度较低的技术问题

【技术实现步骤摘要】
基于文本输入习惯的词库更新方法及系统


[0001]本申请涉及文本校对
,尤其涉及一种基于文本输入习惯的词库更新方法及系统


技术介绍

[0002]文本是信息流通的一种重要方式

文字工作者在输入文本时,可能由于输入者自身精力不集中

日常用字不规范等情况,导致稿件存在词汇上的错误选用

在弱互联网环境下,文字工作者在写完一篇稿件后,通常需要通过文字校对软件标记出文章中的错误,之后由文字工作者针对标记出的错误进行改正,再由专家审阅后才能进行公开发布

[0003]在实现现有技术的过程中,专利技术人发现:现有的文字校对系统都是基于大规模词库,通过将语句与词库中的词汇进行匹配来发现错误,若词库不及时更新将会影响校对效果

文字校对作为单位里的通用服务,无论通过安装第三方词库,还是派专人整理适用于本单位的专用词库,都无法从源头上提高输入的准确度

[0004]因此,需要提供一种新的基于文本输入习惯的词库更新方案,用以解决由文本输入习惯导致文本输入准确度较低的技术问题


技术实现思路

[0005]本申请实施例提供一种新的基于文本输入习惯的词库更新方案,用以解决由文本输入习惯导致文本输入准确度较低的技术问题

[0006]具体的,一种基于文本输入习惯的词库更新方法,包括以下步骤:获取待校对文本;识别待校对文本中的错误文本;获取校正文本;识别校正文本中对应错误文本的改正文本;根据改正文本,确定错误文本的错误原因;建立错误文本

改正文本与错误原因的关联关系;根据错误原因,将错误文本

对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库和校对系统词库

[0007]进一步的,所述错误原因至少包括音相似

形相似

错位

多字

漏字

重复字

语法语义

繁体字

异形词

敏感词中至少一种;所述根据错误原因,将错误文本

对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库和校对系统词库,具体包括:当错误原因为音相似或多字,则将错误原因为音相似或多字对应的错误文本

对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库;当错误原因为形相似

错位

多字

漏字

重复字

语法语义

繁体字

异形词

敏感
词中至少一种,则将错误原因为形相似

错位

多字

漏字

重复字

语法语义

繁体字

异形词

敏感词中至少一种对应的错误文本

对应错误文本的改正文本作为输入习惯错误词典,传输至校对系统词库

[0008]进一步的,所述校正文本记录校正用户
ID
,所述输入法词库与校正用户
ID
具有关联关系,所述校对系统词库与校正用户
ID
具有关联关系;所述根据错误原因,将错误文本

对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库和校对系统词库,具体包括:获取校正文本记录的校正用户
ID
;当错误原因为音相似或多字,根据校正用户
ID
,确定对应校正用户
ID
的输入法词库;通过对应校正用户
ID
的输入法词库提供的上传接口,将错误原因为音相似或多字对应的错误文本

对应错误文本的改正文本作为输入习惯错误词典,传输至对应校正用户
ID
的输入法词库;当错误原因为形相似

错位

多字

漏字

重复字

语法语义

繁体字

异形词

敏感词中至少一种,根据校正用户
ID
,确定对应校正用户
ID
的校对系统词库;通过对应校正用户
ID
的校对系统词库提供的上传接口,将错误原因为形相似

错位

多字

漏字

重复字

语法语义

繁体字

异形词

敏感词中至少一种对应的错误文本

对应错误文本的改正文本作为输入习惯错误词典,传输至对应校正用户
ID
的校对系统词库

[0009]进一步的,所述错误文本包括疑错文本或确错文本;所述方法还包括:当改正文本与疑错文本相同,记录改正文本与疑错文本相同的次数;当改正文本与疑错文本相同的次数超过预设排查阈值,则将疑错文本加入至白名单;当改正文本与疑错文本不同,标记所述疑错文本为确错文本;根据改正文本,确定确错文本的错误原因;建立确错文本

改正文本与错误原因的关联关系;根据错误原因,将确错文本

对应确错文本的改正文本作为输入习惯错误词典,传输至输入法词库和校对系统词库

[0010]进一步的,所述根据改正文本,确定错误文本的错误原因,具体包括:确定错误文本对应的拼音序列

校正文本对应的拼音序列;当错误文本对应的拼音序列与校正文本对应的拼音序列的相似度超过第一预设相似度阈值,确定错误文本的错误原因为音相似

[0011]进一步的,所述根据改正文本,确定错误文本的错误原因,具体包括:确定错误文本对应的字根序列

校正文本对应的字根序列;当错误文本对应的字根序列与校正文本对应的字根序列的相似度超过第二预设相似度阈值,确定错误文本的错误原因为形相似

[0012]进一步的,所述根据改正文本,确定错误文本的错误原因,具体包括:确定错误文本对应的文本序列

校正文本对应的文本序列;当错误文本对应的文本序列与校正文本对应的文本序列存在实体文本的不同排
列,确定错误文本的错误原因为错位

[0013]进一步的,所述根据改正文本,确定错误文本的错误原因,具体包括:确定错误文本对应的文本字数

校正文本对应的文本字数;当错误文本对应的文本字数大于校正文本对应的文本字数,确定错误文本的错误原因为多字或重复字;当错误文本对应的文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于文本输入习惯的词库更新方法,其特征在于,包括以下步骤:获取待校对文本;识别待校对文本中的错误文本;获取校正文本;识别校正文本中对应错误文本的改正文本;根据改正文本,确定错误文本的错误原因;建立错误文本

改正文本与错误原因的关联关系;根据错误原因,将错误文本

对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库和校对系统词库
。2.
如权利要求1所述的基于文本输入习惯的词库更新方法,其特征在于,所述错误原因至少包括音相似

形相似

错位

多字

漏字

重复字

语法语义

繁体字

异形词

敏感词中至少一种;所述根据错误原因,将错误文本

对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库和校对系统词库,具体包括:当错误原因为音相似或多字,则将错误原因为音相似或多字对应的错误文本

对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库;当错误原因为形相似

错位

多字

漏字

重复字

语法语义

繁体字

异形词

敏感词中至少一种,则将错误原因为形相似

错位

多字

漏字

重复字

语法语义

繁体字

异形词

敏感词中至少一种对应的错误文本

对应错误文本的改正文本作为输入习惯错误词典,传输至校对系统词库
。3.
如权利要求2所述的基于文本输入习惯的词库更新方法,其特征在于,所述校正文本记录校正用户
ID
,所述输入法词库与校正用户
ID
具有关联关系,所述校对系统词库与校正用户
ID
具有关联关系;所述根据错误原因,将错误文本

对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库和校对系统词库,具体包括:获取校正文本记录的校正用户
ID
;当错误原因为音相似或多字,根据校正用户
ID
,确定对应校正用户
ID
的输入法词库;通过对应校正用户
ID
的输入法词库提供的上传接口,将错误原因为音相似或多字对应的错误文本

对应错误文本的改正文本作为输入习惯错误词典,传输至对应校正用户
ID
的输入法词库;当错误原因为形相似

错位

多字

漏字

重复字

语法语义

繁体字

异形词

敏感词中至少一种,根据校正用户
ID
,确定对应校正用户
ID
的校对系统词库;通过对应校正用户

【专利技术属性】
技术研发人员:赵岳贺敏戴建武康丽丽
申请(专利权)人:北京华宇信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1