【技术实现步骤摘要】
基于文本输入习惯的词库更新方法及系统
[0001]本申请涉及文本校对
,尤其涉及一种基于文本输入习惯的词库更新方法及系统
。
技术介绍
[0002]文本是信息流通的一种重要方式
。
文字工作者在输入文本时,可能由于输入者自身精力不集中
、
日常用字不规范等情况,导致稿件存在词汇上的错误选用
。
在弱互联网环境下,文字工作者在写完一篇稿件后,通常需要通过文字校对软件标记出文章中的错误,之后由文字工作者针对标记出的错误进行改正,再由专家审阅后才能进行公开发布
。
[0003]在实现现有技术的过程中,专利技术人发现:现有的文字校对系统都是基于大规模词库,通过将语句与词库中的词汇进行匹配来发现错误,若词库不及时更新将会影响校对效果
。
文字校对作为单位里的通用服务,无论通过安装第三方词库,还是派专人整理适用于本单位的专用词库,都无法从源头上提高输入的准确度
。
[0004]因此,需要提供一种新的基于文本输入习惯的词库更新方案,用以解决由文本输入习惯导致文本输入准确度较低的技术问题
。
技术实现思路
[0005]本申请实施例提供一种新的基于文本输入习惯的词库更新方案,用以解决由文本输入习惯导致文本输入准确度较低的技术问题
。
[0006]具体的,一种基于文本输入习惯的词库更新方法,包括以下步骤:获取待校对文本;识别待校对文本中的错误文本;获取校正文本;识别校正文本中对应错误文本的 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于文本输入习惯的词库更新方法,其特征在于,包括以下步骤:获取待校对文本;识别待校对文本中的错误文本;获取校正文本;识别校正文本中对应错误文本的改正文本;根据改正文本,确定错误文本的错误原因;建立错误文本
、
改正文本与错误原因的关联关系;根据错误原因,将错误文本
、
对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库和校对系统词库
。2.
如权利要求1所述的基于文本输入习惯的词库更新方法,其特征在于,所述错误原因至少包括音相似
、
形相似
、
错位
、
多字
、
漏字
、
重复字
、
语法语义
、
繁体字
、
异形词
、
敏感词中至少一种;所述根据错误原因,将错误文本
、
对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库和校对系统词库,具体包括:当错误原因为音相似或多字,则将错误原因为音相似或多字对应的错误文本
、
对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库;当错误原因为形相似
、
错位
、
多字
、
漏字
、
重复字
、
语法语义
、
繁体字
、
异形词
、
敏感词中至少一种,则将错误原因为形相似
、
错位
、
多字
、
漏字
、
重复字
、
语法语义
、
繁体字
、
异形词
、
敏感词中至少一种对应的错误文本
、
对应错误文本的改正文本作为输入习惯错误词典,传输至校对系统词库
。3.
如权利要求2所述的基于文本输入习惯的词库更新方法,其特征在于,所述校正文本记录校正用户
ID
,所述输入法词库与校正用户
ID
具有关联关系,所述校对系统词库与校正用户
ID
具有关联关系;所述根据错误原因,将错误文本
、
对应错误文本的改正文本作为输入习惯错误词典,传输至输入法词库和校对系统词库,具体包括:获取校正文本记录的校正用户
ID
;当错误原因为音相似或多字,根据校正用户
ID
,确定对应校正用户
ID
的输入法词库;通过对应校正用户
ID
的输入法词库提供的上传接口,将错误原因为音相似或多字对应的错误文本
、
对应错误文本的改正文本作为输入习惯错误词典,传输至对应校正用户
ID
的输入法词库;当错误原因为形相似
、
错位
、
多字
、
漏字
、
重复字
、
语法语义
、
繁体字
、
异形词
、
敏感词中至少一种,根据校正用户
ID
,确定对应校正用户
ID
的校对系统词库;通过对应校正用户
技术研发人员:赵岳,贺敏,戴建武,康丽丽,
申请(专利权)人:北京华宇信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。