基于自动化词库更新和前缀树结构的专有名词纠错方法技术

技术编号:38644979 阅读:27 留言:0更新日期:2023-08-31 18:36
本发明专利技术公开了一种基于自动化词库更新和前缀树结构的专有名词纠错方法,所述方法包括以下步骤:步骤1,专有名词库自动化更新;步骤2,获取专有名词的触发词,获取关于触发词的前缀树以及专有名词的触发字典;步骤3,基于前缀树在待纠错文本中搜寻触发词,并基于触发词典获取专有名词候选词;步骤4,在待纠错文本中截取与触发词关联的多个文本片段,并计算与专有名词候选词间的编辑距离,以最小化编辑距离为目标选取其中最长的一个文本片段执行对应的编辑操作。编辑操作。编辑操作。

【技术实现步骤摘要】
基于自动化词库更新和前缀树结构的专有名词纠错方法


[0001]本专利技术属于语义识别
,具体来说涉及一种基于自动化词库更新和前缀树结构的专有名词纠错方法。

技术介绍

[0002]新闻文本中的专有名词常常会出现拼写、语法等错误,这些往往会给读者带来较差的阅读体验,同时还会影响新闻的真实性,若使用人工审核将会带来较高的成本,构建自动纠错的方法对提高新闻的审核效率、降低成本都有重要的意义。专有名词纠错作为文本纠错领域中较为实用的落地场景,在新闻文本的核查与纠错中有着较好的应用前景。目前主流的技术方案分为基于模型的纠错和基于规则的纠错两类,基于模型的纠错方法是利用已标注的训练语料,训练一个具有纠错功能的深度学习模型;基于规则的纠错方法是预先构建词库,通过制定纠错的规则逻辑检测出错误词,并对照音近、形近字典,搜索词库中的相关词作为正确的词。
[0003]在专有名词的纠错场景下,基于模型的纠错方法在准确率及稳定性上往往不及基于规则的方法,另一方面,基于规则的纠错方法的准确性由于主要依赖其词库,需要持续不断地通过人工的方式将新词补充到词库中,成本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于自动化词库更新和前缀树结构的专有名词纠错方法,其特征在于,所述方法包括以下步骤:步骤1,专有名词库自动化更新;步骤2,获取专有名词的触发词,获取关于触发词的前缀树以及专有名词的触发字典;步骤3,基于前缀树在待纠错文本中搜寻触发词,并基于触发词典获取专有名词候选词;步骤4,在待纠错文本中截取与触发词关联的多个文本片段,并计算与专有名词候选词间的编辑距离,以最小化编辑距离为目标选取其中最长的一个文本片段执行对应的编辑操作。2.如权利要求1所述的一种基于自动化词库更新和前缀树结构的专有名词纠错方法,其特征在于,所述步骤1中,专有名词库自动化更新为通过定时爬取任务获取文本数据,并通过训练后的实体识别模型进行专有名词识别,更新专有名词库。3.如权利要求2所述的一种基于自动化词库更新和前缀树结构的专有名词纠错方法,其特征在于,所述步骤1包括以下步骤:步骤1.1,爬取含有专有名词的新闻文本,并进行人工标注,包括专有名词的标注;步骤1.2,利用NER实体识别技术,在标注文本上训练得到训练后的实体识别模型;步骤1.3,定时爬取含有专有名词的新闻文本,并通过训练后的实体识别模型进行识别,得到新的专有名词;步骤1.4,将新的专有名词加入到专有名词库中更新专有名词库。4.如权利要求1所述的一种基于自动化词库更新和前缀树结构的专有名词纠错方法,其特征在于,所述步骤2包括以下步骤:步骤2.1,对专有名词库中任一专有名词切片并作为专有名词的触发词;步骤2.2,基于触发词构建前缀树,基于触发词与专有名词的对应关系构建触发字典{key:[word1,word2,...]},其中key表示触发词,word表示专有名词。5.如权利要求4所述的一种基于自动化词库更新和前缀树结构的专有名词...

【专利技术属性】
技术研发人员:王晶李国定
申请(专利权)人:一贯智服杭州技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1