一种特定领域的中文文本纠错方法及系统技术方案

技术编号:46573975 阅读:1 留言:0更新日期:2025-10-10 21:18
本发明专利技术公开一种特定领域的中文文本纠错方法及系统,本发明专利技术的方法包括以下步骤:准备批量文本数据,利用文本数据训练Ngram统计语言模型、bert文本分类模型、bert文本语言模型;将待纠错文本进行文本预检测,得到错误文本以及正确文本;对获取到的错误文本进行错误检测,得到错误文本以及错误位置信息;对错误检测检测出的错误文本进行正确文本候选集替换,得到一系列候选集,根据候选集获取最后的文本纠错结果。本发明专利技术对于正式场合的书面表达术语,特定用词能够按照人工维护的方式进行准确纠错,同时对于常见错别字深度学习语言模型拥有着良好的纠错能力。

【技术实现步骤摘要】

本专利技术属于自然语言处理,尤其涉及一种特定领域的中文文本纠错方法及系统


技术介绍

1、自然语言处理作为人工智能的组成重要部分,文本纠错作为自然语言处理的重要技术,在对话、搜索、校对等
有着广泛使用,因此受到了众多学者对其进行研究。但不同领域内中文的字词的复杂性,多样性,致使中文文本纠错技术存在很多不足,且面临着巨大挑战。

2、常见的文本错误大都以错别字,字词用法错误为主。在书面表达术语更新频率高的领域,经常出现一些新词,从而纠错数据多样化,这就给中文文本纠错带来了巨大的挑战,传统的文本纠错使用规则方式进行纠错,对输入文本进行分词,将得到的词与纠错系统内的易错词汇对照表进行匹配。此方法需要大量的人力去收集错词对照表,同时纠错结果极大受到分词器的影响。目前亟需一种准确度更高的文本纠错方法及系统。


技术实现思路

1、针对上述技术问题,本专利技术提供一种结合传统文本纠错方法与深度学习语言模型的中文文本纠错方法及系统。该方法相较于传统纠错方法有着较高的纠错正确率。

2、为达到上述目的,本文档来自技高网...

【技术保护点】

1.一种特定领域的中文文本纠错方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的特定领域的中文文本纠错方法,其特征在于,文本预检测包括以下步骤:

3.根据权利要求1所述的特定领域的中文文本纠错方法,其特征在于,S2包括以下步骤:

4.根据权利要求1或3所述的特定领域的中文文本纠错方法,其特征在于,文本纠正包括以下步骤:

5.根据权利要求4所述的特定领域的中文文本纠错方法,其特征在于,最终文本困惑度进行排序,获取最后纠错结果的方法为:

6.根据权利要求5所述的特定领域的中文文本纠错方法,其特征在于:p>

7.根据权...

【技术特征摘要】

1.一种特定领域的中文文本纠错方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的特定领域的中文文本纠错方法,其特征在于,文本预检测包括以下步骤:

3.根据权利要求1所述的特定领域的中文文本纠错方法,其特征在于,s2包括以下步骤:

4.根据权利要求1或3所述的特定领域的中文文本纠错方法,其特征在于,文本纠正包括以下步骤:

5.根据权利要求4所述的特定领域的中文文本纠错方法,其特征在于,最终文本...

【专利技术属性】
技术研发人员:金震宇王知明李杰王磊
申请(专利权)人:大汉软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1