【技术实现步骤摘要】
本专利技术属于自然语言处理,尤其涉及一种特定领域的中文文本纠错方法及系统。
技术介绍
1、自然语言处理作为人工智能的组成重要部分,文本纠错作为自然语言处理的重要技术,在对话、搜索、校对等
有着广泛使用,因此受到了众多学者对其进行研究。但不同领域内中文的字词的复杂性,多样性,致使中文文本纠错技术存在很多不足,且面临着巨大挑战。
2、常见的文本错误大都以错别字,字词用法错误为主。在书面表达术语更新频率高的领域,经常出现一些新词,从而纠错数据多样化,这就给中文文本纠错带来了巨大的挑战,传统的文本纠错使用规则方式进行纠错,对输入文本进行分词,将得到的词与纠错系统内的易错词汇对照表进行匹配。此方法需要大量的人力去收集错词对照表,同时纠错结果极大受到分词器的影响。目前亟需一种准确度更高的文本纠错方法及系统。
技术实现思路
1、针对上述技术问题,本专利技术提供一种结合传统文本纠错方法与深度学习语言模型的中文文本纠错方法及系统。该方法相较于传统纠错方法有着较高的纠错正确率。
...
【技术保护点】
1.一种特定领域的中文文本纠错方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的特定领域的中文文本纠错方法,其特征在于,文本预检测包括以下步骤:
3.根据权利要求1所述的特定领域的中文文本纠错方法,其特征在于,S2包括以下步骤:
4.根据权利要求1或3所述的特定领域的中文文本纠错方法,其特征在于,文本纠正包括以下步骤:
5.根据权利要求4所述的特定领域的中文文本纠错方法,其特征在于,最终文本困惑度进行排序,获取最后纠错结果的方法为:
6.根据权利要求5所述的特定领域的中文文本纠错方法,其特征在于:
...【技术特征摘要】
1.一种特定领域的中文文本纠错方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的特定领域的中文文本纠错方法,其特征在于,文本预检测包括以下步骤:
3.根据权利要求1所述的特定领域的中文文本纠错方法,其特征在于,s2包括以下步骤:
4.根据权利要求1或3所述的特定领域的中文文本纠错方法,其特征在于,文本纠正包括以下步骤:
5.根据权利要求4所述的特定领域的中文文本纠错方法,其特征在于,最终文本...
【专利技术属性】
技术研发人员:金震宇,王知明,李杰,王磊,
申请(专利权)人:大汉软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。