当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于字符特征分类器与软输出的中文拼写检查方法技术

技术编号:29675068 阅读:22 留言:0更新日期:2021-08-13 21:57
本发明专利技术公开了一种基于字符特征分类器与软输出的中文拼写检查方法,属于中文拼写检查领域,包括步骤S1:提取词表中所有字符的字音字形特征向量;S2:生成字符特征分类器和软输出矩阵;S3:字符特征分类器得到当前字符被更改为其他字符的概率,将所有字符被更改的概率组合得到概率矩阵;S4:结合软输出矩阵对字符特征分类器结果进行软输出,将两概率矩阵对应位相乘,得到每个字符被更改为其他字符的概率。字符特征分类器可对更相似的字符给予更高的关注度,同时,使用软输出矩阵对字符特征分类器的结果进行调整,缓解了对相似度最高的字符即当前字符本身给予过高的关注度的问题,得到了更为准确地结果。

【技术实现步骤摘要】
一种基于字符特征分类器与软输出的中文拼写检查方法
本专利技术属于中文拼写检查领域,尤其涉及一种基于字符特征分类器与软输出的中文拼写检查方法。
技术介绍
中文拼写检查是自然语言处理中的一项重要任务。可以帮助新闻编辑快速审查新闻中是否存在错别字,降低人工检查的工作量。同时,错别字也可以看做是其他自然语言处理任务中原始语料的噪声,进行中文拼写检查,降低语料中的错别字,可以有效提高数据质量,对下游任务精度的提高起到一定的作用。常用的进行中文拼写检查任务的方法主要基于传统的统计学习的方法与基于深度学习的方法。基于传统的统计学习的方法通常人工设计大量的特征,但这样的方法需要大量的人工工作,在特征的选择上也存在一定的难点,也缺乏灵活性。目前的技术渐渐步入深度学习时代,深度学习的方法表现出更好的效果。目前最常用的中文拼写检查的方法是基于预训练语言模型并结合字符间相似度的方法。其中结合字符间相似度的方法多种多样,包括设计计算字符间相似度的函数并人工设置阈值和使用图神经网络在混淆集中的相似字符间传播信息,但是这些面临着3个问题:(1)人工设置的相似度阈值较本文档来自技高网...

【技术保护点】
1.一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,该方法包括如下步骤:/nS1:提取词表中所有字符的字音字形特征向量,/nS1.1:中文字符,抽取字音特征向量和字形特征向量构建字音字形特征向量,/nS1.2:非中文字符,以其嵌入向量作为字音字形特征向量;/nS2:生成字符特征分类器和软输出矩阵,组合词表中每个字符的字音字形特征向量生成字符特征分类器,同时通过错误检测网络获取词表中每个字符错误的概率,根据每个字符错误的概率生成软输出矩阵;/nS3:字符特征分类器得到当前字符被更改为其他字符的概率,将所有字符被更改的概率组合得到概率矩阵;/nS4:结合软输出矩阵对字符特征分类器结果...

【技术特征摘要】
1.一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,该方法包括如下步骤:
S1:提取词表中所有字符的字音字形特征向量,
S1.1:中文字符,抽取字音特征向量和字形特征向量构建字音字形特征向量,
S1.2:非中文字符,以其嵌入向量作为字音字形特征向量;
S2:生成字符特征分类器和软输出矩阵,组合词表中每个字符的字音字形特征向量生成字符特征分类器,同时通过错误检测网络获取词表中每个字符错误的概率,根据每个字符错误的概率生成软输出矩阵;
S3:字符特征分类器得到当前字符被更改为其他字符的概率,将所有字符被更改的概率组合得到概率矩阵;
S4:结合软输出矩阵对字符特征分类器结果进行软输出,将概率矩阵与软输出矩阵的对应位相乘,得到每个字符被更改为其他字符的概率。


2.根据权利要求1所述的一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,S1.1中得到字音特征向量时,采集大规模网络新闻,并统计多音字的不同读音在大规模语料中出现的比例,将每个字符的声母、韵母和声调分别嵌入,并联结输入全连接层,根据字符不同读音的权重进行加权求和获得字音特征向量。


3.根据权利要求2所述的一种基于字符特征分类器与软输出的中文拼写检查方法,其特征在于,S1.1中得到字形特征向量时,使用表意字符描述序列描述词表中字符的结构,对字符序列中的每一个笔...

【专利技术属性】
技术研发人员:李芳芳单悠然李伟彭亦楠
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1