一种基于机器学习算法的错误字词智能识别方法技术

技术编号:33848840 阅读:23 留言:0更新日期:2022-06-18 10:34
本发明专利技术公开了一种基于机器学习算法的错误字词智能识别方法,属于信息智能识别技术领域,解决了错字识别技术无法自动更新错误字词库,导致错词识别存在分析错误的问题,包括如下步骤:(1)在应用平台建立错误字词识别管理系统;(2)错误字词识别管理系统对资讯类应用中的错别字进行分类;(3)错误字词识别管理系统连接服务器建立错别字词库,对错别字词库内的字词进行学习和记录;(4)错误字词识别管理系统将已经发表的所有稿件集合形成历史稿库,采用神经网络算法对历史稿库进行人工智能识别和学习,并将其更新至错别字词库中;(5)经过人工智能识别后,进行告警,报于人工核实和修改。本发明专利技术用于各应用中对资讯稿件进行高智能化识别。化识别。化识别。

【技术实现步骤摘要】
一种基于机器学习算法的错误字词智能识别方法


[0001]本专利技术属于信息智能识别
,具体涉及一种基于机器学习算法的错误字词智能识别方法。

技术介绍

[0002]文字识别是利用计算机自动识别字符的技术,是模式识别应用的一个重要领域。人们在生产和生活中,要处理大量的文字、报表和文本。为了减轻人们的劳动,提高处理效率,50年代开始探讨一般文字识别方法,并研制出光学字符识别器。60年代出现了采用磁性墨水和特殊字体的实用机器。60年代后期,出现了多种字体和手写体文字识别机,其识别精度和机器性能都基本上能满足要求。如用于信函分拣的手写体数字识别机和印刷体英文数字识别机。70年代主要研究文字识别的基本理论和研制高性能的文字识别机,并着重于汉字识别的研究。
[0003]文字识别一般包括文字信息的采集、信息的分析与处理、信息的分类判别等几个部分。
[0004]信息采集是将纸面上的文字灰度变换成电信号,输入到计算机中去。信息采集由文字识别机中的送纸机构和光电变换装置来实现,有飞点扫描、摄像机、光敏元件和激光扫描等光电变换装置。
[0005]信息分析和处理是对变换后的电信号消除各种由于印刷质量、纸质(均匀性、污点等)或书写工具等因素所造成的噪音和干扰,进行大小、偏转、浓淡、粗细等各种正规化处理。
[0006]信息的分类判别是对去掉噪声并正规化后的文字信息进行分类判别,以输出识别结果。
[0007]目前在各类APP或者后台管理系统中一些错别字识别技术,都是通过模糊查询文章中字词进行匹配。此类技术无法自动新增错误字词库,无法智能识别文章的情感趋势,从而导致无法分析敏感词使用场景错误。

技术实现思路

[0008]本专利技术的目的在于:
[0009]为解决现有的各类APP中的错字识别技术无法自动更新错误字词库,导致错词识别存在分析错误的问题,提供一种基于机器学习算法的错误字词智能识别方法。
[0010]本专利技术采用的技术方案如下:
[0011]一种基于机器学习算法的错误字词智能识别方法,包括如下步骤:
[0012](1)在应用平台建立错误字词识别管理系统,错误字词识别管理系统用于新闻媒体资讯类APP的错误字词识别和管理;
[0013](2)错误字词识别管理系统对资讯类应用中的错别字进行分类,所述错别字分类包括:标点符号、人名、职位、数字用法和近义词常见易错词,所述数字用法错误包括大小写
错误和数字符号错误;
[0014](3)错误字词识别管理系统连接服务器建立错别字词库,对错别字词库内的字词进行学习和记录,所述错别字词库包括人名词库、职位词库和易错词词库;
[0015](4)错误字词识别管理系统将已经发表的所有稿件集合形成历史稿库,采用神经网络算法对历史稿库进行人工智能识别和学习,并将其更新至错别字词库中;
[0016](5)对待审核稿件经过人工智能识别后,错误字词识别管理系统对错误字词进行告警,报于人工核实和修改。
[0017]进一步地,所述步骤(4)中,采用人工智能算法分析历史稿库中的常用词汇关联在一起使用的场景,当其达到满足固定词汇要求的使用次数时,对词汇进行学习和记录,当对稿件进行错误字词识别时,错误字词识别管理系统识别到与固定词汇的字词部分重合并出现差异部分的字词时,进行错误告警。
[0018]进一步地,采用决策树算法进行错误字词机器学习分析,包括如下步骤:
[0019]a.决策树的生成:由错误字词样本集生成决策树,所述错误字词样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集;
[0020]b.决策树的剪枝:对上一阶段生成的决策树进行检验、校正和修下,用新的错误字词样本数据集中的数据校验决策树生成过程中产生的初步规则,将影响预衡准确性的分枝剪除。
[0021]进一步地,错误字词识别管理系统识别并告警后,将识别出的错误字词进行分类后上传至服务器的错别字词库中,对错别字词库进行更新,并采用神经网络算法进行新一轮学习和更新。
[0022]综上所述,由于采用了上述技术方案,本专利技术的有益效果是:
[0023]1、本专利技术在现有技术的基础上,采用人工智能识别技术,对错误字词词库进行不断学习、更新和识别,实现词库的内容自动新增,对文章的情感趋势进行智能识别,从而通过分析敏感词使用场景错误,达到错误字词告警更加精准的效果,相比于现有技术,本专利技术通过更高层次、更加抽象的特征进行识别,无需人工定义训练集,即可通过机器学习的神经网络自动学习高层次错误特征,从而智能识别错别字词,纠错率大大提高。
[0024]2、本专利技术区别于模糊字词匹配识别方法,采用精准的字词使用场景分析识别方法,实现了即使字词编辑正确,但使用场景错误时也能识别出的纠错效果,极大地提高了错误字词识别方法的智能化程度,为文字类工作者提供了便利。
附图说明
[0025]图1为本专利技术的方法流程图。
具体实施方式
[0026]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0027]实施例1
[0028]一种基于机器学习算法的错误字词智能识别方法,包括如下步骤:
[0029](1)在应用平台建立错误字词识别管理系统,错误字词识别管理系统用于新闻媒体资讯类APP的错误字词识别和管理;
[0030](2)错误字词识别管理系统对资讯类应用中的错别字进行分类,所述错别字分类包括:标点符号、人名、职位、数字用法和近义词常见易错词,所述数字用法错误包括大小写错误和数字符号错误;
[0031](3)错误字词识别管理系统连接服务器建立错别字词库,对错别字词库内的字词进行学习和记录,所述错别字词库包括人名词库、职位词库和易错词词库;
[0032](4)错误字词识别管理系统将已经发表的所有稿件集合形成历史稿库,采用神经网络算法对历史稿库进行人工智能识别和学习,并将其更新至错别字词库中;
[0033](5)对待审核稿件经过人工智能识别后,错误字词识别管理系统对错误字词进行告警,报于人工核实和修改。
[0034]错误字词识别管理系统识别并告警后,将识别出的错误字词进行分类后上传至服务器的错别字词库中,对错别字词库进行更新,并采用神经网络算法进行新一轮学习和更新。
[0035]采用人工智能识别技术,对错误字词词库进行不断学习、更新和识别,实现词库的内容自动新增,对文章的情感趋势进行智能识别,从而通过分析敏感词使用场景错误,达到错误字词告警更加精准的效果,相比于现有技术,本专利技术通过更高层次、更加抽象的特征进行识别,无需人工定义训练集,即可通过机器学习的神经网络自动学习高层次错误特征,从而智能识别错别字词,纠错率大大提高。
[0036]步骤(4)中,采用人工智能算法分析历史稿库中的常用词汇关联在一起使用的场景,当其达到满足固本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习算法的错误字词智能识别方法,其特征在于,包括如下步骤:(1)在应用平台建立错误字词识别管理系统,错误字词识别管理系统用于新闻媒体资讯类APP的错误字词识别和管理;(2)错误字词识别管理系统对资讯类应用中的错别字进行分类,所述错别字分类包括:标点符号、人名、职位、数字用法和近义词常见易错词,所述数字用法错误包括大小写错误和数字符号错误;(3)错误字词识别管理系统连接服务器建立错别字词库,对错别字词库内的字词进行学习和记录,所述错别字词库包括人名词库、职位词库和易错词词库;(4)错误字词识别管理系统将已经发表的所有稿件集合形成历史稿库,采用神经网络算法对历史稿库进行人工智能识别和学习,并将其更新至错别字词库中;(5)对待审核稿件经过人工智能识别后,错误字词识别管理系统对错误字词进行告警,报于人工核实和修改。2.根据权利要求1所述的一种基于机器学习算法的错误字词智能识别方法,其特征在于,所述步骤(4)中,采用人工智能算法分析历史稿库中的常用词汇...

【专利技术属性】
技术研发人员:赖贵全唐宇
申请(专利权)人:成都易达数安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1