检测叠词错误的方法、装置及系统制造方法及图纸

技术编号:28839204 阅读:18 留言:0更新日期:2021-06-11 23:37
本发明专利技术提供一种检测叠词错误的方法、装置及系统,该方法包括:获取文本,并得到多个待检测文本,且获得待检测文本中的重复词组;对重复词组所在的原始文本片段进行分词,检测是否存在相邻叠词;若存在相邻叠词,将相邻叠词的词性在预设词性数据库中进行匹配;若匹配成功,则将原始文本片段中的一个叠词进行删除得到待检测文本片段,并得到原始文本片段和待检测文本片段的使用概率;若原始文本片段的使用概率小于待检测文本片段的使用概率,则确定相邻叠词在原始文本片段中使用错误。实现了叠词误用的判断,提高检测的准确率和检测速度,且能够适应不同长度的句子,进而提高长句叠词判断的准确率。

【技术实现步骤摘要】
检测叠词错误的方法、装置及系统
本专利技术涉及计算机自然语言处理的
,尤其涉及一种检测叠词错误的方法、装置及系统。
技术介绍
随着互联网的快速发展,人们日常都会使用大量的文本以获取信息。不可避免的会使用叠词,尤其通过使用叠字来加强语气,例如火红火红的枫叶、大家一起高兴高兴,使用过程中容易出现错误。因此需在文本中判断是否有叠词使用的错误。叠词由两个或两个以上的字形和字义都相同的文字,重叠在一起使用所组成的词语。然而判断一个词重复使用是否是叠词错误,并不容易,不是所有的词都可以当做叠词出现。例如通过统计识别可能会将叠词当做错别字的插入,或者将满足叠词格式的词都当做叠词使用,则会造成很多的错误使用而未被发现。目前检测叠词使用错误的工具很少,即使可以检测叠词错误,由于大多依赖规则,导致叠词错误识别的准确率较低。
技术实现思路
本专利技术提供的一种检测叠词错误的方法、装置及系统,以实现叠词误用的判断,提高检测的准确率和检测速度,且能够适应不同长度的句子,进而提高长句叠词判断的准确率。第一方面,本专利技术实施例提供的一种检测叠词错误的方法,包括:获取文本,并得到所述文本中的标点符号、字符串信息;根据所述标点符号、所述字符串信息得到多个待检测文本,且获得所述待检测文本中的重复词组;对所述重复词组所在的原始文本片段进行分词,检测是否存在相邻叠词;若存在所述相邻叠词,将所述相邻叠词的词性在预设词性数据库中进行匹配;若匹配成功,则将所述原始文本片段中的一个叠词进行删除得到待检测文本片段,并得到所述原始文本片段和所述待检测文本片段的使用概率;若所述原始文本片段的使用概率小于所述待检测文本片段的使用概率,则确定所述相邻叠词在原始文本片段中使用错误。在一种可能的设计中,得到所述原始文本片段和所述待检测文本片段的使用概率,包括:采用移动窗口分别在所述原始文本片段与所述待检测文本片段上移动,获得除去所述叠词的多个目标检验字;通过预设语言模型,分别检测所述目标检验字在所述原始文本片段、所述待检测文本片段中的使用概率后,确定所述原始文本片段和所述待检测文本片段的使用概率。在一种可能的设计中,还包括:根据所述原始文本片段与所述待检测文本片段,设置所述移动窗口的参数;根据所述移动窗口的大小参数,所述移动窗口分别从所述原始文本片段、所述待检测文本片段中所述叠词位置开始,依次向两端部分位置移动,获得除去所述叠词的多个目标检验字。在一种可能的设计中,还包括:若所述目标检验字未填满所述移动窗口,则确定所述移动窗口在所述原始文本片段、所述待检测文本片段的一端部分位置,并在另一端部分位置移动所述移动窗口时,将所述目标检验字填满所述移动窗口。在一种可能的设计中,将所述相邻叠词的词性在预设词性数据库中进行匹配,包括:对所述相邻叠词进行词性标注,将所述相邻叠词的词性与预设词性数据库中的预存词性进行匹配。在一种可能的设计中,还包括:若所述预设词性数据库中不存在与所述相邻叠词相匹配的预存词性,则确定所述相邻叠词使用错误。在一种可能的设计中,在确定所述相邻叠词在原始文本片段中使用错误之后,还包括:在所述文本中标记使用错误的相邻叠词。第二方面,本专利技术实施例提供的一种检测叠词错误的装置,包括:获取模块,用于获取文本,并得到所述文本中的标点符号、字符串信息;得到模块,用于根据所述标点符号、所述字符串信息得到多个待检测文本,且获得所述待检测文本中的重复词组;检测模块,用于对所述重复词组所在的原始文本片段进行分词,检测是否存在相邻叠词;匹配模块,用于若存在所述相邻叠词,将所述相邻叠词的词性在预设词性数据库中进行匹配;删除模块,用于若匹配成功,则将所述原始文本片段中的一个叠词进行删除得到待检测文本片段,并得到所述原始文本片段和所述待检测文本片段的使用概率;确定模块,用于若所述原始文本片段的使用概率小于所述待检测文本片段的使用概率,则确定所述相邻叠词在原始文本片段中使用错误。在一种可能的设计中,得到所述原始文本片段和所述待检测文本片段的使用概率,包括:采用移动窗口分别在所述原始文本片段与所述待检测文本片段上移动,获得除去所述叠词的多个目标检验字;通过预设语言模型,分别检测所述目标检验字在所述原始文本片段、所述待检测文本片段中的使用概率后,确定所述原始文本片段和所述待检测文本片段的使用概率。在一种可能的设计中,还包括:根据所述原始文本片段与所述待检测文本片段,设置所述移动窗口的参数;根据所述移动窗口的大小参数,所述移动窗口分别从所述原始文本片段、所述待检测文本片段中所述叠词位置开始,依次向两端部分位置移动,获得除去所述叠词的多个目标检验字。在一种可能的设计中,还包括:若所述目标检验字未填满所述移动窗口,则确定所述移动窗口在所述原始文本片段、所述待检测文本片段的一端部分位置,并在另一端部分位置移动所述移动窗口时,将所述目标检验字填满所述移动窗口。在一种可能的设计中,将所述相邻叠词的词性在预设词性数据库中进行匹配,包括:对所述相邻叠词进行词性标注,将所述相邻叠词的词性与预设词性数据库中的预存词性进行匹配。在一种可能的设计中,还包括:若所述预设词性数据库中不存在与所述相邻叠词相匹配的预存词性,则确定所述相邻叠词使用错误。在一种可能的设计中,在确定所述相邻叠词在原始文本片段中使用错误之后,还包括:在所述文本中标记使用错误的相邻叠词。第三方面,本专利技术实施例提供的一种检测叠词错误的系统,包括:存储器和处理器,存储器中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的检测叠词错误的方法。第四方面,本专利技术实施例提供的一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时第一方面中任一项所述的检测叠词错误的方法。本专利技术提供的一种检测叠词错误的方法、装置及系统,该方法包括:获取文本,并得到所述文本中的标点符号、字符串信息;根据所述标点符号、所述字符串信息得到多个待检测文本,且获得所述待检测文本中的重复词组;对所述重复词组所在的原始文本片段进行分词,检测是否存在相邻叠词;若存在所述相邻叠词,将所述相邻叠词的词性在预设词性数据库中进行匹配;若匹配成功,则将所述原始文本片段中的一个叠词进行删除得到待检测文本片段,并得到所述原始文本片段和所述待检测文本片段的使用概率;若所述原始文本片段的使用概率小于所述待检测文本片段的使用概率,则确定所述相邻叠词在原始文本片段中使用错误。以实现叠词误用的判断,提高检测的准确率和检测速度,且能够适应不同长度的句子,进而提高长句叠词判断的准确率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一本文档来自技高网...

【技术保护点】
1.一种检测叠词错误的方法,其特征在于,包括:/n获取文本,并得到所述文本中的标点符号、字符串信息;/n根据所述标点符号、所述字符串信息得到多个待检测文本,且获得所述待检测文本中的重复词组;/n对所述重复词组所在的原始文本片段进行分词,检测是否存在相邻叠词;/n若存在所述相邻叠词,将所述相邻叠词的词性在预设词性数据库中进行匹配;/n若匹配成功,则将所述原始文本片段中的一个叠词进行删除得到待检测文本片段,并得到所述原始文本片段和所述待检测文本片段的使用概率;/n若所述原始文本片段的使用概率小于所述待检测文本片段的使用概率,则确定所述相邻叠词在原始文本片段中使用错误。/n

【技术特征摘要】
1.一种检测叠词错误的方法,其特征在于,包括:
获取文本,并得到所述文本中的标点符号、字符串信息;
根据所述标点符号、所述字符串信息得到多个待检测文本,且获得所述待检测文本中的重复词组;
对所述重复词组所在的原始文本片段进行分词,检测是否存在相邻叠词;
若存在所述相邻叠词,将所述相邻叠词的词性在预设词性数据库中进行匹配;
若匹配成功,则将所述原始文本片段中的一个叠词进行删除得到待检测文本片段,并得到所述原始文本片段和所述待检测文本片段的使用概率;
若所述原始文本片段的使用概率小于所述待检测文本片段的使用概率,则确定所述相邻叠词在原始文本片段中使用错误。


2.根据权利要求1所述的方法,其特征在于,得到所述原始文本片段和所述待检测文本片段的使用概率,包括:
采用移动窗口分别在所述原始文本片段与所述待检测文本片段上移动,获得除去所述叠词的多个目标检验字;
通过预设语言模型,分别检测所述目标检验字在所述原始文本片段、所述待检测文本片段中的使用概率后,确定所述原始文本片段和所述待检测文本片段的使用概率。


3.根据权利要求2所述的方法,其特征在于,还包括:
根据所述原始文本片段与所述待检测文本片段,设置所述移动窗口的参数;
根据所述移动窗口的大小参数,所述移动窗口分别从所述原始文本片段、所述待检测文本片段中所述叠词位置开始,依次向两端部分位置移动,获得除去所述叠词的多个目标检验字。


4.根据权利要求3所述的方法,其特征在于,还包括:
若所述目标检验字未填满所述移动窗口,则确定所述移动窗口在所述原始文本片段、所述待检测文本片段的一端部分位置,并在另一端部分位置移动所述移动窗口时,将所述目标检验字填满所述移动窗口。


5.根据权利要求1...

【专利技术属性】
技术研发人员:程静陈志优谢海华
申请(专利权)人:北大方正集团有限公司北大方正信息产业集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1