基于人工智能的纠错举报处理方法、装置及可读介质制造方法及图纸

技术编号:18083832 阅读:55 留言:0更新日期:2018-05-31 12:22
本发明专利技术提供一种基于人工智能的纠错举报处理方法、装置及可读介质。其方法包括:获取用户从内容服务器前端举报的目标语句的错误信息,错误信息中还包括目标语句所在的文章标识以及目标语句中疑似错别字的位置;根据目标语句和疑似错别字、以及置信度打分模型,预测疑似错别字的真实错误置信度;若疑似错别字的真实错误置信度大于或等于预设置信度阈值,向内容服务器举报目标语句所在的文章标识、目标语句、目标语句中疑似错别字的位置以及疑似错别字的真实错误置信度,供内容服务器根据疑似错别字的真实错误置信度,对文章标识对应的文章中的目标语句中的疑似错别字进行纠错处理。本发明专利技术的技术方案,能够有效地提高内容服务器的纠错效率。

【技术实现步骤摘要】
基于人工智能的纠错举报处理方法、装置及可读介质
本专利技术涉及计算机应用
,尤其涉及一种基于人工智能的纠错举报处理方法、装置及可读介质。
技术介绍
人工智能(ArtificialIntelligence;AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。内容分发是现有移动互联网公司的一个重要战场,优质的内容往往能够带来用户停留时长和品牌美誉度的提升。错别字作为内容的硬伤,可能以一定概率出现在任何一篇文章中。错别字在内容分发平台竞争中影响大,导致用户体验明显下降,所以现有的很多内容提供商特别注意内容的纠错。例如可以人工采集一些经常出错的错别字以及对应的上下文,并将每个错别字、对应的上下文以及对应的正确字作为词对,加入在纠错词表中。纠错时,由内容服务器根据纠错词表对所有的内容进行检查,若发现纠错词表中的错别字,将错别字纠正为正确字,实现对内容服务器中的所有内容进行纠错处理。现有技术的纠错方式多成为内容服务器侧的主动纠错,对于内容服务器未发现的错误无法进行纠错,受限于汉字组合方式多,语句中出现的纠错类型复杂,导致主动纠错具有一定的局限性。
技术实现思路
本专利技术提供了一种基于人工智能的纠错举报处理方法、装置及可读介质,用于丰富内容服务器的纠错方式,扩大纠错范围。本专利技术提供一种基于人工智能的纠错举报处理方法,所述方法包括:获取用户从内容服务器的前端举报的目标语句的错误信息,所述错误信息中还包括所述目标语句所在的文章标识以及所述目标语句中的疑似错别字的位置;根据所述目标语句和所述疑似错别字、以及预先训练的置信度打分模型,预测所述疑似错别字的真实错误置信度;若所述疑似错别字的真实错误置信度大于或者等于预设置信度阈值时,向所述内容服务器举报所述目标语句所在的文章标识、所述目标语句、所述目标语句中所述疑似错别字的位置以及所述疑似错别字的真实错误置信度,以供所述内容服务器根据所述疑似错别字的真实错误置信度,对所述文章标识对应的文章中的所述目标语句中的所述疑似错别字进行纠错处理。进一步可选地,如上所述的方法中,所述错误信息中还包括所述目标语句的位置信息;所述目标语句的位置信息包括所述目标语句为对应的文章的标题、所述目标语句为对应的文章的句首、或者所述目标语句为对应的文章的非句首。进一步可选地,如上所述的方法中,若所述疑似错别字的真实错误置信度小于预设置信度阈值时,所述方法还包括:获取所述目标语句中的所述疑似错别字被举报的次数;获取所述目标语句所在的文章被浏览的次数;根据所述疑似错别字被举报的次数与所述文章被浏览的次数,获取所述疑似错别字的错误举报比例;若所述疑似错别字的错误举报比例大于或者等于第一预设比例阈值时,向所述内容服务器举报所述目标语句所在的文章标识、所述目标语句、所述目标语句中所述疑似错别字的位置以及所述疑似错别字的错误举报比例,以供所述内容服务器根据所述疑似错别字的错误举报比例,对所述文章标识对应的文章中的所述目标语句中的所述疑似错别字进行纠错处理。进一步可选地,如上所述的方法中,所述方法还包括:获取所述目标语句所在的文章中的所有疑似错别字被举报的次数;根据所述所有疑似错别字被举报的次数与所述文章被浏览的次数,获取所述文章的错误举报比例;若所述文章的错误举报比例大于或者等于第二预设比例阈值时,向所述内容服务器举报所述文章标识以及所述文章的错误举报比例,以供所述内容服务器根据所述文章的错误举报比例,对所述文章标识对应的所述文章进行纠错处理。进一步可选地,如上所述的方法中,所述方法还包括:获取所述文章的来源中的所有文章中发生过错别字纠错的文章的数目;获取所述文章的来源中的所有文章的数目;根据所述文章的来源中的所有文章中发生过错别字纠错的文章的数目以及所述文章的来源中的所有文章的数目,获取所述文章的来源的错误举报比例;若所述文章的来源的错误举报比例大于或者等于第三预设比例阈值时,向所述内容服务器举报所述文章的来源标识以及所述文章的来源的错误举报比例,以供所述内容服务器根据所述文章的来源的错误举报比例,对所述文章的来源的所有文章进行纠错处理。本专利技术提供一种基于人工智能的纠错举报处理装置,所述装置包括:获取模块,用于获取用户从内容服务器的前端举报的目标语句的错误信息,所述错误信息中还包括所述目标语句所在的文章标识以及所述目标语句中的疑似错别字的位置;预测模块,用于根据所述目标语句和所述疑似错别字、以及预先训练的置信度打分模型,预测所述疑似错别字的真实错误置信度;举报模块,用于若所述疑似错别字的真实错误置信度大于或者等于预设置信度阈值时,向所述内容服务器举报所述目标语句所在的文章标识、所述目标语句、所述目标语句中所述疑似错别字的位置以及所述疑似错别字的真实错误置信度,以供所述内容服务器根据所述疑似错别字的真实错误置信度,对所述文章标识对应的文章中的所述目标语句中的所述疑似错别字进行纠错处理。进一步可选地,如上所述的装置中,所述错误信息中还包括所述目标语句的位置信息;所述目标语句的位置信息包括所述目标语句为对应的文章的标题、所述目标语句为对应的文章的句首、或者所述目标语句为对应的文章的非句首。进一步可选地,如上所述的装置中,所述获取模块,还用于:若所述疑似错别字的真实错误置信度小于预设置信度阈值时,获取所述目标语句中的所述疑似错别字被举报的次数;获取所述目标语句所在的文章被浏览的次数;根据所述疑似错别字被举报的次数与所述文章被浏览的次数,获取所述疑似错别字的错误举报比例;所述举报模块,还用于若所述疑似错别字的错误举报比例大于或者等于第一预设比例阈值时,向所述内容服务器举报所述目标语句所在的文章标识、所述目标语句、所述目标语句中所述疑似错别字的位置以及所述疑似错别字的错误举报比例,以供所述内容服务器根据所述疑似错别字的错误举报比例,对所述文章标识对应的文章中的所述目标语句中的所述疑似错别字进行纠错处理。进一步可选地,如上所述的装置中,所述获取模块,还用于:获取所述目标语句所在的文章中的所有疑似错别字被举报的次数;根据所述所有疑似错别字被举报的次数与所述文章被浏览的次数,获取所述文章的错误举报比例;所述举报模块,还用于若所述文章的错误举报比例大于或者等于第二预设比例阈值时,向所述内容服务器举报所述文章标识以及所述文章的错误举报比例,以供所述内容服务器根据所述文章的错误举报比例,对所述文章标识对应的所述文章进行纠错处理。进一步可选地,如上所述的装置中,所述获取模块,还用于:获取所述文章的来源中的所有文章中发生过错别字纠错的文章的数目;获取所述文章的来源中的所有文章的数目;根据所述文章的来源中的所有文章中发生过错别字纠错的文章的数目以及所述文章的来源中的所有文章的数目,获取所述文章的来源的错误举报比例;所述举报模块,还用于若所述文章的来源的错误举报比例大于或者等于第三预设比例阈值时,向所述内容服务器举报所述文章的来源标识以及所述文章的来源的错误举报比例,以供所述内容服务器根据所述文章的本文档来自技高网...
基于人工智能的纠错举报处理方法、装置及可读介质

【技术保护点】
一种基于人工智能的纠错举报处理方法,所述方法包括:获取用户从内容服务器的前端举报的目标语句的错误信息,所述错误信息中还包括所述目标语句所在的文章标识以及所述目标语句中的疑似错别字的位置;根据所述目标语句和所述疑似错别字、以及预先训练的置信度打分模型,预测所述疑似错别字的真实错误置信度;若所述疑似错别字的真实错误置信度大于或者等于预设置信度阈值时,向所述内容服务器举报所述目标语句所在的文章标识、所述目标语句、所述目标语句中所述疑似错别字的位置以及所述疑似错别字的真实错误置信度,以供所述内容服务器根据所述疑似错别字的真实错误置信度,对所述文章标识对应的文章中的所述目标语句中的所述疑似错别字进行纠错处理。

【技术特征摘要】
1.一种基于人工智能的纠错举报处理方法,所述方法包括:获取用户从内容服务器的前端举报的目标语句的错误信息,所述错误信息中还包括所述目标语句所在的文章标识以及所述目标语句中的疑似错别字的位置;根据所述目标语句和所述疑似错别字、以及预先训练的置信度打分模型,预测所述疑似错别字的真实错误置信度;若所述疑似错别字的真实错误置信度大于或者等于预设置信度阈值时,向所述内容服务器举报所述目标语句所在的文章标识、所述目标语句、所述目标语句中所述疑似错别字的位置以及所述疑似错别字的真实错误置信度,以供所述内容服务器根据所述疑似错别字的真实错误置信度,对所述文章标识对应的文章中的所述目标语句中的所述疑似错别字进行纠错处理。2.根据权利要求1所述的方法,其特征在于,所述错误信息中还包括所述目标语句的位置信息;所述目标语句的位置信息包括所述目标语句为对应的文章的标题、所述目标语句为对应的文章的句首、或者所述目标语句为对应的文章的非句首。3.根据权利要求1所述的方法,其特征在于,若所述疑似错别字的真实错误置信度小于预设置信度阈值时,所述方法还包括:获取所述目标语句中的所述疑似错别字被举报的次数;获取所述目标语句所在的文章被浏览的次数;根据所述疑似错别字被举报的次数与所述文章被浏览的次数,获取所述疑似错别字的错误举报比例;若所述疑似错别字的错误举报比例大于或者等于第一预设比例阈值时,向所述内容服务器举报所述目标语句所在的文章标识、所述目标语句、所述目标语句中所述疑似错别字的位置以及所述疑似错别字的错误举报比例,以供所述内容服务器根据所述疑似错别字的错误举报比例,对所述文章标识对应的文章中的所述目标语句中的所述疑似错别字进行纠错处理。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取所述目标语句所在的文章中的所有疑似错别字被举报的次数;根据所述所有疑似错别字被举报的次数与所述文章被浏览的次数,获取所述文章的错误举报比例;若所述文章的错误举报比例大于或者等于第二预设比例阈值时,向所述内容服务器举报所述文章标识以及所述文章的错误举报比例,以供所述内容服务器根据所述文章的错误举报比例,对所述文章标识对应的所述文章进行纠错处理。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取所述文章的来源中的所有文章中发生过错别字纠错的文章的数目;获取所述文章的来源中的所有文章的数目;根据所述文章的来源中的所有文章中发生过错别字纠错的文章的数目以及所述文章的来源中的所有文章的数目,获取所述文章的来源的错误举报比例;若所述文章的来源的错误举报比例大于或者等于第三预设比例阈值时,向所述内容服务器举报所述文章的来源标识以及所述文章的来源的错误举报比例,以供所述内容服务器根据所述文章的来源的错误举报比例,对所述文章的来源的所有文章进行纠错处理。6.一种基于人工智能的纠错举报处理装置,所述装置包括:获取模块,用于获取用户从内容服务器的前端举报的目标语句的错误信息,所述错误信息中还包括所述目标语句所在的文章标识以及所述目标语句中的疑似错别字的位置;预测模块,用于根据所...

【专利技术属性】
技术研发人员:肖求根张玉东黄华方晓敏陈杰杨风光杨宏生费晓旭何径舟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1