一种基于知识库的官文校对方法、系统、设备及存储介质技术方案

技术编号:35795591 阅读:14 留言:0更新日期:2022-12-01 14:46
本发明专利技术公开了一种基于知识库的官文校对方法、系统、设备及存储介质,所述校对方法包括:获取实时网络数据,分析所述实时网络数据的热度情况确定网络用语,并构建或更新网络用语知识库;获取目标文本,对所述目标文本进行关键词句划分,遍历每个划分后的关键词句并将其与所述网络用语知识库进行比对,根据所述关键词句与所述网络用语知识库中的网络用语的比对相似度触发对应的用词提醒。本发明专利技术可实时更新网络用语知识库,将官方文稿中的关键词句与网络用语知识库进行比对,识别出官方文稿中是否存在网络用语,在系统的用词提醒下校对人可准确地对官方文稿进行校对,提高官方文稿的准确性。准确性。准确性。

【技术实现步骤摘要】
一种基于知识库的官文校对方法、系统、设备及存储介质


[0001]本专利技术涉及文本校对
,尤其涉及一种基于知识库的官文校对方法、系统、设备及存储介质。

技术介绍

[0002]发言人在正式发言前,通常会预先撰写官方文稿,以便于发言人依照官方文稿进行演讲。为了确保官方发言更加准确,需要对文稿进行校对,识别并纠正文稿中的不合规内容。但是,现有的文稿校对通常只是对文稿中的错别字进行识别,其校对过程过于简单;且现阶段互联网语言逐渐兴起,再加上网络用语的真实含义与其字面含义存在较大差异,若撰稿人无意中在官方文稿里使用了网络用语,导致文稿内容出现偏差,该情况通过现有的文本校对软件无法识别,无法确保文稿精准度。

技术实现思路

[0003]为了克服现有技术的不足,本专利技术的目的之一在于提供一种基于知识库的官文校对方法,可提高文稿校对的精准度。
[0004]本专利技术的目的之二在于提供一种基于知识库的官文校对系统。
[0005]本专利技术的目的之三在于提供一种电子设备。
[0006]本专利技术的目的之四在于提供一种计算机可读存储介质。
[0007]本专利技术的目的之一采用如下技术方案实现:一种基于知识库的官文校对方法,包括:获取实时网络数据,分析所述实时网络数据的热度情况确定网络用语,并构建或更新网络用语知识库;获取目标文本,对所述目标文本进行关键词句划分,遍历每个划分后的关键词句并将其与所述网络用语知识库进行比对,根据所述关键词句与所述网络用语知识库中的网络用语的比对相似度触发对应的用词提醒。
[0008]进一步地,所述实时网络数据包括从目标地址中获取热度达标的网络视频;所述热度为在统计时间段内用户群体对网络视频或网络文本的喜好程度;所述目标地址根据用户设定进行自定义设置。
[0009]进一步地,确定所述网络用语的方法为:获取所述网络视频的流量数据,并结合视频时长计算出所述网络视频的平均流量值;调取出所述网络视频中流量值高于所述平均流量值的视频帧数,解析该视频帧数的音频内容获得其所包含的热度词句,并将其作为一级网络用语存储于所述网络用语知识库中。
[0010]进一步地,获取所述网络视频的流量数据时,还包括:调取出所述网络视频中流量值低于所述平均流量值,且与所述平均流量值之间的
流量差值在设定范围内的视频帧数,解析该视频帧数的音频内容获得其所包含的热度词句,并将其作为二级网络用语存储于所述网络用语知识库中。
[0011]进一步地,所述实时网络数据还包括由目标网站统计的网络用语,直接获取所述目标网站的网络用语并将其存储于所述网络用语知识库中。
[0012]进一步地,获取所述网络视频的流量数据时,还包括:计算所述网络用语知识库中每个网络用语的使用频率,并获取所述网络视频的发布时间,根据所述发布时间为所述网络用语知识库中每个网络用语进行加权以计算所述网络用语知识库中每个网络用语的词热度;当任一网络用语的词热度低于热度阈值则将其标记为三级网络用语。
[0013]进一步地,将所述关键词句与所述网络用语知识库进行比对的方法为:将所述关键词句分别与所述网络用语知识库中的所述一级网络用语、所述二级网络用语以及所述三级网络用语进行比对,若所述关键词句与任一网络用语的比对相似度高于预设阈值,则根据该网络用语的等级触发对应等级的用词提醒,并推送该网络用语所对应的来源信息。
[0014]本专利技术的目的之二采用如下技术方案实现:一种基于知识库的官文校对系统,执行如上述的基于知识库的官文校对方法,所述系统包括:网络服务器,用于获取实时网络数据,分析所述实时网络数据的热度情况确定网络用语,并构建或更新网络用语知识库;校对服务器,用于获取目标文本,对所述目标文本进行关键词句划分,遍历每个划分后的关键词句并将其与所述网络用语知识库进行比对,根据比对结果触发对应的用词提醒。
[0015]本专利技术的目的之三采用如下技术方案实现:一种电子设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的基于知识库的官文校对方法。
[0016]本专利技术的目的之四采用如下技术方案实现:一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述的基于知识库的官文校对方法。
[0017]相比现有技术,本专利技术的有益效果在于:本专利技术可实时更新网络用语知识库,将官方文稿中的关键词句与网络用语知识库进行比对,识别出官方文稿中是否存在网络用语,在系统的用词提醒下校对人可准确地对官方文稿进行校对,提高官方文稿的准确性。
附图说明
[0018]图1为本专利技术基于知识库的官文校对方法的流程示意图。
具体实施方式
[0019]下面,结合附图以及具体实施方式,对本专利技术做进一步描述,需要说明的是,在不
相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
[0020]实施例一本实施例提供一种基于知识库的官文校对方法,该方法主要将官方文稿中所使用的网络用语识别出来,让校对人员可根据用词提醒对官方文稿进行校对以提高官方文稿的准确性。
[0021]如图1所示,所述官文校对方法具体包括如下步骤:步骤S1:获取实时网络数据,分析所述实时网络数据的热度情况确定网络用语,并构建或更新网络用语知识库;步骤S2:获取目标文本,对所述目标文本进行关键词句划分,遍历每个划分后的关键词句并将其与所述网络用语知识库进行比对,根据所述关键词句与所述网络用语知识库中的网络用语的比对相似度触发对应的用词提醒。
[0022]在进行文稿校对前,需要利用网络服务器预先构建网络用语知识库,所述网络用语知识库用于存储当下网络热度高、流量大的网络用语;所述网络服务器通过互联网从目标地址中获取实时网络数据,所述目标地址可通过自定义方式进行编辑,可增加、减少或修改网络地址,从而从指定的网络地址中获取网络数据。
[0023]所述网络服务器可以按照预设的时间间隔从目标地址中获取网络数据,也可以当目标地址更新数据或产生新的数据时,则可主动触发所述网络服务器从目标地址中获取新的网络数据,确保网络数据的实时性。
[0024]其中,从目标地址获取的网络数据的数据类型可以是网络视频,也可以是网络文本。所述网络服务器获取网络视频后,还需判断网络视频的热度是否达标,所述热度为在统计时间段内用户群体对网络视频的喜好程度,其喜好程度可以通过网络视频的整体观看流量来确定,即判断网络视频的整体观看流量值是否超过第一阈值,若超过,则代表该网络视频的热度相对较高,此时则可将该网络视频作为网络用语分析依据;若网络视频的观看流量值未超过第一阈值,则该网络视频热度相对较低,则将其过滤掉。
[0025]同时,所述网络服务器从目标地址中获取所述网络视频的流量数据,该流量数据指的是用户群体对网络视频中的每帧画面/连续若干帧画面所对应的喜好程度,该喜好程度可以通过视频弹幕数量、热点记录数量等方式进行统计从而获得网络视频中每帧画本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识库的官文校对方法,其特征在于,包括:获取实时网络数据,分析所述实时网络数据的热度情况确定网络用语,并构建或更新网络用语知识库;获取目标文本,对所述目标文本进行关键词句划分,遍历每个划分后的关键词句并将其与所述网络用语知识库进行比对,根据所述关键词句与所述网络用语知识库中的网络用语的比对相似度触发对应的用词提醒。2.根据权利要求1所述的基于知识库的官文校对方法,其特征在于,所述实时网络数据包括从目标地址中获取热度达标的网络视频;所述热度为在统计时间段内用户群体对网络视频或网络文本的喜好程度;所述目标地址根据用户设定进行自定义设置。3.根据权利要求2所述的基于知识库的官文校对方法,其特征在于,确定所述网络用语的方法为:获取所述网络视频的流量数据,并结合视频时长计算出所述网络视频的平均流量值;调取出所述网络视频中流量值高于所述平均流量值的视频帧数,解析该视频帧数的音频内容获得其所包含的热度词句,并将其作为一级网络用语存储于所述网络用语知识库中。4.根据权利要求3所述的基于知识库的官文校对方法,其特征在于,获取所述网络视频的流量数据时,还包括:调取出所述网络视频中流量值低于所述平均流量值,且与所述平均流量值之间的流量差值在设定范围内的视频帧数,解析该视频帧数的音频内容获得其所包含的热度词句,并将其作为二级网络用语存储于所述网络用语知识库中。5.根据权利要求4所述的基于知识库的官文校对方法,其特征在于,获取所述网络视频的流量数据时,还包括:计算所述网络用语知识库中每个网络用语的使用频率,并获取所述网络视频的发布时间,根据所述发布时间为...

【专利技术属性】
技术研发人员:林立磐李伟刘智国陈朝晖陈杰吴久伟王镇彬
申请(专利权)人:广州市省信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1