【技术实现步骤摘要】
一种基于BERT的电信行业OA办公自动化文稿审核的方法
本专利技术属于大数据
,涉及一种基于BERT的电信行业OA办公自动化文稿审核的方法。
技术介绍
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。由于传统的人工审核系统在新闻文稿过多的情况,单凭人工审核,往往会消耗大量人力资源。而且可能存在审核不准确的情形。
技术实现思路
本专利技术的目的是提供一种基于BERT的电信行业OA办公自动化文稿审核的方法,解决了传统人工审核的效率低的问题的技术问题。为实现上述目的,本专利技术采用如下技术方案:一种基于BERT的电信行业OA办公自动化文稿审核的方法,包括如下步骤:步骤1:建立客户端模块、敏感词识别模块、词语纠错模块和语义分析模块;客户端模块用于录入待审核文本;敏感词识别模块用于对待审核文本进行搜索匹配; ...
【技术保护点】
1.一种基于BERT的电信行业OA办公自动化文稿审核的方法,其特征在于:包括如下步骤:/n步骤1:建立客户端模块、敏感词识别模块、词语纠错模块和语义分析模块;/n客户端模块用于录入待审核文本;/n敏感词识别模块用于对待审核文本进行搜索匹配;/n词语纠错模块用于对待审核文本中的错别字进行识别和纠正;/n语义分析模块用于对待审核文本的逻辑性进行审核,找出语句不通顺的句子;/n步骤2:客户端模块接收用户录入的待审核文本,并通过客户端模块选择进行敏感词审核、纠错审核或语义分析审核;/n步骤3:客户端模块将待审核文本发送给敏感词识别模块,敏感词识别模块根据电信领域的敏感词词典,对待审 ...
【技术特征摘要】
1.一种基于BERT的电信行业OA办公自动化文稿审核的方法,其特征在于:包括如下步骤:
步骤1:建立客户端模块、敏感词识别模块、词语纠错模块和语义分析模块;
客户端模块用于录入待审核文本;
敏感词识别模块用于对待审核文本进行搜索匹配;
词语纠错模块用于对待审核文本中的错别字进行识别和纠正;
语义分析模块用于对待审核文本的逻辑性进行审核,找出语句不通顺的句子;
步骤2:客户端模块接收用户录入的待审核文本,并通过客户端模块选择进行敏感词审核、纠错审核或语义分析审核;
步骤3:客户端模块将待审核文本发送给敏感词识别模块,敏感词识别模块根据电信领域的敏感词词典,对待审核文本进行最大搜索匹配,识别出待审核文本中包含的所有敏感词,并对所有敏感词进行标注,得到敏感词集合;
同时,客户端模块将待审核文本发送给词语纠错模块,词语纠错模块采用BERT模型,对待审核文本中的每个词取得分,选取得分排在前5的词作为候选词,建立候选词集合;
若候选词中没有待审核的词语说明待审核的词语为错误的词语,将错误的词语的谐音词、混肴词与候选词进行取交集并降序,并将交集后出现次数最多的词作为纠错后的词语;
词语纠错模块对错误的词语进行标注,并输出纠错后的词语,生成修改文本;
步骤4:当用户选择的是进行敏感词审核时,敏感词识别模块输出敏感词集合到客户端模块,客户端模块向用户展示敏...
【专利技术属性】
技术研发人员:魏利明,费春勇,黄峰,
申请(专利权)人:中博信息技术研究院有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。