【技术实现步骤摘要】
一种基于大数据的信息处理方法及系统
[0001]本专利技术属于大数据信息
,具体涉及一种基于大数据的信息处理方法及系统。
技术介绍
[0002]随着互联网技术的发展,全球数据开始呈现爆炸式的增长,数据量的飞速增长预示着现在已经进入了大数据时代,随着大数据时代的到来,给信息质量的监测和过滤带来严峻的考验。
[0003]近年来,社交媒体平台越来越多,用户可以通过各种平台随时随地地发布或看到各种各样的弹幕、评论、文章等,这些文本信息可能包含敏感言论。为了营造健康的网络环境、保障社会安定,及时识别和处理敏感信息以控制文本质量,极其重要。现有的网络监测,通常采用单一的敏感词库识别敏感词,将文本信息与敏感词库进行匹配,从而过滤掉含有敏感信息的文本,包含敏感词的语句不一定就是敏感语句,而未被过滤掉的这部分文本仍然存在敏感风险,由此导致敏感信息检测准确度较低。
[0004]因此,提供一种基于大数据的信息处理方法及系统,以提高敏感信息的检出率和准确率,是亟待解决的问题。
技术实现思路
[0005]针对上述提出的技术问题,本专利技术提供一种基于大数据的信息处理方法及系统。
[0006]第一方面,本专利技术提供了一种基于大数据的信息处理方法,该方法包括:
[0007]步骤1、获取目标文本,对目标文本进行预处理获取待检测文本;
[0008]步骤2、提取待检测文本数据中的语句,获得语句集合,对语句集合中的语句进行分词获得第二语句集合,使用敏感词库对第二语句集合进行敏感词过滤,获取第 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据的信息处理方法,其特征在于,包括如下步骤:步骤1、获取目标文本,对所述目标文本进行预处理获取待检测文本;步骤2、提取所述待检测文本数据中的语句,获得语句集合,对所述语句集合中的语句进行分词获得第二语句集合,使用敏感词库对所述第二语句集合进行敏感词过滤,获取第一候选敏感语句集合,敏感语句是包含敏感词的语句;步骤3、提取所述第一候选敏感语句集合中的第i个候选敏感语句,计算所述第i个候选敏感语句与敏感语句库中包含相同敏感词的语句的语句相似度,当最大相似度SIM1大于等于第一阈值TH1时,将所述第i个候选敏感语句确定为所述待检测文本的敏感语句;步骤4、基于所述语句集合过滤掉所述第一候选敏感语句集合中的敏感语句,获得第三语句集合;步骤5、以词素为单位对所述第三语句集合中的语句进行分词获得第四语句集合,获取所述第四语句集合中的第j个语句,将所述第j个语句中的词素重组成N个新语句,使用所述敏感词库对所述N个新语句进行敏感词过滤,获取第j个候选敏感语句,计算所述第j个候选敏感语句与所述敏感语句库中包含相同敏感词的语句的语句相似度,当最大相似度SIM2满足SIM2≥TH1时,将所述第j个语句确定为所述待检测文本的敏感语句;当最大相似度SIM2满足TH2≤SIM2<TH1时,将所述第j个语句交由人工复查,确定所述第j个语句是否为敏感语句。2.根据权利要求1所述的一种基于大数据的信息处理方法,其特征在于,所述步骤1中,所述预处理包括:所述目标文本包含字母、文字和表情符号;将英文字符翻译为第一中文字符,将汉语拼音缩写扩展为第二中文字符,将所述表情符号转化为表情文本;将所述第一中文字符、所述第二中文字符、所述文字和所述表情文本作为待检测文本。3.根据权利要求2所述的一种基于大数据的信息处理方法,其特征在于,所述将汉语拼音缩写扩展为第二中文字符包括:步骤11、获取包含汉语拼音缩写的第一文字信息,通过网络词库识别所述汉语拼音缩写的候选中文字符,生成候选中文字符集;步骤12、从所述目标文本中提取包含所述第一文字信息的第一文字序列;步骤13、将所述候选中文字符集和所述第一文字序列输入第一训练模型中进行学习,获得学习结果,所述学习结果为符合语义的第二中文字符。4.根据权利要求1所述的一种基于大数据的信息处理方法,其特征在于,计算语句相似度的步骤包括:步骤21、从所述敏感语句库中获取与候选敏感语句具有相同敏感词的M个敏感语句;步骤22、提取所述候选敏感语句的第一关键词,生成所述第一关键词的第一词向量,基于所述第一词向量生成所述候选敏感语句的句子向量;步骤23、提取第k个敏感语句的第二关键词,生成所述第二关键词的第二词向量,基于所述第二词向量生成所述第k个敏感语句的句子向量;步骤24、基于所述候选敏感语句的句子向量和所述第k个敏感语句的句子向量计算所述候选敏感语句与所述第k个敏感语句的相似度;
其中,句子向量的计算公式为:Sem为句子向量,p为关键词的数量,Wem
x
为第x个关键词的词向量。5.根据权利要求1所述的一种基于大数据的信息处理方法,其特征在于,所述步骤5中,所述将第j个语句中的词素重组成N个新语句具体包括如下步骤:步骤51、提取所述第j个语句中的词素,判断所述词素中是否包含别词,若包含,则进入步骤52,若不包含,则进入步骤53,所述别词为未包含在组句词典中的词;步骤52、将所述别词之前的词素输入到第二训练模型,获取所述第二训练模型输出的单词中出现概率高于预设值A的A1个单词,将所述A1个单词作为所述别词的候选单词,使用所述候选单词替换所述词素中的所述别词,生成A1组新词素,其中,所述第二训练模型为对输入的词素输出...
【专利技术属性】
技术研发人员:吴锋,邱宜宁,沈子雷,吴金凤,马俊,张彪,
申请(专利权)人:信阳农林学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。