一种基于大数据的信息处理方法及系统技术方案

技术编号:37495963 阅读:32 留言:0更新日期:2023-05-07 09:33
本发明专利技术属于大数据信息技术领域,公开了一种基于大数据的信息处理方法及系统:对待检测文本的语句进行分词获得第二语句集合,使用敏感词库对第二语句集合进行敏感词过滤,获取第一候选敏感语句集合和第三语句集合;计算第一候选敏感语句集合中的语句与敏感语句库中的语句的语句相似度,最大相似度大于等于第一阈值的语句为敏感语句;对第三语句集合中的语句的词素进行重组,使用敏感词库对重组后的语句进行敏感词过滤获得候选敏感语句,计算候选敏感语句与敏感语句库中的语句的语句相似度,最大相似度大于等于TH1时将语句确定为敏感语句;最大相似度小于TH1但大于等于TH2时,交由人工复查。本发明专利技术提高了敏感信息的检出率和准确率。确率。确率。

【技术实现步骤摘要】
一种基于大数据的信息处理方法及系统


[0001]本专利技术属于大数据信息
,具体涉及一种基于大数据的信息处理方法及系统。

技术介绍

[0002]随着互联网技术的发展,全球数据开始呈现爆炸式的增长,数据量的飞速增长预示着现在已经进入了大数据时代,随着大数据时代的到来,给信息质量的监测和过滤带来严峻的考验。
[0003]近年来,社交媒体平台越来越多,用户可以通过各种平台随时随地地发布或看到各种各样的弹幕、评论、文章等,这些文本信息可能包含敏感言论。为了营造健康的网络环境、保障社会安定,及时识别和处理敏感信息以控制文本质量,极其重要。现有的网络监测,通常采用单一的敏感词库识别敏感词,将文本信息与敏感词库进行匹配,从而过滤掉含有敏感信息的文本,包含敏感词的语句不一定就是敏感语句,而未被过滤掉的这部分文本仍然存在敏感风险,由此导致敏感信息检测准确度较低。
[0004]因此,提供一种基于大数据的信息处理方法及系统,以提高敏感信息的检出率和准确率,是亟待解决的问题。

技术实现思路

[0005]针对上述提出的技术问题,本专利技术提供一种基于大数据的信息处理方法及系统。
[0006]第一方面,本专利技术提供了一种基于大数据的信息处理方法,该方法包括:
[0007]步骤1、获取目标文本,对目标文本进行预处理获取待检测文本;
[0008]步骤2、提取待检测文本数据中的语句,获得语句集合,对语句集合中的语句进行分词获得第二语句集合,使用敏感词库对第二语句集合进行敏感词过滤,获取第一候选敏感语句集合,敏感语句是包含敏感词的语句;
[0009]步骤3、提取第一候选敏感语句集合中的第i个候选敏感语句,计算第i个候选敏感语句与敏感语句库中包含相同敏感词的语句的语句相似度,当最大相似度SIM1大于等于第一阈值TH1时,将第i个候选敏感语句确定为待检测文本的敏感语句;
[0010]步骤4、基于语句集合过滤掉第一候选敏感语句集合中的敏感语句,获得第三语句集合;
[0011]步骤5、以词素为单位对第三语句集合中的语句进行分词获得第四语句集合,获取第四语句集合中的第j个语句,将第j个语句中的词素重组成N个新语句,使用敏感词库对N个新语句进行敏感词过滤,获取第j个候选敏感语句,计算第j个候选敏感语句与敏感语句库中包含相同敏感词的语句的语句相似度,当最大相似度SIM2满足SIM2≥TH1时,将第j个语句确定为待检测文本的敏感语句;当最大相似度SIM2满足TH2≤SIM2<TH1时,将第j个语句交由人工复查,确定第j个语句是否为敏感语句。
[0012]具体地,步骤1中,预处理包括:目标文本包含字母、文字和表情符号;
[0013]将英文字符翻译为第一中文字符,将汉语拼音缩写扩展为第二中文字符,将表情符号转化为表情文本;
[0014]将第一中文字符、第二中文字符、文字和表情文本作为待检测文本。
[0015]具体地,将汉语拼音缩写扩展为第二中文字符包括:
[0016]步骤11、获取包含汉语拼音缩写的第一文字信息,通过网络词库识别汉语拼音缩写的候选中文字符,生成候选中文字符集;
[0017]步骤12、从目标文本中提取包含第一文字信息的第一文字序列;
[0018]步骤13、将候选中文字符集和第一文字序列输入第一训练模型中进行学习,获得学习结果,学习结果为符合语义的第二中文字符。
[0019]具体地,计算语句相似度的步骤包括:
[0020]步骤21、从敏感语句库中获取与候选敏感语句具有相同敏感词的M个敏感语句;
[0021]步骤22、提取候选敏感语句的第一关键词,生成第一关键词的第一词向量,基于第一词向量生成候选敏感语句的句子向量;
[0022]步骤23、提取第k个敏感语句的第二关键词,生成第二关键词的第二词向量,基于第二词向量生成第k个敏感语句的句子向量;
[0023]步骤24、基于候选敏感语句的句子向量和第k个敏感语句的句子向量计算候选敏感语句与第k个敏感语句的相似度;
[0024]其中,句子向量的计算公式为:Sem为句子向量,p为关键词的数量,Wem
x
为第x个关键词的词向量。
[0025]具体地,步骤5中,将第j个语句中的词素重组成N个新语句具体包括如下步骤:
[0026]步骤51、提取第j个语句中的词素,判断词素中是否包含别词,若包含,则进入步骤52,若不包含,则进入步骤53,别词为未包含在组句词典中的词;
[0027]步骤52、将别词之前的词素输入到第二训练模型,获取第二训练模型输出的单词中出现概率高于预设值A的A1个单词,将A1个单词作为别词的候选单词,使用候选单词替换词素中的别词,生成A1组新词素,其中,第二训练模型为对输入的词素输出要组句的下一个组句单词和组句单词的出现概率;
[0028]步骤53、将要组句的词素输入到组句训练模型生成B1个第一新语句,分别计算B1个第一新语句的句子似然值,当句子似然值高于预设值B时将第一新语句作为候选新语句,其中,组句训练模型为对输入的词素输出句子和句子中每个词素的出现概率,句子似然值为句子中每个词素的出现概率的乘积;
[0029]步骤54、若候选新语句中包含候选单词,则使用别词替换候选单词生成新语句。
[0030]具体地,对待处理文本中的敏感语句进行标记,可视化显示敏感语句和标记。
[0031]第二方面,本专利技术还提供了一种基于大数据的信息处理系统,该系统包括:
[0032]文本处理模块,用于获取目标文本,对目标文本进行预处理获取待检测文本,提取待检测文本数据中的语句,获得语句集合,对语句集合中的语句进行分词获得第二语句集合;
[0033]第一敏感词过滤模块,使用敏感词库对第二语句集合进行敏感词过滤,获取第一候选敏感语句集合,基于语句集合过滤掉第一候选敏感语句集合中的敏感语句,获得第三
语句集合,敏感语句是包含敏感词的语句;
[0034]第一敏感语句确定模块,用于提取第一候选敏感语句集合中的第i个候选敏感语句,计算第i个候选敏感语句与敏感语句库中包含相同敏感词的语句的语句相似度,当最大相似度SIM1大于等于第一阈值TH1时,将第i个候选敏感语句确定为待检测文本的敏感语句;
[0035]第二敏感语句确定模块,以词素为单位对第三语句集合中的语句进行分词获得第四语句集合,获取第四语句集合中的第j个语句,将第j个语句中的词素重组成N个新语句,使用敏感词库对N个新语句进行敏感词过滤,获取第j个候选敏感语句,计算第j个候选敏感语句与敏感语句库中包含相同敏感词的语句的语句相似度,当最大相似度SIM2满足SIM2≥TH1时,将第j个语句确定为待检测文本的敏感语句;当最大相似度SIM2满足TH2≤SIM2<TH1时,将第j个语句交由人工复查,确定第j个语句是否为敏感语句。
[0036]具体地,预处理包括:目标文本包含字母、文字和表情符号;
[0037]将英文字符翻译为第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的信息处理方法,其特征在于,包括如下步骤:步骤1、获取目标文本,对所述目标文本进行预处理获取待检测文本;步骤2、提取所述待检测文本数据中的语句,获得语句集合,对所述语句集合中的语句进行分词获得第二语句集合,使用敏感词库对所述第二语句集合进行敏感词过滤,获取第一候选敏感语句集合,敏感语句是包含敏感词的语句;步骤3、提取所述第一候选敏感语句集合中的第i个候选敏感语句,计算所述第i个候选敏感语句与敏感语句库中包含相同敏感词的语句的语句相似度,当最大相似度SIM1大于等于第一阈值TH1时,将所述第i个候选敏感语句确定为所述待检测文本的敏感语句;步骤4、基于所述语句集合过滤掉所述第一候选敏感语句集合中的敏感语句,获得第三语句集合;步骤5、以词素为单位对所述第三语句集合中的语句进行分词获得第四语句集合,获取所述第四语句集合中的第j个语句,将所述第j个语句中的词素重组成N个新语句,使用所述敏感词库对所述N个新语句进行敏感词过滤,获取第j个候选敏感语句,计算所述第j个候选敏感语句与所述敏感语句库中包含相同敏感词的语句的语句相似度,当最大相似度SIM2满足SIM2≥TH1时,将所述第j个语句确定为所述待检测文本的敏感语句;当最大相似度SIM2满足TH2≤SIM2<TH1时,将所述第j个语句交由人工复查,确定所述第j个语句是否为敏感语句。2.根据权利要求1所述的一种基于大数据的信息处理方法,其特征在于,所述步骤1中,所述预处理包括:所述目标文本包含字母、文字和表情符号;将英文字符翻译为第一中文字符,将汉语拼音缩写扩展为第二中文字符,将所述表情符号转化为表情文本;将所述第一中文字符、所述第二中文字符、所述文字和所述表情文本作为待检测文本。3.根据权利要求2所述的一种基于大数据的信息处理方法,其特征在于,所述将汉语拼音缩写扩展为第二中文字符包括:步骤11、获取包含汉语拼音缩写的第一文字信息,通过网络词库识别所述汉语拼音缩写的候选中文字符,生成候选中文字符集;步骤12、从所述目标文本中提取包含所述第一文字信息的第一文字序列;步骤13、将所述候选中文字符集和所述第一文字序列输入第一训练模型中进行学习,获得学习结果,所述学习结果为符合语义的第二中文字符。4.根据权利要求1所述的一种基于大数据的信息处理方法,其特征在于,计算语句相似度的步骤包括:步骤21、从所述敏感语句库中获取与候选敏感语句具有相同敏感词的M个敏感语句;步骤22、提取所述候选敏感语句的第一关键词,生成所述第一关键词的第一词向量,基于所述第一词向量生成所述候选敏感语句的句子向量;步骤23、提取第k个敏感语句的第二关键词,生成所述第二关键词的第二词向量,基于所述第二词向量生成所述第k个敏感语句的句子向量;步骤24、基于所述候选敏感语句的句子向量和所述第k个敏感语句的句子向量计算所述候选敏感语句与所述第k个敏感语句的相似度;
其中,句子向量的计算公式为:Sem为句子向量,p为关键词的数量,Wem
x
为第x个关键词的词向量。5.根据权利要求1所述的一种基于大数据的信息处理方法,其特征在于,所述步骤5中,所述将第j个语句中的词素重组成N个新语句具体包括如下步骤:步骤51、提取所述第j个语句中的词素,判断所述词素中是否包含别词,若包含,则进入步骤52,若不包含,则进入步骤53,所述别词为未包含在组句词典中的词;步骤52、将所述别词之前的词素输入到第二训练模型,获取所述第二训练模型输出的单词中出现概率高于预设值A的A1个单词,将所述A1个单词作为所述别词的候选单词,使用所述候选单词替换所述词素中的所述别词,生成A1组新词素,其中,所述第二训练模型为对输入的词素输出...

【专利技术属性】
技术研发人员:吴锋邱宜宁沈子雷吴金凤马俊张彪
申请(专利权)人:信阳农林学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1