一种多文本信息处理方法技术

技术编号:39329085 阅读:18 留言:0更新日期:2023-11-12 16:06
本发明专利技术涉及多文本信息处理技术领域,尤其为一种多文本信息处理方法,包括,其方法包括如下步骤:获取文本信息,确定文本信息中的权重词,并根据卷积神经网络对字词的单个字符进行精准识别,使用中文分词技术对识别后的字符串进行分词,以便于进行敏感词工作;本发明专利技术采用文字识别和中文语言处理方法,可以对多个文本信息中的文字进行分析处理,并获取每个词的权重信息,按照预设规则对当前获取的带有权重信息的词进行判断处理,之后使用预训练的卷积神经网络对分析的单个字符进行识别,通过中文分词技术对识别后的字符串进行分词,并借助于预先定义的敏感词数据库,以便于进行后续的敏感词检测工作。感词检测工作。感词检测工作。

【技术实现步骤摘要】
一种多文本信息处理方法


[0001]本专利技术涉及多文本信息处理
,具体为一种多文本信息处理方法。

技术介绍

[0002]文本信息是社交平台的主要信息载体,在需要大量发送类似内容的文本信息时,可以通过模型生成模版化文本并进行发送。当需要对文本信息进行处理时,可以通过对接收到的文本信息进行识别,以便根据识别结果对该文本信息进行相应的处理,例如,对识别出的垃圾信息进行拦截或者屏蔽等,因此,如何准确地识别出垃圾信息等至关重要。
[0003]互联网的高速发展使其成为世界上资源最丰富的信息网络,其蕴涵的大量共享资源,已成为人类获得信息的重要途径之一,但是互联网在给人们的社会生活带来进步的同时,也存在着一些日益突出的问题,例如垃圾文本信息的泛滥,目前网络垃圾制造者传播不良信息的势头更是有增无减,他们常常变换不同的方式使不良信息逃脱关键字、黑白名单等过滤方法的阻挠,造成不良信息在网络中继续泛滥,例如:在不良信息中用特殊符号将敏感词间隔开,将敏感字拆分成偏旁部首和非单字两部分,由其他符号间隔,将敏感字(词)用拼音替代等等。r/>
技术实现思路
<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多文本信息处理方法,其特征在于:其方法包括如下步骤:S1、获取至少一个待处理文本,并对文本的基本属性进行分析,待分析完成后,可对当前获取的文本信息进行分词处理,并生成多个词语及参数,根据所得到的多个词语及参数进行分类提取,获取对应的数据预处理集合;S2、在对数据预处理后,可确定文本信息中至少一个词汇链的中心词,即接收当前输入分析文本中的带有权重信息的词,确定待使用分词中的目标分词,并获取每个词的权重信息,按照预设规则对当前获取的带有权重信息的词进行判断处理,处理完毕后继续接收下一个带有权重信息的词,直至处理完待分析文本中的最后一个词;S3、根据卷积神经网络对字词的单个字符进行精准识别,针对字母数字及汉字的识别分别采用两种网络模型,基于预先定义的敏感词数据库,采用字符串编辑距离的计算方法进行敏感词判定,并分别使用卷积神经网络、支持向量机和决策树算法进行字符识别比较,之后采用多项式核函数进行多分类;S4、使用中文分词技术对识别后的字符串进行分词,以便于进行后续的敏感词检测工作,检测完成后,使用字符串之间的编辑距离作为检测敏感词的度量函数,而相似度较高的视为敏感词。2.根据权利要求1所述的一种多文本信息处理方法,其特征在于:所述步骤S1中,基本属性信息包括目标文本的文字数量信息,可根据基本属性信息确定与目标文本相对应的目标文本处理模型。3.根据权利要求1所述的一种多文本信息处理方法,其特征在于:所述步骤S2中,判断当前输入的带有权重信息的词是否与已存在的词汇链的中心词有关联,如果有关联,计算当前输入的带有权重信息的词与已存在的词汇链的中心词的关联度,如果没有关联,新建一条词汇链,并将当前输入的带有权重信息的词作为新建词汇链的中心词对文本信息进行词类序列标注得到文本信息对应的第一词类序列,根据第一词类序列获取文本信息对应的字词向量。4.根据权利要求1所述的一种多文本信息处理方法,其特征在于:所述步骤S2中,在对待分析本文进行分析后,得到...

【专利技术属性】
技术研发人员:金培银刘杨
申请(专利权)人:深圳市东信时代信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1