一种论坛敏感信息抽取方法、系统、设备及介质技术方案

技术编号:38343375 阅读:23 留言:0更新日期:2023-08-02 09:23
一种论坛敏感信息抽取方法、系统、设备及介质,涉及自然语言处理技术领域。在该方法中,包括以下步骤:获取原始评论文本;对原始评论文本进行数据预处理,生成标准评论文本;根据原始评论文本或标准评论文本提取文本特征,文本特征至少包括评论分词特征、评论语义特征以及评论风格特征;对提取的文本特征进行处理,生成原始评论文本的文本表示;基于预置的文本分类器处理文本表示,将原始评论文本区分为不良评论文本或正常评论文本。通过采用本申请提供的技术方案,提取评论文本中的多维度特征,有效的避免了在评论文本中特征稀疏的问题,有利于提升敏感信息识别方法对于不良评论的鉴别能力,使得包含有敏感词的评论能够被较好的鉴别出来。鉴别出来。鉴别出来。

【技术实现步骤摘要】
一种论坛敏感信息抽取方法、系统、设备及介质


[0001]本申请涉及自然语言处理
,尤其是涉及一种论坛敏感信息抽取方法、系统、设备及介质。

技术介绍

[0002]由于用户素质良莠不齐,部分不良人员在网络论坛中进行讨论时,怀揣着恶意目的,这就导致了在网络论坛中用户发送的评论可能会包含敏感信息,这些敏感信息包括侮辱性文本、反动文本、广告文本、黄色文本等等,带有敏感信息的评论阻碍了用户对有效信息的获取,同时其中一些违法的内容会对未成年人造成不良影响,因此为了避免敏感信息造成的不良影响,需要对用户发送的评论进行审核。
[0003]由于网络论坛中的评论具备文本较短、口语化严重且充斥大量变形词,这就导致了网络论坛中的评论中包含的特征十分稀疏,现有技术对不良评论与正常评论的区分存在困难,在对评论的内容进行审核上不够全面。

技术实现思路

[0004]为了提升敏感信息识别方法对于不良评论的鉴别能力,使得包含有敏感词的评论能够被较好的鉴别出来,本申请提供一种论坛敏感信息抽取方法、系统、设备及介质。
[0005]第一方面,本申请提本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种论坛敏感信息抽取方法,其特征在于,所述方法包括以下步骤:获取原始评论文本;对所述原始评论文本进行数据预处理,生成标准评论文本;根据所述原始评论文本或所述标准评论文本提取文本特征,所述文本特征至少包括评论分词特征、评论语义特征以及评论风格特征;对提取的所述文本特征进行处理,生成所述原始评论文本的文本表示;基于预置的文本分类器处理所述文本表示,将所述原始评论文本区分为不良评论文本或正常评论文本。2.根据权利要求1所述的一种论坛敏感信息抽取方法,其特征在于,所述文本特征还包括主题语义特征,所述主题语义特征的提取过程具体包括以下步骤:获取所述原始评论文本所属主题帖的原始主题文本;对所述原始主题文本进行数据预处理,生成标准主题文本;通过Word2vec计算所述标准主题文本的词向量矩阵;将所述标准主题文本的词向量矩阵作为所述主题语义特征。3.根据权利要求1所述的一种论坛敏感信息抽取方法,其特征在于,在对所述原始评论文本进行数据预处理,生成标准评论文本中,具体包括以下步骤:去除所述原评论文本中的数据噪声;将所述原评论文本中包含的所述账号信息利用正则表达式进行归一化替换,将所述账号信息替换为预设的表示字符;去除预置的通用停用词表中的特殊停用词,所述特殊停用词包括标点符号与特殊符号,生成特殊停用词表;根据所述特殊停用词表去除所述原评论文本中的停用词;生成所述标准评论文本。4.根据权利要求1所述的一种论坛敏感信息抽取方法,其特征在于,在根据所述原始评论文本或所述标准评论文本提取文本特征中,具体包括以下步骤:通过滑动窗口对所述标准评论文本进行文本切分操作,将所述标准评论文本切分为若干个词单元;基于预置的语料库计算各所述词单元的词频;选取词频大于设定阈值的所述词单元作为所述标准评论文本的Bi

gram特征;根据所述Bi

gram特征得到所述评论分词特征。5.根据权利要求3所述的一种论坛敏感信息抽取方法,其特征在于,在根据所述原始评论文本或所述标准评论文本提取文本特征中,还包括以下步骤:计算所述原始评论文本的长度特征;计算所述原始评论文本的账号信息特征,所述账号信息特征为所述账号信息在所述原始评论文本中的布尔权重;计算所述原始评论...

【专利技术属性】
技术研发人员:靳永珠
申请(专利权)人:人民论坛杂志社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1