一种面向语义敏感词句的分析方法技术

技术编号：22055299 阅读：34 留言：0更新日期：2019-09-07 15:16

本发明专利技术公开一种面向语义敏感词句的分析方法，首先，对敏感词库进行义原上的拓展；准备混合敏感语料1和混合敏感语料语料2，并对语料1进行分词，生成word2vec词向量模型；确定词向量模型基于语料2的最佳相关拓展系数；词向量模型和最佳相关拓展系数对语料2语句分词后的词语列表进行相关词拓展；确定词语依据句法关系的敏感性传递函数；对词语敏感性按句法关系进行传递，得到句子的敏感向量，并将语料2得到的所有句子敏感向量标记敏感性，作为支持向量机训练数据；用支持向量机进行分类处理，得到敏感语句识别模型。采用本发明专利技术可快速有效地从海量文本信息中识别出语义敏感的词句，能维护网络社区环境的纯净。

A Semantic Sensitive Word and Sentence Oriented Analysis Method

全部详细技术资料下载

【技术实现步骤摘要】
一种面向语义敏感词句的分析方法
本专利技术属于文本分类领域，具体涉及一种面向语义敏感词句的分析方法。
技术介绍
随着网络的迅速发展，网络信息成了人们生活中必不可少的一部分，不论是在什么地方，都有人在上网，通过网络获取人们需要的信息，比如新闻、娱乐资讯、视频、评论等，互联网成了人们信息交换的媒介。与此同时，生活中常见的麻烦，也会在这个过程当中被带到互联网上，敏感语句(包括色情、暴力、反动等言论)就是其中的一部分。敏感语句在互联网上的传播会对广大网民尤其是青少年带来一系列的负面影响，不利于良好社会风气的构建。因此，如何从海量的文本信息中识别出语义敏感的词句就是一个重要的课题，面向语义敏感词句的分析方法是一个重要的研究内容。敏感文本的分析方法多种多样，已经有很多学者和机构对敏感文本的分析方法进行了各方面的研究。2005年，吴偶等人通过构建CNN-like词网，将语义和统计结合，对敏感文本进行识别；同年，李荣陆等人使用最大熵的模型方法对中文文本进行了分类；2013年，刘巍提出了基于特征簇的向量模型和双层过滤的分类器架构，在对文本进行了预处理、特征选择、特征加权、分类计算后对文本进行分类；2013年，jianpingZeng等研究出基于自适应主题建模的敏感信息文本内容检测框架，使用加权图挖掘敏感信息并发现敏感话题；2018年，卢刚结合语义分析和计算技术，设计并实现了基于语义依存关系的文本敏感性计算方法。
技术实现思路
专利技术目的：本专利技术提供一种面向语义敏感词句的分析方法，可快速有效地从海量文本信息中识别出语义敏感的词句，维护网络社区环境的纯净。
技术实现思路
：本专利...

【技术保护点】
1.一种面向语义敏感词句的分析方法，其特征在于，包括以下步骤：(1)初始化敏感词库，对敏感词库进行义原上的拓展；(2)准备混合敏感语料1和混合敏感语料2，对语料1进行分词，生成word2vec词向量模型；(3)对语料2中的语句进行分词，得到词语B和词语A，生成基于词义拓展的敏感向量，确定词向量模型基于语料2的最佳相关拓展系数；(4)利用步骤(2)得到的词向量模型和步骤(3)得到的最佳相关拓展系数对语料2语句分词后的词语列表进行相关词拓展；(5)生成语料2语句的句法树，确定词语依据句法关系的敏感性传递函数；(6)对词语敏感性按句法关系进行传递，得到句子的敏感向量，并将语料2得到的所有句子敏感向量标记敏感性，作为支持向量机训练数据；(7)对步骤(6)得到的训练数据，用支持向量机进行分类处理，得到敏感语句识别模型；(8)用户输入待识别语句，语句识别模型对待识别语句进行识别。

【技术特征摘要】
1.一种面向语义敏感词句的分析方法，其特征在于，包括以下步骤：(1)初始化敏感词库，对敏感词库进行义原上的拓展；(2)准备混合敏感语料1和混合敏感语料2，对语料1进行分词，生成word2vec词向量模型；(3)对语料2中的语句进行分词，得到词语B和词语A，生成基于词义拓展的敏感向量，确定词向量模型基于语料2的最佳相关拓展系数；(4)利用步骤(2)得到的词向量模型和步骤(3)得到的最佳相关拓展系数对语料2语句分词后的词语列表进行相关词拓展；(5)生成语料2语句的句法树，确定词语依据句法关系的敏感性传递函数；(6)对词语敏感性按句法关系进行传递，得到句子的敏感向量，并将语料2得到的所有句子敏感向量标记敏感性，作为支持向量机训练数据；(7)对步骤(6)得到的训练数据，用支持向量机进行分类处理，得到敏感语句识别模型；(8)用户输入待识别语句，语句识别模型对待识别语句进行识别。2.根据权利要求1所述的一种面向语义敏感词句的分析方法，其特征在于，所述步骤(1)包括以下步骤：(11)初始敏感词敏感级别标记为3级；(12)对初始敏感词进行全匹配，拓展词语敏感级别标记为2级；(13)对初始敏感词进行模糊匹配，拓展词语敏感级别标记为1级。3.根据权利要求1所述的一种面向语义敏感词句的分析方法，其特征在于，所述步骤(4)通过以下方式实现：对词语B进行词语相关性拓展...

【专利技术属性】
技术研发人员：施翔宇，柯昌博，肖甫，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人