一种面向语义敏感词句的分析方法技术

技术编号:22055299 阅读:34 留言:0更新日期:2019-09-07 15:16
本发明专利技术公开一种面向语义敏感词句的分析方法,首先,对敏感词库进行义原上的拓展;准备混合敏感语料1和混合敏感语料语料2,并对语料1进行分词,生成word2vec词向量模型;确定词向量模型基于语料2的最佳相关拓展系数;词向量模型和最佳相关拓展系数对语料2语句分词后的词语列表进行相关词拓展;确定词语依据句法关系的敏感性传递函数;对词语敏感性按句法关系进行传递,得到句子的敏感向量,并将语料2得到的所有句子敏感向量标记敏感性,作为支持向量机训练数据;用支持向量机进行分类处理,得到敏感语句识别模型。采用本发明专利技术可快速有效地从海量文本信息中识别出语义敏感的词句,能维护网络社区环境的纯净。

A Semantic Sensitive Word and Sentence Oriented Analysis Method

【技术实现步骤摘要】
一种面向语义敏感词句的分析方法
本专利技术属于文本分类领域,具体涉及一种面向语义敏感词句的分析方法。
技术介绍
随着网络的迅速发展,网络信息成了人们生活中必不可少的一部分,不论是在什么地方,都有人在上网,通过网络获取人们需要的信息,比如新闻、娱乐资讯、视频、评论等,互联网成了人们信息交换的媒介。与此同时,生活中常见的麻烦,也会在这个过程当中被带到互联网上,敏感语句(包括色情、暴力、反动等言论)就是其中的一部分。敏感语句在互联网上的传播会对广大网民尤其是青少年带来一系列的负面影响,不利于良好社会风气的构建。因此,如何从海量的文本信息中识别出语义敏感的词句就是一个重要的课题,面向语义敏感词句的分析方法是一个重要的研究内容。敏感文本的分析方法多种多样,已经有很多学者和机构对敏感文本的分析方法进行了各方面的研究。2005年,吴偶等人通过构建CNN-like词网,将语义和统计结合,对敏感文本进行识别;同年,李荣陆等人使用最大熵的模型方法对中文文本进行了分类;2013年,刘巍提出了基于特征簇的向量模型和双层过滤的分类器架构,在对文本进行了预处理、特征选择、特征加权、分类计算后对文本进行分类;2013年,jianpingZeng等研究出基于自适应主题建模的敏感信息文本内容检测框架,使用加权图挖掘敏感信息并发现敏感话题;2018年,卢刚结合语义分析和计算技术,设计并实现了基于语义依存关系的文本敏感性计算方法。
技术实现思路
专利技术目的:本专利技术提供一种面向语义敏感词句的分析方法,可快速有效地从海量文本信息中识别出语义敏感的词句,维护网络社区环境的纯净。
技术实现思路
:本专利技术所述的一种面向语义敏感词句的分析方法,包括以下步骤:(1)初始化敏感词库,对敏感词库进行义原上的拓展;(2)准备混合敏感语料1和混合敏感语料2,对语料1进行分词,生成word2vec词向量模型;(3)对语料2中的语句进行分词,得到词语B和词语A,生成基于词义拓展的敏感向量,确定词向量模型基于语料2的最佳相关拓展系数;(4)利用步骤(2)得到的词向量模型和步骤(3)得到的最佳相关拓展系数对语料2语句分词后的词语列表进行相关词拓展;(5)生成语料2语句的句法树,确定词语依据句法关系的敏感性传递函数;(6)对词语敏感性按句法关系进行传递,得到句子的敏感向量,并将语料2得到的所有句子敏感向量标记敏感性,作为支持向量机训练数据;(7)对步骤(6)得到的训练数据,用支持向量机进行分类处理,得到敏感语句识别模型;(8)用户输入待识别语句,语句识别模型对待识别语句进行识别。所述步骤(1)包括以下步骤:(11)初始敏感词敏感级别标记为3级;(12)对初始敏感词进行全匹配,拓展词语敏感级别标记为2级;(13)对初始敏感词进行模糊匹配,拓展词语敏感级别标记为1级。所述步骤(4)通过以下方式实现:对词语B进行词语相关性拓展后,得到的词语敏感级别senB为:senB:=max(senB,senrelatedA)其中,senrelatedA是词语B由相关词语A关联得到的敏感级别,定义如下:其中senA∈{0,1,2,3},词语A和词语B的相关系数为κ,κ∈(0,1),整体做四舍五入处理,以符合我们对于敏感级别的定义。步骤(5)所述敏感性传递函数为:SenA:=f(SenA,...Senchildren)其中,child是词语A在句法树上的孩子节点,...Senchildren是所有孩子节点敏感性的展开。其中敏感性传递函数基于不同的句法关系定义如下:句法关系为并列关系的两个词语,其敏感性传递函数为:f(senparent,senchild)=max(senparent,senchild)句法关系为左附加关系或者右附加关系的两个词语,其敏感性传递函数为:f(senparent,senchild)=senparent+senchild主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中关系、动补结构等句法结构的敏感性传递函数的为系数相加的形式,即f(senparent,senchild)=senparent+λsenchild。有益效果:与现有技术相比,本专利技术的有益效果:依据句法结构,充分结合词语上下文信息,放大敏感语句中的词语敏感性,使敏感语句识别更快速、准确。经第一阶段敏感词典拓展、敏感语句分析、敏感语句分析策略对比分析以及第二阶段获取词语敏感性传递参数的最优值方法,生成面向语义敏感词句的识别模型,达到识别敏感词句的目的。附图说明图1是本专利技术流程图;图2是基于词语相关性的敏感语句分析策略结果图。具体实施方式下面结合附图对本专利技术作进一步详细说明,如图1所示,本专利技术包括以下步骤:1、初始化敏感词库,对敏感词库进行义原上的拓展有限的敏感词典对于敏感语句的分析是不充分的,因此选择了知网开源的HowNet词典进行拓展。HowNet词典由223767个以中英文词和词组所代表的概念构成,为每个概念标注了基于义原的定义以及词性、情感倾向、例句等信息,其中,中文词、英文词、义原定义能充分表示该词汇的词义,是敏感词典拓展的关键项。拓展方法有两种,一种为词语全匹配,一种为词语模糊匹配。敏感词拓展的具体步骤为:(1)从原生敏感词典中取出一个敏感词汇,记为SensitiveWord;如果是完全匹配转到(2),如果是模糊匹配转到(3)。(2)在HowNet词典中寻找出中文词或者英文词与SensitiveWord完全一样的词汇,并且其情感为负面情感,将其加入到SensitiveWordExpendList中,转到(5)。(3)在HowNet词典中寻找出中文词或者英文词与SensitiveWord部分匹配的负面情感词汇,将其加入到敏感词典中,敏感级别标记为1级,转到(4)。(4)在HowNet词典中寻找出SensitiveWord是其义原定义中的一部分的负面情感词汇,将其加入到SensitiveWordExpendList中,转到(5)。(5)遍历SensitiveWordExpendList中的词汇,将其义原定义中的词汇取出,加入到SensitiveWordExpendAtomList中,转到(6)。(6)遍历SensitiveWordExpendAtomList中的义原,在HowNet词典中寻找词汇X,X的中文词或者英文词或者义原中的某个词和该义原完全匹配,如果词汇X的情感为负面情感,则将其加入到敏感词典中,如果是完全匹配,则敏感级别标记为2级,如果是模糊匹配,则敏感级别标记为1级。利用OpenHowNet-API的核心数据HowNet.txt对包含9597条词汇的敏感词典进行拓展后,得到689条二级词汇,12192条一级词汇,拓展比例约134%,极大地丰富了敏感词库的内容。2、准备混合敏感语料1和混合敏感语料语料2,并对语料1进行分词,生成word2vec词向量模型;对语料2中的语句进行分词,生成基于词义拓展的敏感向量,确定词向量模型基于语料2的最佳相关拓展系数;词向量模型和最佳相关拓展系数对语料2语句分词后的词语列表进行相关词拓展基于感知机的分词模型的训练数据来自2014年人民日报切分语料,增加了少量98年人民日报中独有的词语,并加入了拓展后的敏感词典中的词语;基于神经网络的依存句法分析器的模型训本文档来自技高网...

【技术保护点】
1.一种面向语义敏感词句的分析方法,其特征在于,包括以下步骤:(1)初始化敏感词库,对敏感词库进行义原上的拓展;(2)准备混合敏感语料1和混合敏感语料2,对语料1进行分词,生成word2vec词向量模型;(3)对语料2中的语句进行分词,得到词语B和词语A,生成基于词义拓展的敏感向量,确定词向量模型基于语料2的最佳相关拓展系数;(4)利用步骤(2)得到的词向量模型和步骤(3)得到的最佳相关拓展系数对语料2语句分词后的词语列表进行相关词拓展;(5)生成语料2语句的句法树,确定词语依据句法关系的敏感性传递函数;(6)对词语敏感性按句法关系进行传递,得到句子的敏感向量,并将语料2得到的所有句子敏感向量标记敏感性,作为支持向量机训练数据;(7)对步骤(6)得到的训练数据,用支持向量机进行分类处理,得到敏感语句识别模型;(8)用户输入待识别语句,语句识别模型对待识别语句进行识别。

【技术特征摘要】
1.一种面向语义敏感词句的分析方法,其特征在于,包括以下步骤:(1)初始化敏感词库,对敏感词库进行义原上的拓展;(2)准备混合敏感语料1和混合敏感语料2,对语料1进行分词,生成word2vec词向量模型;(3)对语料2中的语句进行分词,得到词语B和词语A,生成基于词义拓展的敏感向量,确定词向量模型基于语料2的最佳相关拓展系数;(4)利用步骤(2)得到的词向量模型和步骤(3)得到的最佳相关拓展系数对语料2语句分词后的词语列表进行相关词拓展;(5)生成语料2语句的句法树,确定词语依据句法关系的敏感性传递函数;(6)对词语敏感性按句法关系进行传递,得到句子的敏感向量,并将语料2得到的所有句子敏感向量标记敏感性,作为支持向量机训练数据;(7)对步骤(6)得到的训练数据,用支持向量机进行分类处理,得到敏感语句识别模型;(8)用户输入待识别语句,语句识别模型对待识别语句进行识别。2.根据权利要求1所述的一种面向语义敏感词句的分析方法,其特征在于,所述步骤(1)包括以下步骤:(11)初始敏感词敏感级别标记为3级;(12)对初始敏感词进行全匹配,拓展词语敏感级别标记为2级;(13)对初始敏感词进行模糊匹配,拓展词语敏感级别标记为1级。3.根据权利要求1所述的一种面向语义敏感词句的分析方法,其特征在于,所述步骤(4)通过以下方式实现:对词语B进行词语相关性拓展...

【专利技术属性】
技术研发人员:施翔宇柯昌博肖甫
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1