一种通讯消息中非文明用语的识别方法及装置制造方法及图纸

技术编号:14521141 阅读:46 留言:0更新日期:2017-02-02 00:03
本发明专利技术提供的通讯消息中非文明用语的识别方法及装置,通过采集训练样本的与预设的语境属性条目对应的语境属性内容,并基于语境属性内容和训练样本的词向量提取训练样本的特征向量,以及基于提取的特征向量训练用于识别非文明用语的非文明用语识别模型,并最后根据训练好的非文明用语识别模型,确定待识别的通讯消息中是否包含非文明用语,解决了现有技术没有结合通讯消息的语义语境识别非文明用语,导致识别不准确的技术问题,通过采集训练样本的与预设的语境属性条目对应的语境属性内容以及基于训练样本的词向量训练出结合语义语境识别非文明用语的识别模型,使得根据该识别模型识别非文明用语的准确度高,适用性强。

【技术实现步骤摘要】

本专利技术涉及通信
,具体涉及一种通讯消息中非文明用语的识别方法及装置。
技术介绍
随着互联网技术的发展,互联网即时通讯产品得以广泛使用。人们借助即时通讯工具实现了简单快捷的交流。这些沟通过程以文字、图片、声音等为载体形成通讯消息,然后通过互联网由一个网络终端发送给另一个使用即时通讯工具的网络终端,给人们生活带来极大便利。但是,通讯消息作为传达人们思想、意志、情感、欲求的介质,也可能会被一些人从事不文明的网络行为,甚至一些非法分子通过通讯消息传播违法犯罪内容,比如将涉及色情、暴力等非法内容的通讯消息进行大面积的“广播”。为净化网络环境,需要一个“过滤器”对这些通讯消息进行检查,以剔除或屏蔽非文明用语信息。现有对通讯消息中的非文明用语进行识别主要采用匹配的方式,即将通讯消息与预先建立的非文明用语数据库进行匹配,从而识别出非文明用语。采用这种匹配方式识别非文明用语没有考虑通讯消息的语义或语境。例如两个关系亲昵的通讯终端之间发送或接收包含“傻瓜”的通讯信息,系统也可能将该通讯消息识别为非文明用语,并将其屏蔽或过滤,从而导致非文明用语识别不准确。故亟需提供一种结合通讯消息语义或语境的通讯消息中非文明用语的识别方法及装置。
技术实现思路
本专利技术提供了一种通讯消息中非文明用语的识别方法及装置,以解决现有技术没有结合通讯消息的语义语境识别非文明用语,导致识别不准确的技术问题。根据本专利技术的一方面,提供了一种通讯消息中非文明用语的识别方法,包括:预先设定语境属性条目;采集训练样本的与语境属性条目对应的语境属性内容,其中,训练样本包括包含非文明用语和不包含非文明用语训练样本;基于训练样本的词向量以及语境属性内容,提取训练样本的特征向量;根据特征向量训练分类器,获得非文明用语识别模型;根据非文明用语识别模型,确定待识别的通讯消息中是否包含非文明用语。进一步地,基于训练样本的词向量以及语境属性内容,提取训练样本的特征向量包括:将训练样本转换为词向量;对语境属性内容进行归一化;基于词向量与归一化后的语境属性内容,获得训练样本的特征向量。进一步地,根据非文明用语识别模型,确定待识别的通讯消息中是否包含非文明用语包括:对待识别的通讯消息进行分词,获得分词文本;采集每一个分词文本的与语境属性条目对应的语境属性内容,获得分词语境内容;结合每一个分词文本的词向量和分词语境内容,获得每一个分词文本的特征向量;将每一个分词文本的特征向量依次输入非文明用语识别模型,识别通讯消息中是否包含非文明用语。进一步地,识别通讯消息中包含非文明用语之后包括:将非文明用语替换为与之语义相同的文明用语或屏蔽非文明用语。进一步地,语境属性条目包括:上下文条目、时间条目、地点条目、天气条目、发送和接收通讯消息的终端的关系条目、发送和/或接收通讯消息的终端的性别、年龄条目中的一种或多种。根据本专利技术的另一方面,提供了一种通讯消息中非文明用语的识别装置,包括:语境属性条目预设装置,用于预先设定语境属性条目;采集装置,用于采集训练样本的与语境属性条目对应的语境属性内容,其中,训练样本包括包含非文明用语和不包含非文明用语训练样本;特征向量提取装置,用于基于训练样本的词向量以及语境属性内容,提取训练样本的特征向量;训练装置,用于根据特征向量训练分类器,获得非文明用语识别模型;识别装置,用于根据非文明用语识别模型,确定待识别的通讯消息中是否包含非文明用语。进一步地,特征向量提取装置包括:转换装置,用于将训练样本转换为词向量;归一化装置,用于对语境属性内容进行归一化;特征向量获取装置,用于基于词向量与归一化后的语境属性内容,获得训练样本的特征向量。进一步地,识别装置包括:分词装置,用于对待识别的通讯消息进行分词,获得分词文本;分词语境内容获取装置,用于采集每一个分词文本的与语境属性条目对应的语境属性内容,获得分词语境内容;分词文本特征向量获取装置,用于结合每一个分词文本的词向量和分词语境内容,获得每一个分词文本的特征向量;非文明用语识别装置,用于将每一个分词文本的特征向量依次输入非文明用语识别模型,识别通讯消息中是否包含非文明用语。进一步地,通讯消息中非文明用语的识别装置还包括:替换装置,用于将非文明用语替换为与之语义相同的文明用语或屏蔽非文明用语。本专利技术具有以下有益效果:本专利技术提供的通讯消息中非文明用语的识别方法及装置,通过采集训练样本的与预设的语境属性条目对应的语境属性内容,并基于语境属性内容和训练样本的词向量提取训练样本的特征向量,以及基于提取的特征向量训练用于识别非文明用语的非文明用语识别模型,并最后根据训练好的非文明用语识别模型,确定待识别的通讯消息中是否包含非文明用语,解决了现有技术没有结合通讯消息的语义语境识别非文明用语,导致识别不准确的技术问题,通过采集训练样本的与预设的语境属性条目对应的语境属性内容以及基于训练样本的词向量训练出结合语义语境识别非文明用语的识别模型,使得根据该识别模型识别非文明用语的准确度高,适用性强。除了上面所描述的目的、特征和优点之外,本专利技术还有其它的目的、特征和优点。下面将参照图,对本专利技术作进一步详细的说明。附图说明构建本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构建对本专利技术的不当限定。在附图中:图1是本专利技术优选实施例的通讯消息中非文明用语的识别方法流程图;图2是本专利技术优选实施例针对的一个精简实施例的通讯消息中非文明用语的识别方法流程图;图3是本专利技术优选实施例的通讯消息中非文明用语的识别装置结构框图。附图标记说明:10、语境属性条目预设装置;20、采集装置;30、特征向量提取装置;40、训练装置;50、识别装置。具体实施方式以下结合附图对本专利技术的实施例进行详细说明,但是本专利技术可以由权利要求限定和覆盖的多种不同方式实施。参照图1,本专利技术的优选实施例提供了一种通讯消息中非文明用语的识别方法,包括:步骤S101,预先设定语境属性条目;步骤S102,采集训练样本的与语境属性条目对应的语境属性内容,其中,训练样本包括包含非文明用语和不包含非文明用语训练样本;步骤S103,基于训练样本的词向量以及语境属性内容,提取训练样本的特征向量;步骤S104,根据特征向量训练分类器,获得非文明用语识别模型;步骤S105,根据非文明用语识别模型,确定待识别的通讯消息中是否包含非文明用语。本专利技术提供的通讯消息中非文明用语的识别方法,通过采集训练样本的与预设的语境属性条目对应的语境属性内容,并基于语境属性内容和训练样本的词向量提取训练样本的特征向量,以及基于提取的特征向量训练用于识别非文明用语的非文明用语识别模型,并最后根据训练好的非文明用语识别模型,确定待识别的通讯消息中是否包含非文明用语,解决了现有技术没有结合通讯消息的语义语境识别非文明用语,导致识别不准确的技术问题,通过采集训练样本的与预设的语境属性条目对应的语境属性内容以及基于训练样本的词向量训练出结合语义语境识别非文明用语的识别模型,使得根据该识别模型识别非文明用语的准确度高,适用性强。由于本实施例是在通讯消息中识别非文明用语,也即可以将该识别问题的结果分为两大类,分别为文明用语和非文明用语。基于该分类结果,本实施例将非文明用语识别问题巧本文档来自技高网...

【技术保护点】
一种通讯消息中非文明用语的识别方法,其特征在于,包括:预先设定语境属性条目;采集训练样本的与所述语境属性条目对应的语境属性内容,其中,所述训练样本包括包含非文明用语和不包含非文明用语训练样本;基于所述训练样本的词向量以及所述语境属性内容,提取所述训练样本的特征向量;根据所述特征向量训练分类器,获得非文明用语识别模型;根据所述非文明用语识别模型,确定待识别的通讯消息中是否包含非文明用语。

【技术特征摘要】
1.一种通讯消息中非文明用语的识别方法,其特征在于,包括:预先设定语境属性条目;采集训练样本的与所述语境属性条目对应的语境属性内容,其中,所述训练样本包括包含非文明用语和不包含非文明用语训练样本;基于所述训练样本的词向量以及所述语境属性内容,提取所述训练样本的特征向量;根据所述特征向量训练分类器,获得非文明用语识别模型;根据所述非文明用语识别模型,确定待识别的通讯消息中是否包含非文明用语。2.根据权利要求1所述的通讯消息中非文明用语的识别方法,其特征在于,基于所述训练样本的词向量以及所述语境属性内容,提取所述训练样本的特征向量包括:将所述训练样本转换为词向量;对所述语境属性内容进行归一化;基于所述词向量与归一化后的所述语境属性内容,获得所述训练样本的特征向量。3.根据权利要求2所述的通讯消息中非文明用语的识别方法,其特征在于,根据所述非文明用语识别模型,确定待识别的通讯消息中是否包含非文明用语包括:对待识别的通讯消息进行分词,获得分词文本;采集每一个所述分词文本的与所述语境属性条目对应的语境属性内容,获得分词语境内容;结合每一个所述分词文本的词向量和所述分词语境内容,获得每一个所述分词文本的特征向量;将每一个所述分词文本的特征向量依次输入所述非文明用语识别模型,识别所述通讯消息中是否包含非文明用语。4.根据权利要求3所述的通讯消息中非文明用语的识别方法,其特征在于,识别所述通讯消息中包含非文明用语之后包括:将所述非文明用语替换为与之语义相同的文明用语或屏蔽所述非文明用语。5.根据权利要求4所述的通讯消息中非文明用语的识别方法,其特征在于,所述语境属性条目包括:上下文条目、时间条目、地点条目、天气条目、发送和接收通讯消息的终端的关系条目、发送和/或接收通...

【专利技术属性】
技术研发人员:陈包容
申请(专利权)人:长沙军鸽软件有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1