一种网络论坛消息的内容相似度测量方法及系统技术方案

技术编号:18526076 阅读:97 留言:0更新日期:2018-07-25 12:49
本发明专利技术公开一种网络论坛消息的内容相似度测量方法及系统。该方法根据所述测试状态向量

【技术实现步骤摘要】
一种网络论坛消息的内容相似度测量方法及系统
本专利技术涉及网络舆情管控领域,特别是涉及一种网络论坛消息的内容相似度测量方法及系统。
技术介绍
现有技术中的网络论坛消息中的文本内容相似度测量的方法,主要的技术思路是建立文本的向量空间模型描述文本的内容特征,通过计算两个文本特征向量之间的余弦距离来测量内容的相似度。现有技术中通过计算两个文本特征向量之间的余弦距离来测量内容的相似度的方法,主要特点是该余弦距离具有对称性,例如,具有文本消息A和文本消息B两条内容,文本消息A的内容为CA,文本消息B的内容为CB,当以文本消息A为基准时,文本消息B与文本消息A之间的内容差异为DiffAB=CB-CB∩CA,当以文本消息B为基准时,文本消息A与文本消息B之间的内容差异为DiffBA=CA-CA∩CB,所以,DiffBA≠DiffAB。所以,根据余弦距离测量两个文本之间内容的相似度,由于余弦距离具有对称性,忽略了基准消息选择的影响,实际的测量结果应该是非对称的,测量的结果不准确,不符合网络管控的需求。
技术实现思路
本专利技术的目的是提供一种能够提高测量准确度的网络论坛消息的内容相似度测量方法及系统。为实现上述目的,本专利技术提供了如下方案:一种网络论坛消息的内容相似度测量方法,所述测量方法包括:获取基准文本消息d和网络舆情管控的具体需求参数;根据所述基准文本消息d和所述网络舆情管控的具体需求参数,建立用户词典Dictionary={t1,t2,...,tM},其中,M为所述用户词典的维数,tj表示所述基准文本消息d中的第j个关键中文实词,j的取值为1,2,...,M;分别以所述关键中文实词tj为关键词检索网络论坛消息,获得测试文本消息集合D={d1,d2,...,dN},其中,N表示所述测试文本消息的条数,dk表示第k条测试文本消息,k的取值为1,2,3,...,N;统计所述关键中文实词在所述基准文本消息d中出现的频率获得基准关键词频率向量根据所述基准关键词频率向量计算所述基准文本消息d的状态向量,获得基准状态向量所述基准状态向量用于表征所述基准文本消息d的文本特征;其中,sl表示所述基准文本消息d的第l个文本特征,l的取值为1,2,...,M,i的取值为1,2,...,M;统计所述关键中文实词在所述测试文本消息dk中出现的频率获得测试关键词频率向量根据所述测试关键词频率向量计算所述测试文本消息dk的状态向量,获得测试状态向量所述测试状态向量用于表征所述测试文本消息dk的文本特征;其中,表示第k条所述测试文本消息dk的第l个文本特征,l的取值为1,2,...,M;根据所述测试状态向量和所述基准状态向量计算所述测试文本消息dk与所述基准文本消息d之间的内容的相似度。可选的,所述根据所述测试状态向量和所述基准状态向量计算所述测试文本消息dk与所述基准文本消息d之间的内容的相似度具体包括:根据所述测试状态向量和所述基准状态向量计算所述测试文本消息dk与所述基准文本消息d之间的内容差异度根据所述内容差异度计算所述测试文本消息dk与所述基准文本消息d之间的内容相似度simk=1/divergencek。可选的,在所述根据所述测试状态向量和所述基准状态向量计算所述测试文本消息dk与所述基准文本消息d之间的内容的相似度之后,所述测量方法还包括:判断所述内容相似度是否小于相似度阈值,如果是,所述测试文本消息dk与所述基准文本消息d的内容不相似;否则,所述测试文本消息dk与所述基准文本消息d的内容相似。为了实现上述目的,本专利技术还提供了如下方案:一种网络论坛消息的内容相似度测量系统,所述测量系统包括:获取模块,用于获取基准文本消息d和网络舆情管控的具体需求参数;词典建立模块与所述获取模块连接,所述词典建立模块用于根据所述基准文本消息d和所述网络舆情管控的具体需求参数,建立用户词典Dictionary={t1,t2,...,tM},其中,M为所述用户词典的维数,tj表示所述基准文本消息d中的第j个关键中文实词,j的取值为1,2,...,M;检索模块与所述词典建立模块连接,所述检索模块用于分别以所述关键中文实词tj为关键词检索网络论坛消息,获得测试文本消息集合D={d1,d2,...,dN},其中,N表示所述测试文本消息的条数,dk表示第k条测试文本消息,k的取值为1,2,3,...,N;基准统计模块分别与所述获取模块和所述词典建立模块连接,所述基准统计模块用于统计所述关键中文实词在所述基准文本消息d中出现的频率获得基准关键词频率向量基准状态向量计算模块与所述基准统计模块连接,所述基准状态向量计算模块用于根据所述基准关键词频率向量计算所述基准文本消息d的状态向量,获得基准状态向量所述基准状态向量用于表征所述基准文本消息d的文本特征;其中,sl表示所述基准文本消息d的第l个文本特征,l的取值为1,2,...,M,i的取值为1,2,...,M;测试统计模块与所述检索模块连接,所述测试统计模块用于统计所述关键中文实词在所述测试文本消息dk中出现的频率获得测试关键词频率向量测试状态向量计算模块与所述测试统计模块连接,测试状态向量计算模块用于根据所述测试关键词频率向量计算所述测试文本消息dk的状态向量,获得测试状态向量所述测试状态向量用于表征所述测试文本消息dk的文本特征;其中,表示第k条所述测试文本消息dk的第l个文本特征,l的取值为1,2,...,M;相似度计算模块分别与所述测试状态向量计算模块和所述基准状态向量计算模块连接,所述相似度计算模块用于根据所述测试状态向量和所述基准状态向量计算所述测试文本消息dk与所述基准文本消息d之间的内容的相似度。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术提供了一种能够提高测量准确度的网络论坛消息的内容相似度测量方法及系统,根据所述测试状态向量和所述基准状态向量S={s1,s2,...,sM}计算所述测试文本消息dk与所述基准文本消息d之间的内容的相似度,所述测试状态向量和所述基准状态向量S={s1,s2,...,sM}间内容的相似度是非对称的,即两个文本消息之间的内容相似度的值不仅与两个文本消息的语义特征相关,而且与基准消息的选择有关,更符合网络论坛敏感信息管控需求,提高了网络论坛消息的内容相似度测量的准确度。采用状态向量作为相似度指标,所述相似度指标是独立于文本消息集合特征的,具有独立性,使得相似度测量更加方便,尤其是针对大数据文本消息内容相似度的测量,由于规避了测试样本集合的特征提取,提高了测量的效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的网络论坛消息的内容相似度测量方法的流程图;图2为本专利技术提供的根据所述测试状态向量和所述基准状态向量计算所述测试文本消息dk与所述基准文本消息d之间的内容的相似度的流程图;图3为本专利技术提供的网络论坛消息的内容相似度测量系统的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,本文档来自技高网...

【技术保护点】
1.一种网络论坛消息的内容相似度测量方法,其特征在于,所述测量方法包括:获取基准文本消息d和网络舆情管控的具体需求参数;根据所述基准文本消息d和所述网络舆情管控的具体需求参数,建立用户词典Dictionary={t1,t2,...,tM},其中,M为所述用户词典的维数,tj表示所述基准文本消息d中的第j个关键中文实词,j的取值为1,2,...,M;分别以所述关键中文实词tj为关键词检索网络论坛消息,获得测试文本消息集合D={d1,d2,...,dN},其中,N表示所述测试文本消息的条数,dk表示第k条测试文本消息,k的取值为1,2,3,...,N;统计所述关键中文实词在所述基准文本消息d中出现的频率

【技术特征摘要】
1.一种网络论坛消息的内容相似度测量方法,其特征在于,所述测量方法包括:获取基准文本消息d和网络舆情管控的具体需求参数;根据所述基准文本消息d和所述网络舆情管控的具体需求参数,建立用户词典Dictionary={t1,t2,...,tM},其中,M为所述用户词典的维数,tj表示所述基准文本消息d中的第j个关键中文实词,j的取值为1,2,...,M;分别以所述关键中文实词tj为关键词检索网络论坛消息,获得测试文本消息集合D={d1,d2,...,dN},其中,N表示所述测试文本消息的条数,dk表示第k条测试文本消息,k的取值为1,2,3,...,N;统计所述关键中文实词在所述基准文本消息d中出现的频率获得基准关键词频率向量根据所述基准关键词频率向量计算所述基准文本消息d的状态向量,获得基准状态向量所述基准状态向量用于表征所述基准文本消息d的文本特征;其中,sl表示所述基准文本消息d的第l个文本特征,l的取值为1,2,...,M,i的取值为1,2,...,M;统计所述关键中文实词在所述测试文本消息dk中出现的频率获得测试关键词频率向量根据所述测试关键词频率向量计算所述测试文本消息dk的状态向量,获得测试状态向量所述测试状态向量Sk用于表征所述测试文本消息dk的文本特征;其中,表示第k条所述测试文本消息dk的第l个文本特征,l的取值为1,2,...,M;根据所述测试状态向量和所述基准状态向量计算所述测试文本消息dk与所述基准文本消息d之间的内容的相似度。2.根据权利要求1所述的一种网络论坛消息的内容相似度测量方法,其特征在于,所述根据所述测试状态向量和所述基准状态向量计算所述测试文本消息dk与所述基准文本消息d之间的内容的相似度具体包括:根据所述测试状态向量和所述基准状态向量计算所述测试文本消息dk与所述基准文本消息d之间的内容差异度根据所述内容差异度计算所述测试文本消息dk与所述基准文本消息d之间的内容相似度simk=1/divergencek。3.根据权利要求1所述的一种网络论坛消息的内容相似度测量方法,其特征在于,在所述根据所述测试状态向量和所述基准状态向量计算所述测试文本消息dk与所述基准文本消息d之间的内容的相似度之后,所述测量方法还包括:判断所述内容...

【专利技术属性】
技术研发人员:姚俊萍李晓军沈涛李新社
申请(专利权)人:中国人民解放军火箭军工程大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1