文本提取方法、敏感词判定方法、装置和服务器制造方法及图纸

技术编号:12017618 阅读:159 留言:0更新日期:2015-09-09 13:51
本发明专利技术公开了一种文本提取方法、敏感词判定方法、装置和服务器,属于互联网技术领域。所述文本提取方法包括:对于文本集合中的每一条文本信息,提取文本信息中的关键词;对于提取到的每一个关键词,通过至少两个预定哈希函数中的每一个哈希函数分别计算关键词在预定阵列中所对应的位置;检测关键词在预定阵列中所对应的位置处存储的内容是否都是预定标识;若检测结果为都是预定标识,则判定关键词为敏感词;提取文本集合中不包含敏感词的文本信息;达到了当通过多个哈希函数计算得到的关键词在预定阵列中所对应的位置处存储的内容都是预定标识时,即可判定关键词是敏感词,提高了文本信息的提取效率的效果。

【技术实现步骤摘要】

本专利技术实施例涉及互联网
,特别涉及一种文本提取方法、敏感词判定方法、装置和服务器
技术介绍
随着互联网技术的发展,用户可以发布文本信息,并且为了向其它用户展示用户发布的各条文本信息中价值较高的文本信息,服务器通常需要提取多条文本信息中的一部分文本信息,进而向其它用户展示提取到的文本信息。目前,常见的一种文本提取方法包括:服务器获取目标用户最近一次发布的文本信息;提取文本信息中的关键词;对于提取得到的每个关键词,通过预定哈希函数计算关键词的哈希值;检测计算得到的哈希值在哈希表中所对应的存储空间中存储的内容是否是该关键词;若检测结果为存储的内容是该关键词,则确定该关键词是敏感词;若检测结果为存储的内容为空,则确定该关键词不是敏感词;当服务器检测到文本信息中有一个关键词是敏感词时,服务器抛弃本条文本信息,并继续对历史发布的其它文本信息进行检测,直至提取到目标文本信息,目标文本信息中的各个关键词都不是敏感词。其中,哈希表是指通过上述哈希函数对敏感词库中的各个敏感词进行哈希计算之后,将敏感词存储在计算得到的哈希值所对应的位置后建立的表格。在实现本专利技术实施例的过程中,专利技术人发现
技术介绍
至少存在如下问题:由于在哈希计算时会存在哈希冲突,所以当服务器对某一关键词进行检测时,服务器可能会检测到计算得到某一关键词的哈希值所对应的存储空间不为空且存储的内容也不是关键词的情况,此时服务器就需要处理哈希冲突之后才能最终判断该关键词是否是敏感词,所以服务器提取文本信息的提取效率较低。
技术实现思路
为了解决
技术介绍
中服务器提取文本信息时的提取效率较低的问题,本发明实施例提供了一种文本提取方法、敏感词判定方法、装置和服务器。所述技术方案如下:第一方面,提供了一种文本提取方法,所述方法包括:对于文本集合中的每一条文本信息,提取文本信息中的关键词;对于提取到的每一个关键词,通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置,所述预定阵列为目标位置处存储有预定标识的阵列,所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后,计算得到的哈希值在所述预定阵列中所对应的位置;检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所述预定标识;若检测结果为都是所述预定标识,则判定所述关键词为敏感词;提取所述文本集合中不包含敏感词的文本信息。第二方面,提供了一种敏感词判定方法,所述方法包括:对于关键词库中的每一个关键词,通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置,所述预定阵列为目标位置处存储有预定标识的阵列,所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后,计算得到的哈希值在所述预定阵列中所对应的位置;检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所述预定标识;若检测结果为都是所述预定标识,则判定所述关键词为敏感词。第三方面,提供了一种文本提取装置,所述装置包括:关键词提取模块,用于对于文本集合中的每一条文本信息,提取文本信息中的关键词;位置计算模块,用于对于所述关键词提取模块提取到的每一个关键词,通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置,所述预定阵列为目标位置处存储有预定标识的阵列,所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后,计算得到的哈希值在所述预定阵列中所对应的位置;内容检测模块,用于检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所述预定标识;敏感词判定模块,用于在所述内容检测模块的检测结果为都是所述预定标识时,判定所述关键词为敏感词;文本提取模块,用于提取所述文本集合中不包含敏感词的文本信息。第四方面,提供了一种敏感词判定装置,所述装置包括:位置计算模块,用于对于关键词库中的每一个关键词,通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置,所述预定阵列为目标位置处存储有预定标识的阵列,所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后,计算得到的哈希值在所述预定阵列中所对应的位置;内容检测模块,用于检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所述预定标识;敏感词判定模块,用于在所述内容检测模块的检测结果为都是所述预定标识时,判定所述关键词为敏感词。第五方面,提供了一种服务器,所述服务器包括第三方面所述的文本提取装置。第六方面,提供了一种服务器,所述服务器包括第四方面所述的敏感词判定装置。本专利技术实施例提供的技术方案的有益效果是:通过提取文本集合中的每个文本信息中的关键词,对于每一个关键词,通过至少两个哈希函数中的每一个哈希函数分别计算每一个关键词在预定阵列中所对应的位置,进而检测关键词在预定阵列中所对应的位置处存储的内容是否都是预定标识,当检测结果为都是预定标识时,判定关键词为敏感词,进而提取文本集合中不包含敏感词的文本信息;其中,预定阵列为目标位置处存储有预定标识的阵列,目标位置为通过至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后,计算得到的哈希值在预定阵列中所对应的位置;解决了
技术介绍
中服务器提取文本信息的提取效率较低的问题;达到了当通过多个哈希函数计算得到的关键词在预定阵列中所对应的位置处存储的内容都是预定标识时,即可判定关键词是敏感词,提高了文本信息的提取效率的效果。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的文本提取方法的方法流程图;图2是本专利技术另一个实施例提供的文本提取方法的方法流程图;图3是本专利技术再一个实施例提供的文本提取方法的方法流程图;图4是本专利技术一个实施例提供的敏感词判定方法的方法流程图;图5是本专利技术一个实施例提供的文本提取装置的结构方框图;图6是本专利技术另一实施例提供本文档来自技高网
...

【技术保护点】
一种文本提取方法,其特征在于,所述方法包括:对于文本集合中的每一条文本信息,提取文本信息中的关键词;对于提取到的每一个关键词,通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置,所述预定阵列为目标位置处存储有预定标识的阵列,所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后,计算得到的哈希值在所述预定阵列中所对应的位置;检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所述预定标识;若检测结果为都是所述预定标识,则判定所述关键词为敏感词;提取所述文本集合中不包含敏感词的文本信息。

【技术特征摘要】
1.一种文本提取方法,其特征在于,所述方法包括:
对于文本集合中的每一条文本信息,提取文本信息中的关键词;
对于提取到的每一个关键词,通过至少两个预定哈希函数中的每一个哈希
函数分别计算所述关键词在预定阵列中所对应的位置,所述预定阵列为目标位
置处存储有预定标识的阵列,所述目标位置为通过所述至少两个预定哈希函数
中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后,计算得到的
哈希值在所述预定阵列中所对应的位置;
检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所
述预定标识;
若检测结果为都是所述预定标识,则判定所述关键词为敏感词;
提取所述文本集合中不包含敏感词的文本信息。
2.根据权利要求1所述的方法,其特征在于,若提取得到的所述文本信息
有两条或者两条以上,所述提取所述文本集合中不包含敏感词的文本信息之后,
所述方法还包括:
根据预定评分项计算所述两条或者两条以上的文本信息中的每一条文本信
息的得分,所述预定评分项包括文本信息的特征信息、文本信息的信息量和文
本信息的活跃度中的至少一种;
根据所述两条或者两条以上的文本信息的得分对所述两条或者两条以上的
文本信息进行排名;
选择所述两条或者两条以上的文本信息中排名在前n位的文本信息,所述n
为正整数。
3.根据权利要求2所述的方法,其特征在于,所述根据预定评分项计算所
述两条或者两条以上的文本信息中的每一条文本信息的得分,包括:
若所述预定评分项包括文本信息的特征信息,则获取每一条文本信息的特
征信息,所述特征信息包括文本信息的内容、文本信息中的链接地址、文本信
息被转播的次数、文本信息被评论的次数以及文本信息被浏览的次数中的至少

\t一种,根据所述特征信息计算每一条文本信息的第一得分;
若所述预定评分项包括文本信息的信息量,则计算每一条文本信息中的每
一个关键词的权值,计算每一条文本信息中所有关键词的权值之和,根据第一
关联关系计算每一条文本信息的第二得分,所述第一关联关系为文本信息中的
所有关键词的权值之和与所述第二得分呈正相关关系;
若所述预定评分项包括文本信息的活跃度,则获取每一条文本信息的活跃
参数,所述活跃参数包括文本信息被转播的次数、文本信息被评论的次数以及
文本信息被浏览的次数中的至少一种,根据所述活跃参数计算每一条文本信息
的第三得分;
根据所述第一得分、所述第二得分和所述第三得分中的至少一种以及各自
对应的权重计算所述两条或者两条以上的文本信息中的每一条文本信息的得
分。
4.根据权利要求3所述的方法,其特征在于,所述计算每一条文本信息中
的每一个关键词的权值,包括:
设关键词i的权值为Wi,j、词频为TFi,j以及逆文档频率为IDFi,j;
所述关键词i的权值为:
Wi,j=TFi,j*IDFi,j;
其中,所述i和j均为正整数。
5.一种敏感词判定方法,其特征在于,所述方法包括:
对于关键词库中的每一个关键词,通过至少两个预定哈希函数中的每一个
哈希函数分别计算所述关键词在预定阵列中所对应的位置,所述预定阵列为目
标位置处存储有预定标识的阵列,所述目标位置为通过所述至少两个预定哈希
函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后,计算得
到的哈希值在所述预定阵列中所对应的位置;
检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所
述预定标识;
若检测结果为都是所述预定标识,则判定所述关键词为敏感词。
6.一种文本提取装置,其特征在于,所述装置包括:
关键词提取模块,用于对于文本集合中的每一条文本信息,提取文本信息
中的关键词;
位置计算模块,用于对于所述关键词提取模块提取到的每一个关...

【专利技术属性】
技术研发人员:李炳
申请(专利权)人:腾讯科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1