【技术实现步骤摘要】
本专利技术实施例涉及互联网
,特别涉及一种文本提取方法、敏感词判定方法、装置和服务器。
技术介绍
随着互联网技术的发展,用户可以发布文本信息,并且为了向其它用户展示用户发布的各条文本信息中价值较高的文本信息,服务器通常需要提取多条文本信息中的一部分文本信息,进而向其它用户展示提取到的文本信息。目前,常见的一种文本提取方法包括:服务器获取目标用户最近一次发布的文本信息;提取文本信息中的关键词;对于提取得到的每个关键词,通过预定哈希函数计算关键词的哈希值;检测计算得到的哈希值在哈希表中所对应的存储空间中存储的内容是否是该关键词;若检测结果为存储的内容是该关键词,则确定该关键词是敏感词;若检测结果为存储的内容为空,则确定该关键词不是敏感词;当服务器检测到文本信息中有一个关键词是敏感词时,服务器抛弃本条文本信息,并继续对历史发布的其它文本信息进行检测,直至提取到目标文本信息,目标文本信息中的各个关键词都不是敏感词。其中,哈希表是指通过上述哈希函数对敏感词库中的各个敏感词进行哈希计算之后,将敏感词存储在计算得到的哈希值所对应的位置后建立的表格。在实现本专利技术实施例的过程中,专利技术人发现
技术介绍
至少存在如下问题:由于在哈希计算时会存在哈希冲突,所以当服务器对某一关键词进行检测时,服务器可能会检测到计算得到某一关键词的哈希值所对应的存储空间不为空且存储的内容也不是关键词的情况,此时服务器就需要处理哈希 ...
【技术保护点】
一种文本提取方法,其特征在于,所述方法包括:对于文本集合中的每一条文本信息,提取文本信息中的关键词;对于提取到的每一个关键词,通过至少两个预定哈希函数中的每一个哈希函数分别计算所述关键词在预定阵列中所对应的位置,所述预定阵列为目标位置处存储有预定标识的阵列,所述目标位置为通过所述至少两个预定哈希函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后,计算得到的哈希值在所述预定阵列中所对应的位置;检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所述预定标识;若检测结果为都是所述预定标识,则判定所述关键词为敏感词;提取所述文本集合中不包含敏感词的文本信息。
【技术特征摘要】
1.一种文本提取方法,其特征在于,所述方法包括:
对于文本集合中的每一条文本信息,提取文本信息中的关键词;
对于提取到的每一个关键词,通过至少两个预定哈希函数中的每一个哈希
函数分别计算所述关键词在预定阵列中所对应的位置,所述预定阵列为目标位
置处存储有预定标识的阵列,所述目标位置为通过所述至少两个预定哈希函数
中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后,计算得到的
哈希值在所述预定阵列中所对应的位置;
检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所
述预定标识;
若检测结果为都是所述预定标识,则判定所述关键词为敏感词;
提取所述文本集合中不包含敏感词的文本信息。
2.根据权利要求1所述的方法,其特征在于,若提取得到的所述文本信息
有两条或者两条以上,所述提取所述文本集合中不包含敏感词的文本信息之后,
所述方法还包括:
根据预定评分项计算所述两条或者两条以上的文本信息中的每一条文本信
息的得分,所述预定评分项包括文本信息的特征信息、文本信息的信息量和文
本信息的活跃度中的至少一种;
根据所述两条或者两条以上的文本信息的得分对所述两条或者两条以上的
文本信息进行排名;
选择所述两条或者两条以上的文本信息中排名在前n位的文本信息,所述n
为正整数。
3.根据权利要求2所述的方法,其特征在于,所述根据预定评分项计算所
述两条或者两条以上的文本信息中的每一条文本信息的得分,包括:
若所述预定评分项包括文本信息的特征信息,则获取每一条文本信息的特
征信息,所述特征信息包括文本信息的内容、文本信息中的链接地址、文本信
息被转播的次数、文本信息被评论的次数以及文本信息被浏览的次数中的至少
\t一种,根据所述特征信息计算每一条文本信息的第一得分;
若所述预定评分项包括文本信息的信息量,则计算每一条文本信息中的每
一个关键词的权值,计算每一条文本信息中所有关键词的权值之和,根据第一
关联关系计算每一条文本信息的第二得分,所述第一关联关系为文本信息中的
所有关键词的权值之和与所述第二得分呈正相关关系;
若所述预定评分项包括文本信息的活跃度,则获取每一条文本信息的活跃
参数,所述活跃参数包括文本信息被转播的次数、文本信息被评论的次数以及
文本信息被浏览的次数中的至少一种,根据所述活跃参数计算每一条文本信息
的第三得分;
根据所述第一得分、所述第二得分和所述第三得分中的至少一种以及各自
对应的权重计算所述两条或者两条以上的文本信息中的每一条文本信息的得
分。
4.根据权利要求3所述的方法,其特征在于,所述计算每一条文本信息中
的每一个关键词的权值,包括:
设关键词i的权值为Wi,j、词频为TFi,j以及逆文档频率为IDFi,j;
所述关键词i的权值为:
Wi,j=TFi,j*IDFi,j;
其中,所述i和j均为正整数。
5.一种敏感词判定方法,其特征在于,所述方法包括:
对于关键词库中的每一个关键词,通过至少两个预定哈希函数中的每一个
哈希函数分别计算所述关键词在预定阵列中所对应的位置,所述预定阵列为目
标位置处存储有预定标识的阵列,所述目标位置为通过所述至少两个预定哈希
函数中的每一个哈希函数对敏感词库中的每个敏感词进行哈希计算后,计算得
到的哈希值在所述预定阵列中所对应的位置;
检测所述关键词在所述预定阵列中所对应的位置处存储的内容是否都是所
述预定标识;
若检测结果为都是所述预定标识,则判定所述关键词为敏感词。
6.一种文本提取装置,其特征在于,所述装置包括:
关键词提取模块,用于对于文本集合中的每一条文本信息,提取文本信息
中的关键词;
位置计算模块,用于对于所述关键词提取模块提取到的每一个关...
【专利技术属性】
技术研发人员:李炳,
申请(专利权)人:腾讯科技北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。