【技术实现步骤摘要】
社交网络中领域的特征词库迭代更新方法和装置
本专利技术涉及互联网
,尤其涉及一种社交网络中领域的特征词库迭代更新 方法和装置。
技术介绍
随着互联网技术的发展,通过社交网络来进行信息的分享、传播以及获取,已成为 广大网络用户的主要社交方式之一。例如,通过微博或Twitter (推特)等社交网络,用户 可以发布自己的最新动态等内容,也可以评论、收藏或转发其他用户发布的内容。 在实际应用中,通过对微博等社交网络的观察和分析发现,在社交网络中分布着 大大小小的不同领域的社交圈。而对于社交网络中不同的领域,运营人员通常会为每个领 域建立一个特征词库,以对社交网络中存在的大量的用户进行领域划分或者对社交网络中 用户发布的文本内容进行分类等。其中,领域的特征词库中存储有能够表征该领域的文本 内容的特征的词语,即特征词。而且,运营人员还可以根据各领域的特征词挖掘出各领域的 高专业性的专家,为社交网络提供领域专家扩展服务,并为垂直领域项目提供数据支撑。 现有存在一种人工构建特征词库的方法,具体为:对于社交网络中的每个领域,人 工收集整理一些与该领域相关的语料(比如社交网络中用户发布的该领域的文本内容), 根据通用分词词库对收集的语料进行分词后,对分词结果进行人工审核,将符合人工审核 条件的词语作为该领域的特征词存储至特征词库中。其中,通用分词词库为现有常用分词 器所采用的分词词库。实际应用中,人工收集的语料只能覆盖少数领域,且收集的语料与领 域的相关度存在较大的浮动,导致通过上述人工构建特征词库的方法所提取出的特征词库 的领域 ...
【技术保护点】
一种社交网络中领域的特征词库迭代更新方法,其特征在于,包括:对于社交网络中待更新特征词库所属的领域,根据所述领域的用户群体发布的文本内容,对所述领域的特征词库进行设定次数的迭代更新;其中,一次迭代更新过程包括:对于所述领域的用户群体中的每个用户,根据当前的所述领域的特征词库,计算该用户发布的每篇文本内容与所述领域的相关度;并根据该用户发布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度;从所述领域的用户群体中确定出与所述领域的相关度大于预设的第一相关度阈值的各用户,将确定出的各用户发布的、与所述领域的相关度大于预设的第二相关度阈值的文本内容,作为所述领域的特征训练语料;从得到的所述领域的特征训练语料中提取出所述领域的特征词后,更新当前的所述领域的特征词库,得到本次迭代更新后的所述领域的特征词库。
【技术特征摘要】
1. 一种社交网络中领域的特征词库迭代更新方法,其特征在于,包括: 对于社交网络中待更新特征词库所属的领域,根据所述领域的用户群体发布的文本内 容,对所述领域的特征词库进行设定次数的迭代更新;其中,一次迭代更新过程包括: 对于所述领域的用户群体中的每个用户,根据当前的所述领域的特征词库,计算该用 户发布的每篇文本内容与所述领域的相关度;并根据该用户发布的每篇文本内容与所述领 域的相关度,计算出该用户与所述领域的相关度; 从所述领域的用户群体中确定出与所述领域的相关度大于预设的第一相关度阈值的 各用户,将确定出的各用户发布的、与所述领域的相关度大于预设的第二相关度阈值的文 本内容,作为所述领域的特征训练语料; 从得到的所述领域的特征训练语料中提取出所述领域的特征词后,更新当前的所述领 域的特征词库,得到本次迭代更新后的所述领域的特征词库。2. 如权利要求1所述的方法,其特征在于,所述根据当前的所述领域的特征词库,计算 该用户发布的每篇文本内容与所述领域的相关度,具体包括: 对于获取的该用户发布的每篇文本内容,对该篇文本内容进行分词,从分词后的各词 语中确定出与当前的所述领域的特征词库中的特征词相同的词语,作为该篇文本内容的特 征词;并根据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关度。3. 如权利要求2所述的方法,其特征在于,所述根据该篇文本内容的特征词,计算该篇 文本内容与所述领域的相关度,具体包括: 对于该篇文本内容的每个特征词,统计出该特征词在该篇文本内容中出现的频次,并 从当前的所述领域的特征词库中查找出该特征词的权重作为该特征词的领域权重; 根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出 该篇文本内容与所述领域的相关度。4. 如权利要求3所述的方法,其特征在于,所述根据该篇文本内容的每个特征词在该 篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与所述领域的相关度,具体 为: 根据如下公式1,计算出该篇文本内容与所述领域的相关度St :其中,η为该篇文本内容的特征词的总数,i为取值1?η的自然数,Wi为该篇文本内 容的第i个特征词的领域权重A为第i个特征词在该篇文本内容中出现的频次。5. 如权利要求1-4任一所述的方法,其特征在于,所述根据该用户发布的每篇文本内 容与所述领域的相关度,计算出该用户与所述领域的相关度,具体包括: 从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的 文本内容的篇数,将其与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域 的相关度;或者, 从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的 文本内容,将确定出的各文本内容与所述领域的相关度之和与该用户发布的文本内容的总 篇数的比值,作为该用户与所述领域的相关度。6. -种社交网络中领域的特征词库迭代更新装置,其特征在于,包括: 迭代控制模块,用于在设置计数值初始值为0后,发送迭代更新通知;以及在接收到迭 代完...
【专利技术属性】
技术研发人员:李金奎,谌贻荣,
申请(专利权)人:微梦创科网络科技中国有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。