【技术实现步骤摘要】
本专利技术涉及文本分析领域,尤其涉及一种文本涉及地分析方法及其系统。
技术介绍
随着网络技术的发展和用户数量的不断增长,网络中产生的数据正经历爆炸式的增长,这对网络数据的分析提出了更多和更高的要求。文本分析和挖掘技术是目前被广泛应用的一项技术,通过相应的技术和方法对文本的语义内容进行分析,归类等一系列操作,主要用于商品推荐,舆情分析,文本搜索等领域。在舆情分析中,需要对网络中舆情在不同的主题下进行整理和分析,例如不同地域存在的舆情热点和发展趋势。为此,对于发帖内容中所涉及的地域信息进行抽取和判断是舆情分析中一个相对重要的环节。在地域判断这一个环节中,已存在的技术在通过分词技术提取地域相关名词后,主要通过在地域区划数据查找匹配来判断文本内容的地域属性。基于区划数据库的方法直观、易实现。然而,该方法的效果却不理想,而且依赖文本中存在对应的地区名称。现实中,网络发帖文本中往往不直接提及区划地域名称,通常只出现一些街道、地标;而同一街道或地标名称可能对应了多个 ...
【技术保护点】
一种文本涉及地分析方法,其特征在于:包括提取文本的地域相关名词;将所述地域相关名词进行地域匹配,得到包含文本涉及地的地域区划列表;计算所述地域相关名词在所述文本中的词频概率,确定所述地域区划列表中对应的文本涉及地的第一概率;计算所述地域相关名词及其对应的文本涉及地的语义相关度;根据所述语义相关度,获取所述文本涉及地的语义概率;获取所述文本所在版块的统计信息或发布人的统计信息;分别获取所述文本涉及地在所述统计信息中的历史概率;根据所述历史概率,获取所述文本涉及地的第二概率;根据所述第一概率、语义概率和第二概率,获取所述文本涉及地的综合概率;若所述综合概率大于等于第一预设阈值, ...
【技术特征摘要】
1.一种文本涉及地分析方法,其特征在于:包括
提取文本的地域相关名词;
将所述地域相关名词进行地域匹配,得到包含文本涉及地的地域区划列表;
计算所述地域相关名词在所述文本中的词频概率,确定所述地域区划列表中对应的文
本涉及地的第一概率;
计算所述地域相关名词及其对应的文本涉及地的语义相关度;根据所述语义相关度,
获取所述文本涉及地的语义概率;
获取所述文本所在版块的统计信息或发布人的统计信息;分别获取所述文本涉及地在
所述统计信息中的历史概率;根据所述历史概率,获取所述文本涉及地的第二概率;
根据所述第一概率、语义概率和第二概率,获取所述文本涉及地的综合概率;
若所述综合概率大于等于第一预设阈值,则判定所述文本涉及地为所述文本的属地;
将所述文本涉及地添加至所述文本的地域属性标签。
2.根据权利要求1所述的文本涉及地分析方法,其特征在于:所述“根据所述第一概率、
语义概率和第二概率,获取所述涉及地的综合概率”之后,进一步还包括:
若所述综合概率小于预设阈值,则将所述综合概率添加至文本信息;
根据所述文本的地域属性标签或所述文本信息,更新所述文本所在版块的统计信息或
发布人的统计信息。
3.根据权利要求1所述的文本涉及地分析方法,其特征在于:所述“根据所述第一概率、
语义概率和第二概率,获取所述文本涉及地的综合概率”具体为:
确定所述文本所在版块的属地或发布人的属地;
根据所述文本涉及地与所述属地的关系,确定所述文本涉及地的奖励概率;
根据所述第一概率、语义概率、第二概率和奖励概率,获取所述文本涉及地的综合概
率。
4.根据权利要求3所述的文本涉及地分析方法,其特征在于:所述“若所述综合概率大
于等于第一预设阈值,则判定所述文本涉及地为所述文本的属地”之前,进一步还包括:
判断所述文本涉及地的第一概率和奖励概率的和是否大于等于第二预设阈值,若是,
则判定所述文本涉及地为所述文本的属地;若否则判断所述综合概率是否大于等于第一预
设阈值。
5.根据权利要求3所述的文本涉及地分析方法,其特征在于:所述“根据所述文本涉及
地与所述属地的关系,确定所述文本涉及地的奖励概率”具体为:
若所述文本涉及地与所述属地为同一城市,则所述文本涉及地获得第一奖励概率;若
所述文本涉及地与所述属地属于同一省份,则所述文本涉及地获得...
【专利技术属性】
技术研发人员:李晟,栾江霞,王备战,章正道,
申请(专利权)人:厦门市美亚柏科信息股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。