一种文字信息地域识别方法及装置制造方法及图纸

技术编号:7290930 阅读:502 留言:0更新日期:2012-04-25 23:53
本发明专利技术涉及一种文字信息地域识别方法及装置,其中识别方法包括步骤:A、获取待进行地域分析的文字信息,构建词向量序列;B、进行地域分层分析,得出地域分层路径;C、进行地域扩展分析,进一步得出相关的地域特征词;D、根据地域分层路径和由地域扩展分析得出的地域特征词,得到最优地域分层路径;E、构建第一主题词向量空间和第二主题词向量空间;F、对第一主题词向量空间和第二主题词向量空间进行相似度计算,根据最优地域分层路径和相似度计算结果判断文字信息所属地域。本发明专利技术实现了对信息内容所属地域进行了准确判断,这样不但判断更加准确,地域层次分明详细,还能排除与信息主题无关的地域特征词信息。

【技术实现步骤摘要】

本专利技术涉及互联网信息
,更具体地说,涉及一种文字信息地域识别方法及装置
技术介绍
近年来,互联网成为广大网民提供交流的平台,它的特点是,民众发言摆脱了社会权利体制的管制或限制,可以畅所欲言无所顾忌的表达个人的观点、立场、情绪。但是有些舆论信息具有负面影响,因此应从互联网上进行封堵,以防止其扩散而造成进一步的影响。 为有效预防和封堵舆情信息的扩散,必须先分析舆情事件发生的所属地。目前一般是通过采用分词技术,将相关的舆论信息切分多个词组,与事先定义好的地区词库进行比较,设置匹配阀值,大于该匹配阀值的就判断该文章属于该地区发生的事件。然而,如果舆论信息中只涉及某个地域名,比如“南山”,这个词在很多城市都有这个地域名,且有些是地区名,有些是路名,有些是村名等,这样通过地区词库匹配的方法就很难准确识别出地域。另外,对于舆论信息中可能只有一两句涉及地域词库,但信息的中心思想涉及该地域的,比如信息中是主要描述的是犯罪嫌疑人在深圳的作案,但这个信息是广州日报报道的。再如,舆论信息中并没有出现地域词,但描述的中心是围绕这个地区进行的等,比如信息主题描述的是大运会,并没有出现地域词。诸如这样的信息就目前的技术方法是很难准确识别出地域的。由此可见,现有的技术难以通过分析舆论信息文章内容精确的识别出所归属地, 需要不断修正地区词库的分级方式和地区匹配算法来改进。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种文字信息地域识别方法及装置。本专利技术解决其技术问题所采用的技术方案是构造一种文字信息地域识别方法,其中,包括以下步骤A、获取待进行地域分析的文字信息,对所述文字信息进行分词,构建成由所述文字信息中的多个特征词语构成的词向量序列,并存储;B、查询地域分层词典数据库,根据所述地域分层词典数据库对所述词向量序列中的特征词语进行层级分析,得出由所述特征词语中的不同层级地域特征词构成的地域分层路径,并存储,其中,所述地域分层词典数据库中包含有不同层级的地域路径信息;C、查询地域扩充词典数据库,根据所述地域扩充词典数据库对所述词向量序列中的特征词语进行地域扩展分析,进一步得出相关的地域特征词,并存储,其中,所述地域扩充词典数据库中包含有与不同地域特征词相关的非地域词语信息;D、根据所述地域分层路径和由所述地域扩展分析得出的地域特征词,得到最优地域分层路径,并存储;E、根据所述最优地域分层路径提取地域特征信息片段,对所述地域特征信息片段提取主题词,构建成第一主题词向量空间,并提取所述文字信息的主题词,构建成第二主题词向量空间,存储所述第一主题词向量空间和所述第二主题词向量空间;F、对所述第一主题词向量空间和所述第二主题词向量空间进行相似度计算,根据所述最优地域分层路径和相似度计算结果判断所述文字信息所属地域。本专利技术所述的文字信息地域识别方法,其中,所述步骤A具体包括对所述文字信息进行中文分词,过滤其中的非词语和干扰词;统计剩下各个词语的词频;统计剩下各个词语在所述文字信息中的位置;根据每个所述词语的词频和在所述文字信息中的位置信息构建成所述词向量序列;存储所述词向量序列。本专利技术所述的文字信息地域识别方法,其中,所述步骤B具体包括查询所述地域分层词典数据库;根据所述地域分层词典数据库,提取所述词向量序列中的地域词汇;根据所提取的地域词汇形成所述地域分层路径;存储所述地域分层路径。本专利技术所述的文字信息地域识别方法,其中,所述步骤C具体包括查询所述地域扩充词典数据库;在所述地域扩充词典数据库中查找所述词向量序列中的非地域词语,进行地域扩展分析,得出与所述非地域词语相关联的地域特征词;存储所述地域特征词。本专利技术所述的文字信息地域识别方法,其中,所述步骤E具体包括提取所述最优地域分层路径在所述文字信息中的上下文信息,得到所述地域特征信息片段;提取所述地域特征信息片段中的主题词,构建成由多个词语向量构成的所述第一主题词向量空间;对所述文字信息整体进行分析,并提取其中的主题词,构建成由多个词语向量构成的所述第二主题词向量空间;存储所述第一主题词向量空间和所述第二主题词向量空间。本专利技术还提供了一种文字信息地域识别装置,其中,包括词向量序列产生模块,用于获取待进行地域分析的文字信息,对所述文字信息进行分词,构建成由所述文字信息中的多个特征词语构成的词向量序列,并存储;地域分层分析模块,用于查询地域分层词典数据库,并根据所述地域分层词典数据库对所述词向量序列中的特征词语进行层级分析,得出由所述特征词语中的不同层级地域特征词构成的地域分层路径,并存储,其中,所述地域分层词典数据库中包含有不同层级的地域路径信息;地域扩展分析模块,用于查询地域扩充词典数据库,并根据所述地域扩充词典数据库对所述词向量序列中的特征词语进行地域扩展分析,进一步得出相关的地域特征词, 并存储,其中,所述地域扩充词典数据库中包含有与不同地域特征词相关的非地域词语信息;最优路径产生模块,用于根据所述地域分层路径和由所述地域扩展分析得出的地域特征词,得到最优地域分层路径,并存储;向量空间产生模块,用于根据所述最优地域分层路径提取地域特征信息片段,对所述地域特征信息片段提取主题词,构建成第一主题词向量空间,并提取所述文字信息的主题词,构建成第二主题词向量空间,存储所述第一主题词向量空间和所述第二主题词向量空间;所属地判断模块,用于对所述第一主题词向量空间和所述第二主题词向量空间进行相似度计算,根据所述最优地域分层路径和相似度计算结果判断所述文字信息所属地域。本专利技术所述的文字信息地域识别装置,其中,所述词向量序列产生模块包括词语过滤单元,用于对所述文字信息进行中文分词,过滤其中的非词语和干扰词;词频统计单元,用于统计剩下各个词语的词频;位置信息统计单元,用于统计剩下各个词语在所述文字信息中的位置;向量产生单元,用于根据每个所述词语的词频和在所述文字信息中的位置信息构建成所述词向量序列;词向量序列存储单元,用于存储所述词向量序列。本专利技术所述的文字信息地域识别装置,其中,所述地域分层分析模块包括分层查询单元,用于查询所述地域分层词典数据库;地域词提取单元,用于根据所述地域分层词典数据库,提取所述词向量序列中的地域词汇;分层路径产生单元,用于根据所提取的地域词汇形成所述地域分层路径;分层路径存储单元,用于存储所述地域分层路径。本专利技术所述的文字信息地域识别装置,其中,所述地域扩展分析模块包括扩充查询单元,用于查询所述地域扩充词典数据库;扩充分析单元,用于在所述地域扩充词典数据库中查找所述词向量序列中的非地域词语,进行地域扩展分析,得出与所述非地域词语相关联的地域特征词;特征词存储单元,用于存储所述地域特征词。本专利技术所述的文字信息地域识别装置,其中,所述向量空间产生模块包括地域片段提取单元,用于提取所述最优地域分层路径在所述文字信息中的上下文信息,得到所述地域特征信息片段;第一向量空间构建单元,用于提取所述地域特征信息片段中的主题词,构建成由多个词语向量构成的所述第一主题词向量空间;第二向量空间构建单元,用于对所述文字信息整体进行分析,并提取其中的主题词,构建成由多个词语向量构成的所述第二主题词向量空间;向量空间存储单元,用于存储所述第一主题词向量空间和所述本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:景晓军沈智杰张东升许国耀王艳玲力世银毕成功
申请(专利权)人:任子行网络技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术