文本信息的地域属性识别方法及装置、电子设备制造方法及图纸

技术编号:20221902 阅读:23 留言:0更新日期:2019-01-28 20:21
本发明专利技术揭示了一种文本信息的地域属性识别方法及装置、电子设备,该方法包括:通过已构建的地域判断模型对待识别的文本信息进行地域性判断;在判断出文本信息具备地域性时,对文本信息中的地域词,按照在文本信息中的先后位置配置不同的数值;根据行政区域的层级关系,对归属同一行政区域的地域词对应的数值进行融合,得到行政区域的地域词数值融合结果;逐层比较相同层级的各个行政区域的地域词数值融合结果,确定文本信息归属的行政区域,获得文本信息的地域属性。由此即使文本信息中包括多个地域词,通过对地域词配置数值以及地域词数值融合的方式,也可以实现文本信息地域属性的准确识别,进而可以实现文本信息的个性化推荐。

【技术实现步骤摘要】
文本信息的地域属性识别方法及装置、电子设备
本专利技术涉及数据处理
,特别涉及一种文本信息的地域属性识别及装置、电子设备。
技术介绍
智能推荐是人工智能领域内的一个子领域,智能推荐是指根据用户的特征,向用户推荐与其特征相匹配的信息。例如根据用户所在的地域,向该用户推送与该地域相关的信息。所以,识别出信息的地域属性是亟待解决的问题。目前一般是通过采用分词技术,将文本信息切分多个词组,与事先定义好各行政区域的地域词库进行比较,设置匹配阈值,找出大于该匹配阈值的地域词库,判断得到该文本信息属于该地域词库所对应行政区域发生的事件。但是,如果文信息本中存在多个地域词,例如文本信息中包含北京、上海、广州、深圳等地域词,则无法通过简单的地域词库匹配方式,确定文本信息属于哪个行政区域发生的事件,无法准确识别出文本信息的地域属性。
技术实现思路
为了解决相关技术中存在的无法准确识别出文本信息的地域属性的问题,本专利技术提供了一种文本信息的地域属性识别方法。一方面,本专利技术提供了一种文本信息的地域属性识别方法,包括:通过已构建的地域判断模型对待识别的文本信息进行地域性判断;在判断出所述文本信息具备地域性时,对所述文本信息中的地域词,按照在所述文本信息中的先后位置配置不同的数值;根据行政区域的层级关系,对归属同一行政区域的地域词对应的数值进行融合,得到所述行政区域的地域词数值融合结果;逐层比较相同层级的各个行政区域的地域词数值融合结果,确定所述文本信息归属的行政区域,获得所述文本信息的地域属性。另一方面,本专利技术提供了一种文本信息的地域属性识别装置,所述装置包括:地域性判断模块,用于通过已构建的地域判断模型对待识别的文本信息进行地域性判断;数值配置模块,用于在判断出所述文本信息具备地域性时,对所述文本信息中的地域词,按照在所述文本信息中的先后位置配置不同的数值;数值融合模块,用于根据行政区域的层级关系,对归属同一行政区域的地域词对应的数值进行融合,得到所述行政区域的地域词数值融合结果;地域确定模块,用于逐层比较相同层级的各个行政区域的地域词数值融合结果,确定所述文本信息归属的行政区域,获得所述文本信息的地域属性。此外,本专利技术还提供了一种电子设备,所述电子设备包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述文本信息的地域属性识别方法。进一步的,本专利技术还提供了一种计算机可读存储介质,其所述计算机可读存储介质存储有计算机程序,所述计算机程序可由处理器执行上述文本信息的地域属性识别方法。本专利技术的实施例提供的技术方案可以包括以下有益效果:本专利技术提供的技术方案,针对具备地域性的文本信息,按照地域词在文本信息中的先后位置配置不同的数值,并根据行政区域的层级关系设置,对同一行政区域下地域词对应的数值进行融合,得到该行政区域的地域词数值融合结果,通过逐层比较相同层级的各个行政区域的地域词数值融合结果,可以确定文本信息归属的行政区域,获得文本信息的地域属性。由此即使文本信息中包括多个地域词,通过对地域词配置数值以及地域词数值融合的方式,也可以实现文本信息地域属性的准确识别,进而可以实现文本信息的个性化推荐。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并于说明书一起用于解释本专利技术的原理。图1是根据本专利技术所涉及的实施环境的示意图;图2是根据一示例性实施例示出的一种服务器的框图;图3是根据一示例性实施例示出的一种文本信息的地域属性识别方法的流程图;图4是在图3对应实施例的基础上另一实施例提供的一种文本信息的地域属性识别方法的流程图;图5是一种实施例示出的fasttext模型的训练原理示意图;图6是在图3对应实施例的基础上又一实施例提供的一种文本信息的地域属性识别方法的流程图;图7是图3对应实施例中步骤370的细节流程图;图8是本专利技术一示例性实施例提出的文本信息的地域属性识别方法的详细流程示意图;图9是利用本专利技术实现个性化文本信息推荐的流程示意图;图10是根据一示例性实施例示出的一种文本信息的地域属性识别装置的框图。具体实施方式这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。图1是根据一示例性实施例示出的本专利技术所涉及的实施环境示意图。本专利技术所涉及的实施环境包括服务器110。服务器110的数据库中可以存储有待识别的文本信息,从而服务器110可以采用本专利技术提供的文本信息的地域属性识别方法,对该文本信息进行地域属性识别,确定该文本信息属于哪个行政区域的新闻资讯。根据需要,该实施环境还可以包括提供数据,即文本信息的数据来源。具体而言,在本实施环境中,数据来源可以为移动终端130。服务器110可以事先获取移动终端130上传的文本信息,进而采用本专利技术提供的方法,对该文本信息进行地域属性识别。应当说明的是,本专利技术提供的文本信息的地域属性识别方法,不限于在服务器110中部署相应的处理逻辑,其也可以是部署于其它机器中的处理逻辑。例如,在具备计算能力的终端设备中部署对文本信息进行地域属性识别的处理逻辑等。在具体应用中,服务器110可以根据文本信息的地域属性,以及用户所在地区,向用户推荐地域属性与用户所在地区匹配的文本信息,实现新闻资讯的个性化推荐。参见图2,图2是本专利技术实施例提供的一种服务器结构示意图。该服务器200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,CPU)222(例如,一个或一个以上处理器)和存储器232,一个或一个以上存储应用程序242或数据244的存储介质230(例如一个或一个以上海量存储设备)。其中,存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器200中的一系列指令操作。更进一步地,中央处理器222可以设置为与存储介质230通信,在服务器200上执行存储介质230中的一系列指令操作。服务器200还可以包括一个或一个以上电源226,一个或一个以上有线或无线网络接口250,一个或一个以上输入输出接口258,和/或,一个或一个以上操作系统241,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM等等。下述图3、图4、图6-9所示实施例中所述的由服务器所执行的步骤可以基于该图2所示的服务器结构。本领域普通技术人员可以理解实现下述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。图3是根据一示例性实施例示出的一种文本信息的地域属性识别方法的流程图。该文本信息的地域属性识别方法的适用范围和执行主体可以服务器,该服务器可以是图1所示实施本文档来自技高网...

【技术保护点】
1.一种文本信息的地域属性识别方法,其特征在于,包括:通过已构建的地域判断模型对待识别的文本信息进行地域性判断;在判断出所述文本信息具备地域性时,对所述文本信息中的地域词,按照在所述文本信息中的先后位置配置不同的数值;根据行政区域的层级关系,对归属同一行政区域的地域词对应的数值进行融合,得到所述行政区域的地域词数值融合结果;逐层比较相同层级的各个行政区域的地域词数值融合结果,确定所述文本信息归属的行政区域,获得所述文本信息的地域属性。

【技术特征摘要】
1.一种文本信息的地域属性识别方法,其特征在于,包括:通过已构建的地域判断模型对待识别的文本信息进行地域性判断;在判断出所述文本信息具备地域性时,对所述文本信息中的地域词,按照在所述文本信息中的先后位置配置不同的数值;根据行政区域的层级关系,对归属同一行政区域的地域词对应的数值进行融合,得到所述行政区域的地域词数值融合结果;逐层比较相同层级的各个行政区域的地域词数值融合结果,确定所述文本信息归属的行政区域,获得所述文本信息的地域属性。2.根据权利要求1所述的方法,其特征在于,最低层级行政区域的地域词数值融合结果为所述最低层级行政区域的地域词对应的数值。3.根据权利要求1所述的方法,其特征在于,在所述通过已构建的地域判断模型对待识别的文本信息进行地域性判断之前,所述方法还包括:获取已知是否具备地域性的样本信息,对所述样本信息进行分词处理,得到多个词组;在语义空间中映射出每个词组对应的词向量,得到所述样本信息对应的多个词向量;通过所述样本信息的多个词向量训练文本分类模型,获得所述地域判断模型。4.根据权利要求1所述的方法,其特征在于,在所述通过已构建的地域判断模型对待识别的文本信息进行地域性判断之前,所述方法还包括:获取已知是否具备地域性的样本信息,进行所述样本信息的特征数据提取;通过所述样本信息的特征数据训练逻辑回归模型或梯度提升决策树模型,获得所述地域判断模型。5.根据权利要求1所述的方法,其特征在于,所述通过已构建的地域判断模型对待识别的文本信息进行地域性判断之后,所述方法还包括:在判断出所述文本信息具备地域性时,对所述文本信息中的歧义词进行歧义消解处理,确定所述文本信息中的地域词。6.根据权利要求5所述的方法,其特征在于,所述在判断出所述文本信息具备地域性时,对所述文本信息中的歧义词进行歧义消解处理,确定所述文本信息中的地域词,包括:根据所述歧义词的上下文,通过条件随机场模型判断出所述歧义词是否为地域词;在判断出所述歧义词为地域词时,根据所述文本信息中出现的与所述地域词相关的地域信息,确定所述地域词的唯一语义。7.根据权利要求1所述的方法,其特征在于,所述在判断出所述文本信息具备地域性时,对所述文本信息中的地域词,按照在所述文本信息中的先后位置配置不同的数值,包括:在判断出所述文本信息具备地域性时,对所述文本信息中的地域词,按照在所述文本信息中的先后位置依次配置由大到小的数值。8.根据权利要求1所述的方法,其特征在于,所述根根据行政区域的层级关系,对归属同一行政区域的地域词对应的数值进行融合,得到所述行政区域的地域词数值融合结果,包括:根据行政区域的层级关系,对归属同一行政区域的地域词对应的数值进行累加,得到所述行政区域的地域词数值融合结果。9.根据权利要求...

【专利技术属性】
技术研发人员:邓文超郑茂
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1