文本信息的地域属性识别方法及装置、电子设备制造方法及图纸

技术编号：20221902 阅读：23 留言：0更新日期：2019-01-28 20:21

本发明专利技术揭示了一种文本信息的地域属性识别方法及装置、电子设备，该方法包括：通过已构建的地域判断模型对待识别的文本信息进行地域性判断；在判断出文本信息具备地域性时，对文本信息中的地域词，按照在文本信息中的先后位置配置不同的数值；根据行政区域的层级关系，对归属同一行政区域的地域词对应的数值进行融合，得到行政区域的地域词数值融合结果；逐层比较相同层级的各个行政区域的地域词数值融合结果，确定文本信息归属的行政区域，获得文本信息的地域属性。由此即使文本信息中包括多个地域词，通过对地域词配置数值以及地域词数值融合的方式，也可以实现文本信息地域属性的准确识别，进而可以实现文本信息的个性化推荐。

全部详细技术资料下载

【技术实现步骤摘要】
文本信息的地域属性识别方法及装置、电子设备
本专利技术涉及数据处理
，特别涉及一种文本信息的地域属性识别及装置、电子设备。
技术介绍
智能推荐是人工智能领域内的一个子领域，智能推荐是指根据用户的特征，向用户推荐与其特征相匹配的信息。例如根据用户所在的地域，向该用户推送与该地域相关的信息。所以，识别出信息的地域属性是亟待解决的问题。目前一般是通过采用分词技术，将文本信息切分多个词组，与事先定义好各行政区域的地域词库进行比较，设置匹配阈值，找出大于该匹配阈值的地域词库，判断得到该文本信息属于该地域词库所对应行政区域发生的事件。但是，如果文信息本中存在多个地域词，例如文本信息中包含北京、上海、广州、深圳等地域词，则无法通过简单的地域词库匹配方式，确定文本信息属于哪个行政区域发生的事件，无法准确识别出文本信息的地域属性。
技术实现思路
为了解决相关技术中存在的无法准确识别出文本信息的地域属性的问题，本专利技术提供了一种文本信息的地域属性识别方法。一方面，本专利技术提供了一种文本信息的地域属性识别方法，包括：通过已构建的地域判断模型对待识别的文本信息进行地域性判断；在判断出所述文本信息具备地域性时，对所述文本信息中的地域词，按照在所述文本信息中的先后位置配置不同的数值；根据行政区域的层级关系，对归属同一行政区域的地域词对应的数值进行融合，得到所述行政区域的地域词数值融合结果；逐层比较相同层级的各个行政区域的地域词数值融合结果，确定所述文本信息归属的行政区域，获得所述文本信息的地域属性。另一方面，本专利技术提供了一种文本信息的地域属性识别装置，所述装置包括：地域性判...

【技术保护点】
1.一种文本信息的地域属性识别方法，其特征在于，包括：通过已构建的地域判断模型对待识别的文本信息进行地域性判断；在判断出所述文本信息具备地域性时，对所述文本信息中的地域词，按照在所述文本信息中的先后位置配置不同的数值；根据行政区域的层级关系，对归属同一行政区域的地域词对应的数值进行融合，得到所述行政区域的地域词数值融合结果；逐层比较相同层级的各个行政区域的地域词数值融合结果，确定所述文本信息归属的行政区域，获得所述文本信息的地域属性。

【技术特征摘要】
1.一种文本信息的地域属性识别方法，其特征在于，包括：通过已构建的地域判断模型对待识别的文本信息进行地域性判断；在判断出所述文本信息具备地域性时，对所述文本信息中的地域词，按照在所述文本信息中的先后位置配置不同的数值；根据行政区域的层级关系，对归属同一行政区域的地域词对应的数值进行融合，得到所述行政区域的地域词数值融合结果；逐层比较相同层级的各个行政区域的地域词数值融合结果，确定所述文本信息归属的行政区域，获得所述文本信息的地域属性。2.根据权利要求1所述的方法，其特征在于，最低层级行政区域的地域词数值融合结果为所述最低层级行政区域的地域词对应的数值。3.根据权利要求1所述的方法，其特征在于，在所述通过已构建的地域判断模型对待识别的文本信息进行地域性判断之前，所述方法还包括：获取已知是否具备地域性的样本信息，对所述样本信息进行分词处理，得到多个词组；在语义空间中映射出每个词组对应的词向量，得到所述样本信息对应的多个词向量；通过所述样本信息的多个词向量训练文本分类模型，获得所述地域判断模型。4.根据权利要求1所述的方法，其特征在于，在所述通过已构建的地域判断模型对待识别的文本信息进行地域性判断之前，所述方法还包括：获取已知是否具备地域性的样本信息，进行所述样本信息的特征数据提取；通过所述样本信息的特征数据训练逻辑回归模型或梯度提升决策树模型，获得所述地域判断模型。5.根据权利要求1所述的方法，其特征在于，所述通过已构建的地域判断模型对待识别的文本信息进行地域性判断之后，所述方法还包括：在判断出所述文本信息具备地域性时，对所述文本信息中的歧义词进行歧义消解处理，确定所述文本信息中的地域词。6.根据权利要求5所述的方法，其特征在于，所述在判断出所述文本信息具备地域性时，对所述文本信息中的歧义词进行歧义消解处理，确定所述文本信息中的地域词，包括：根据所述歧义词的上下文，通过条件随机场模型判断出所述歧义词是否为地域词；在判断出所述歧义词为地域词时，根据所述文本信息中出现的与所述地域词相关的地域信息，确定所述地域词的唯一语义。7.根据权利要求1所述的方法，其特征在于，所述在判断出所述文本信息具备地域性时，对所述文本信息中的地域词，按照在所述文本信息中的先后位置配置不同的数值，包括：在判断出所述文本信息具备地域性时，对所述文本信息中的地域词，按照在所述文本信息中的先后位置依次配置由大到小的数值。8.根据权利要求1所述的方法，其特征在于，所述根根据行政区域的层级关系，对归属同一行政区域的地域词对应的数值进行融合，得到所述行政区域的地域词数值融合结果，包括：根据行政区域的层级关系，对归属同一行政区域的地域词对应的数值进行累加，得到所述行政区域的地域词数值融合结果。9.根据权利要求...

【专利技术属性】
技术研发人员：邓文超，郑茂，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人