一种基于深度学习的新闻地理编码方法技术

技术编号：30754383 阅读：12 留言：0更新日期：2021-11-10 12:08

本发明专利技术提供了一种基于深度学习的新闻地理编码方法，用以实现新闻内容的地理编码。本发明专利技术结合深度学习模型与地名数据库，实现了不同省份、城市、区县下的新闻地理编码，从而能得到新闻中包含的经纬度信息，让人们对新闻地点有更直观的感知，同时结果可用于新闻的地理搜索筛选、距离排序、地域推荐等功能。本发明专利技术使用基于ERNIE与Bi

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的新闻地理编码方法

[0001]本专利技术涉及计算机科学与技术中的文本挖掘、自然语言处理、地理编码，特别涉及一种基于深度学习的新闻地理编码方法。

技术介绍

[0002]随着科技和网络技术的发展，我们迎来了一个信息爆炸的时代，高效地获取信息在当今社会愈发重要。新闻是人们获取信息的重要方式，它是对新近发生的有社会意义并引起公众兴趣的事实的简短报道，是报纸、广播、电视新闻中使用得最广泛的一种体裁。
[0003]然而其在时空维度的呈现却有所欠缺。传统的新闻阅读中，人们往往只能通过阅读新闻文本或者查看图片的方式来了解新闻发生地或新闻相关地，但是却无法直观地了解新闻所发生的地理位置，从而导致读者缺乏对新闻地理位置的理解以及对新闻地点周围环境的掌握，使得新闻信息无法被直观地感知解读。同时由于新闻的空间属性无法被充分挖掘，导致了新闻的地理搜索筛选、距离排序、地域推荐等功能实现的困难。

技术实现思路

[0004]本专利技术提出了一种基于深度学习的新闻地理编码方法，通过使用深度学习技术，对新闻文本中的地点进行提取并进行地理编码，从而得到新闻中包含的经纬度信息，进而让人们对新闻地点有直观的认知，同时结果可用于新闻的地理搜索筛选、距离排序、地域推荐等功能。
[0005]本专利技术提供的技术方案是一种基于深度学习的新闻地理编码方法，包括下述步骤：
[0006]步骤S10，构建中国各省份、城市、区县地名数据库；
[0007]步骤S20，对给定的新闻链接、新闻内容，使用正文抽取器对新...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的新闻地理编码方法，其特征在于，包括以下步骤：步骤S10，构建中国各省份、城市、区县地名数据库；步骤S20，对给定的新闻链接、新闻内容，使用正文抽取器对新闻正文文本进行抽取；步骤S30，根据步骤S20中抽取的新闻文本进行地名数据库搜索，得到新闻中可能存在的省份、城市、区县地名；步骤S40，根据步骤S20中抽取的新闻文本进行基于ERNIE预训练模型与Bi
‑
GRU
‑
CRF深度学习模型的命名实体识别任务，得到新闻文本中的地点名备选列表；步骤S50，根据区县名、城市名、省份名备选列表，调用局部或全国地理编码服务对地点名备选列表中的地点名进行地理编码；步骤S60，对编码结果候选列表进行结构组织，根据全国
‑
地点名、省份
‑
地点名、城市
‑
地点名、区县
‑
地点名的方式对地理编码结果进行组织，由此，实现新闻的地理编码，确定新闻的地理坐标，得到新闻中包含的经纬度数据。2.根据权利要求1所述的一种基于深度学习的新闻地理编码方法，其特征在于：步骤S10具体包括，步骤S101，获取全中国的省份、城市、区县名，按照省份名、直辖市名、非直辖市名、区县名进行分类；步骤S102，构建地名之间的从属关系，将城市所属省份、区县所属城市名的父子关系一一对应，将对应关系存入数据库中；步骤S103，建立查询服务，通过查询关键字查询数据库中是否存在相应地名，并给出地名类型以及其父子关系。3.根据权利要求1所述的一种基于深度学习的新闻地理编码方法，其特征在于：步骤S20具体包括，步骤S201，首先通过读取网页HTML代码，将网页解析为DOM树，每一个HTML标签都是节点，其中所有文本都是DOM树中的叶子节点；对DOM树中的每个节点进行遍历，计算该节点中所有文本叶节点的字符串总数除以该节点所包含的子节点总数，得到该节点的文本密度；通过筛选DOM树中文本密度最高的节点，得到新闻正文DOM节点；进一步地，通过获取该DOM节点内的文本叶节点的文本内容，得到新闻正文；步骤S202，判断给定内容是链接还是文本，对于文本，直接将其作为新闻文本进行后续步骤；步骤S203，对链接进行新闻网站判断，若链接网站为除微信、微博以外的其他新闻门户网站，则对其进行步骤S201的处理，提取新闻正文；若链接网站为新浪微博、微信文章则对其使用CSS、XPath选择器，根据微博、微信页面的DOM结构，获取包含新闻正文的DOM节点的class、id、data属性，并使用与其对应的CSS、XPath规则获取新闻正文。4.根据权利要求1所述的一种基于深度学习的新闻地理编码方法，其特征在于：步骤S30具体包括，步骤S301，对省份名进行搜索，如果文本中包含存在于数据库中的省份名，则将其添加入省份名备选列表中；步骤S302，对城市名进行搜索，如果文本中包含存在于数据库中的城市名，则将其添加入城市名备选列表中，同时将城市对应的省份名添加入省份名备选列表中；
步骤S303，对区县名进行搜索，如果文本中包含存在于数据库中的区县名，则将其添加入区县名备选列表中，同时将区县对应的城市名以及城市对应的省份名分别添加入城市名和省份名备选列表中。5.根据权利要求1所述的一种基于深度学习的新闻地理编码方法，其特征在于：步骤S40具体包括，步骤S401，构建基于ERNIE与Bi
‑
GRU
‑
CRF的深度学习模型，其中，ERNIE模型使用ERNIE Base结构，由12层Encoder层叠...

【专利技术属性】
技术研发人员：罗运，胡宏伟，余思佳，罗彩玉，蔡忠亮，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人