【技术实现步骤摘要】
本专利技术涉及地理信息抽取方法领域,具体为一种结合主动学习与自训练的半监督中文地名识别方法。
技术介绍
1、地名识别是命名实体识别(named entity recognition,ner)的子集,其目的是识别文本中的位置名称边界,能从网络平台出现的海量非结构化文本中识别大量地理信息,由于在社交媒体等数据集中,带有地名标记的自然语言文本非常稀疏,且存在地名信息表达不规范、实体边界不清晰、地名简化表达等现象,与英文相比,中文文本没有明确的词边界,如空格等,使得地名的边界识别变得复杂。例如,“我计划明年去成都旅行”没有像英文那样明显的词汇分割符号,使得地名的边界识别变得复杂。中文地名通常由地理位置名词、地标建筑物名词、地点类型名词等多个词组合而成,例如"上海东方明珠塔"。这种复杂的结构增加了识别的难度。中国地名具有民族性,例如"乌鲁木齐"、"阿尔山"等具有民族特色的地名,这些词汇在语言上具有一定的独特性。中文地名常常使用缩写或简称表示,例如"渝"代表重庆。除此之外,中国地域广阔,地名数量庞大,这些特点均给中文地名识别带来挑战。主流的地名实体
...【技术保护点】
1.一种结合主动学习与自训练的半监督中文地名识别方法,其特征在于:其识别方法包括以下步骤:
【技术特征摘要】
1.一种结合主动学习与自训练的半监督中文地名识...
【专利技术属性】
技术研发人员:赵肄江,罗静,刘毅志,廖祝华,
申请(专利权)人:湖南科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。