一种结合主动学习与自训练的半监督中文地名识别方法技术

技术编号：43845429 阅读：15 留言：0更新日期：2024-12-31 18:39

本发明专利技术涉及地理信息抽取方法领域，公开了一种结合主动学习与自训练的半监督中文地名识别方法，其识别方法包括以下步骤：S1：获取包含地名的语料文本作为数据集，S2：使用LDA主题模型对语料数据根据文本的主题进行多样性分类，S3：基于LTP(Lowest Token Probability)不确定性查询策略的主动学习方法根据模型的预测结果选出不确定分数较高即高信息性的样本，S4：根据步骤S2与S3筛选出少量兼具多样性和高信息性的样本用于人工标注，S5：结合少量的人工标注样本和大量无标签样本，采用基于BERT模型的具有高置信度tokens选择的自训练方法不断迭代更新模型参数，得到最佳的地名识别模型。本发明专利技术使用LDA主题模型对语料数据进行多样性分类。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及地理信息抽取方法领域，具体为一种结合主动学习与自训练的半监督中文地名识别方法。

技术介绍

1、地名识别是命名实体识别(named entity recognition，ner)的子集，其目的是识别文本中的位置名称边界，能从网络平台出现的海量非结构化文本中识别大量地理信息，由于在社交媒体等数据集中，带有地名标记的自然语言文本非常稀疏，且存在地名信息表达不规范、实体边界不清晰、地名简化表达等现象，与英文相比，中文文本没有明确的词边界，如空格等，使得地名的边界识别变得复杂。例如，“我计划明年去成都旅行”没有像英文那样明显的词汇分割符号，使得地名的边界识别变得复杂。中文地名通常由地理位置名词、地标建筑物名词、地点类型名词等多个词组合而成，例如"上海东方明珠塔"。这种复杂的结构增加了识别的难度。中国地名具有民族性，例如"乌鲁木齐"、"阿尔山"等具有民族特色的地名，这些词汇在语言上具有一定的独特性。中文地名常常使用缩写或简称表示，例如"渝"代表重庆。除此之外，中国地域广阔，地名数量庞大，这些特点均给中文地名识别带来挑战。主流的地名实体...

【技术保护点】

1.一种结合主动学习与自训练的半监督中文地名识别方法，其特征在于：其识别方法包括以下步骤：

【技术特征摘要】

1.一种结合主动学习与自训练的半监督中文地名识...

【专利技术属性】
技术研发人员：赵肄江，罗静，刘毅志，廖祝华，
申请(专利权)人：湖南科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人