【技术实现步骤摘要】
一种基于深度学习模型的地址命名实体识别的调优方法
[0001]本专利技术涉及自然语言识别,具体涉及一种基于深度学习模型的地址命名实体识别的调优方法。
技术介绍
[0002]命名实体识别任务是自然语言处理领域中一项十分通用的任务,该任务的目的是识别自然语言文本中特定类型的实体。命名实体识别的应用十分广泛,如在快递行业需要识别出快递寄取人姓名、电话、物品、详细地址等信息;在新闻媒体行业需要识别出人名、地名、机构名称等信息;在医疗行业需要识别出患者和医生姓名、病理名称、症状、用药名称和服用说明等信息;在生物信息学领域提取蛋白质、DNA等信息。
[0003]命名实体识别任务通常被建模为字符级别的序列标注任务,即对于一串输入的字符序列,命名实体识别模型需要预测出每个字符对应的命名实体标签。目前,在自然语言处理技术的实际应用中主要有两种典型的命名实体识别模型。
[0004]第一种方式是基于LSTM(长短期记忆神经网络)和CRF(条件随机场)的模型,该模型的训练过程是将输入的中文序列,按照字符编码进行Embedding(词 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习模型的地址命名实体识别的调优方法,其特征在于:包括以下步骤:S1、收集相关领域的行业语料,构建行业实体字典;S2、收集线上中文数据,根据任务目标进行人工标注并生成模板,对模板和行业实体字典中的实体名进行数据增强,再进行数据扩充;S3、利用未标注的行业语料和实体字典,在神经网络语言模型的预训练阶段进行掩码机制优化;S4、针对下游识别任务对神经网络语言模型进行模型精调,并选取测试精度最高的神经网络语言模型作为输出模型;S5、收集线上实时数据,将输出模型预测结果低于置信度阈值的实体保存在日志文件中,并利用日志文件对输出模型进行优化。2.根据权利要求1所述的基于深度学习模型的地址命名实体识别的调优方法,其特征在于:S1中收集相关领域的行业语料,构建行业实体字典,包括:S1、对现有的领域内已有公开实体字典进行整合,形成“公开实体字典”;S2、通过该领域专家根据经验构建出来一系列用来对实体匹配的规则,使用字符串匹配或者模式匹配的方法,结合关键词汇、专有词汇或者结构规则实体特征,对收集到的公开语料进行专家经验匹配,抽取实体,构建“专家实体字典”;S3、将“公开实体字典”、“专家实体字典”整合构建“经验实体词典”;S4、通过无监督方式,对词汇出现频率进行统计,通过词频召回大量的待定实体,对其自由度、紧密度进行计算,通过设定阈值筛选出实体,形成“无监督实体字典”;S5、选取少量语料根据词频召回候选词,通过频率、完整性、信息量和共现度筛选候选词,将筛选出的候选词和“经验实体词典”中的交叉词汇作为训练时的正样本集;S6、使用负采样对其他词汇进行随机采样形成负样本集,使用正样本集、负样本集训练Bert模型;S7、使用训练好的Bert模型对所有预料内召回实体的质量进行打分,精选出有效实体;S8、通过AutoNER模型对这些词汇进行类型预测,形成“有监督实体词典”;S9、将“无监督实体字典”、“有监督实体词典”整合构建“挖掘...
【专利技术属性】
技术研发人员:冯纯博,卫海智,李钊辉,黄洋,
申请(专利权)人:科讯嘉联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。