System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于端到端训练,具体涉及一种端到端的新型地址解析方法。
技术介绍
1、在信息飞速发展的今天,数据自动化处越来越引起人们的重视,目前的中文地址文本解析主要还是依赖运维人员指定人工规则,以及人工进行审核,存在解析精确度低、解析层级混乱、解析范围有限等问题,解析后需审核人员进行人工纠正,而审核人员通过肉眼审核在繁重工作下容易出现错误或遗漏,导致地址解析的准确率、层级清晰度较低。在传统的树结构化和规则匹配中,解析结构化以及补全各个环节无法统一,每个流程产生的误差不断累积从而导致最终解析结果准确率和完整性不高。而基于各种规则匹配以及句法树结构化的方法对输入文本预设规则要求高,对随机文本数据难以支持,缺乏通用性。
2、目前地址文本结构化主要是通过句法结构树以及规则匹配来实现的。而这些传统的结构化方法会面临以下几个问题:
3、(1)通用性不足:传统方法对地址文本的切词序列进行遍历,然后根据语法结构构建结构树,这种方法严重依赖输入的文本按照人工预设规则来描述,不能够通用的支持现在各种不同的文本数据。
4、(2)多步错误累积:现有方法在进行结构化和补全是通常分为多个层层影响的步骤,如切词,匹配解析,结构化,补全,这种多步骤的结构化流程,在每一步产生的误差都将沿着流程顺序传递下去,层层累积,对最终的结果的准确率产生较大影响。
5、(3)结构层级缺失:现有方法的结构化结果通常会受限于解析方法以及对外部数据利用的方式上的不足,难以对文本描述的具体地点生成一个包含完整行政区划信息和具体的地址信息的
6、为了使上述问题得到解决,优化现有地址文本解析的准确率低和通用性不足的缺点,我们提出了一种新型的端到端的地址结构化补全方案,创建了一个统一的结构化及补全流程,提高了地址解析的准确性,完整性,以及通用性为了使上述问题得到解决,改变传统的地址文本结构化效率低下的多步解析流程,提高结构化模型的准确性,完整性,通用性,我们提出了一种新型的端到端地址解析方法。
技术实现思路
1、本专利技术的目的在于克服现有技术的缺点,实现端到端的新型地址解析的功能。
2、为实现上述目的,本专利技术采用的技术方案为:
3、一种端到端的新型地址解析方法,包括如下步骤:
4、s1、原始文本分析提取
5、对文本输入按字进行分割,通过双向循环神经网络对每个字符进行判断,提取出具体地点信息文本和行政区划描述的文本;
6、s2、对区划用外部数据进行推断预测
7、对s1步骤分析提取出的外部行政区划描述信息进行向量化表示作为memory-net的记忆模块,对文本中提取的行政区划描述进行综合推理并转化为行政区划分类,得到原始文本对应的完整行政区划结果;
8、s3、行政区划结果与具体地址信息进行结果合并
9、将s2步骤得到的完整行政区划结果和s1步骤从原始文中分析划分出来的具体地点的信息进行合并,得到整个模型的结果输出也就是最终的完整地址层级结构化信息。
10、进一步地,所述端到端的新型地址解析方法,还包括s4、离线训练步骤,所述s4步骤包括
11、s41、获得原始文本模型结构化结果
12、输入地址描述文本,与上文本描述的文本结构化补全得到最终结果的步骤相同,得到当前模型的一个完整的预测结果;
13、s41、计算损失
14、对上一步得到的结果与预先标注数据进行损失计算:通过对行政区划结果计算分类损失,对具体地点信息文本计算文本相似度损失,对两个损失进行加权,得到整个模型的综合损失。
15、s41、迭代优化更新
16、用损失计算模型中参数的优化梯度,迭代进行梯度下降更新整个解析模型实现端到端训练,对每个步骤得误差进行优化。
17、进一步地,所述s41步骤中,所述解析模型包括文本分析模块与推理模块。
18、与现有技术相比,本专利技术的有益效果在于:
19、2、模型是使用包含文本解析模块和外部数据记忆推理模块的组合模型,一步完成文本的结构化和补全的任务。
20、3、模型中的文本分析子模块,利用字级的分割序列利用双向循环神经网络进行文本不同信息提取,使输入文本不需要依赖任何格式要求,更加通用化。
21、4、本专利提出的模型中的推理子模块,通过对外部数据进行向量化的方式,获得外部数据支持,然后利用向量化结果矩阵通过一种改进的记忆神经网络算法来进行智能行政区划推理得到结果,大大降低了干扰数据或着噪音导致的错误匹配。
22、5、整个解析模型实现端到端训练,可以不断迭代更新,提高整体解析结果的准确率。最后,本专利适用于海量文本地址的多层次分析,结构化结果层次完整,满足绝大部分地址文本解析,以及上图的需求,具有很强的通用性。
本文档来自技高网...【技术保护点】
1.一种端到端的新型地址解析方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种端到端的新型地址解析方法,其特征在于,还包括S4、离线训练步骤,所述S4步骤包括
3.根据权利要求1所述的一种端到端的新型地址解析方法,其特征在于,所述S41步骤中,所述解析模型包括文本分析模块与推理模块。
【技术特征摘要】
1.一种端到端的新型地址解析方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种端到端的新型地址解析方法,其特征在于,还包括s4、离线训练...
【专利技术属性】
技术研发人员:焦震,方益,金鑫,钱毅俊,周庆军,
申请(专利权)人:敏行信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。