一种基于transformer和CRF的中文地址分词方法技术

技术编号：22076135 阅读：47 留言：0更新日期：2019-09-12 14:16

本发明专利技术公开了一种基于transformer和CRF的中文地址分词方法。该方法首先将地址文本编码转换为文本信息矩阵；然后将文本信息矩阵作为输入传到transformer神经网络；最后利用条件随机场CRF对transformer神经网络的输出进行标注，得到地址分词标注序列。与传统基于规则的分词方法相比，该方法用数值向量表征地址文本可以使文本信息更加丰富，具有较好的准确率和鲁棒性，对未出现过的新地址数据也可以正确分词。在中文地址分词领域，该方法具有极大的研究意义和使用价值。

A Chinese Address Segmentation Method Based on Transformer and CRF

全部详细技术资料下载

【技术实现步骤摘要】
一种基于transformer和CRF的中文地址分词方法
本专利技术属于自然语言处理中的中文分词领域，尤其涉及一种基于transformer和CRF(ConditionalRandomField)的中文地址分词方法。
技术介绍
随着信息技术的发展以及商业贸易、企业和政府事务的电子化，产生了海量的地址数据信息，如何有效地将这些地址数据转化为结构化数据存储并加以利用已经成为一个迫切需要解决的问题。传统的中文地址分词一般采用基于规则的分词方法，事先人工建立好分词词典，基于字符串匹配进行分词，取得了一定的效果，但是这种方法在海量地址文本下难以覆盖完全，并且鲁棒性较差，对未出现过的新地址数据分词准确率较低。中文地址分词是中文分词在地名地址中的应用，它是将地名地址串拆分成若干地理要素的过程。中文分词是自然语言处理下的一项子任务，随着深度学习在自然语言处理领域的发展与流行，将深度学习应用到中文分词上也成为大势所趋。
技术实现思路
本专利技术的目的在于针对现有技术的不足，提供一种基于transformer和CRF的中文地址分词方法。本专利技术的目的是通过以下技术方案来实现的：一种基于transforme本文档来自技高网...

【技术保护点】
1.一种基于transformer和CRF的中文地址分词方法，其特征在于，包括以下步骤：步骤1、对初始地址文本进行分词标注，得到带标注的地址文本，并对地址文本进行字符统计得到字符集，根据字符集将地址文本转化成序列化地址向量。步骤2、将步骤1得到的字符集中的字符随机初始化为特征信息向量，根据特征信息向量将序列化地址向量转换为特征信息矩阵。步骤3、根据序列化地址向量中的元素位置计算得到位置信息向量，根据位置信息向量将序列化地址向量转换为位置信息矩阵。步骤4、将步骤2得到的特征信息矩阵和步骤3得到的位置信息矩阵相加，得到文本信息矩阵。步骤5、将步骤4得到的文本信息矩阵输入到transformer神经...

【技术特征摘要】
1.一种基于transformer和CRF的中文地址分词方法，其特征在于，包括以下步骤：步骤1、对初始地址文本进行分词标注，得到带标注的地址文本，并对地址文本进行字符统计得到字符集，根据字符集将地址文本转化成序列化地址向量。步骤2、将步骤1得到的字符集中的字符随机初始化为特征信息向量，根据特征信息向量将序列化地址向量转换为特征信息矩阵。步骤3、根据序列化地址向量中的元素位置计算得到位置信息向量，根据位置信息向量将序列化地址向量转换为位置信息矩阵。步骤4、将步骤2得到的特征信息矩阵和步骤3得到的位置信息矩阵相加，得到文本信息矩阵。步骤5、将步骤4得到的文本信息矩阵输入到transformer神经网络中，得到地址文本的语义特征信息矩阵。步骤6、将步骤5得到的语义特征信息矩阵作为输入，利用条件随机场CRF对语义特征信息进行标注，得到中文地址分词标注序列。2.根据权利要求1所述的一种基于transformer和CRF的中文地址分词方法，其特征在于，所述步骤1包括：(1)对初始地址文本进行人工分词；(2)采用BMES法对分词后的地址文本进行标注，即词的第一个字符标记为B，词中间的字符标记为M，词尾的字符标记为E，如果词是一个单独字符则标记为S；(3)对初始地址文本进行字符统计得到字符集，并将初始地址文本中的字符转换为其在字符集中的id，得到序列化地址向量；(4)令l为地址文本限制长度，对长度小于l的序列化地址向量进行补0，对长度大于l的序列化地址向量进行截断，得到长度均为l的序列化地址向量。3.根据权利要求1所述的一种基于transformer和CRF的中文地址分词方法，其特征在于，所述步骤2包括：(1)将步骤1中得到的字符集中的每个字符随机初始化为特征信息向量，得到字符矩阵其中n是字符集中字符个数，dmodel是每个字符的特征信息向量的维度，E中第i行代表第i个字符的特征信息向量；(2)根据序列化地址向量中的字符id将字符转化为相应的特征信息向量，得到特征信息矩阵4.根据权利要求1所述的一种基于transformer和CRF的中文地址分词方法，其特征在于，所述步骤3包括：(1)计算序列化地址向量中每个位置pos的位置信息向量PE(pos)，计算公式如下：其中PE(pos，k)为PE(pos)第k个元素的值，k＝0，1，...，dmodel-1；(2)将序列化地址向量中的字符转化为相应的位置信息向量，得到位置信息矩阵5.根据权利要求1所述的一种基于transformer和CRF的中文地址分词方法，其特征...

【专利技术属性】
技术研发人员：李白，王新根，高杨，王方正，
申请(专利权)人：浙江邦盛科技有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人