一种分词模型训练方法、分词方法和数据处理方法及装置制造方法及图纸

技术编号：31078149 阅读：25 留言：0更新日期：2021-12-01 11:30

本发明专利技术公开了一种分词模型训练方法、分词方法和数据处理方法及装置。所述分词模型训练方法包括：使用分词标注数据训练得到分词模型；获得实体标注数据，按照预设规则将实体标注数据的实体部分和非实体部分分别添加分词标签；使用添加分词标签之后的实体标注数据对分词模型进行训练。使得分词模型能够拟合实体标注数据中的分词边界规律，最终使得分词模型和利用实体标注数据训练的实体标注模型的分词边界一致，避免了分词模型和实体标注模型同时使用时带来的分词边界冲突的可能性。时使用时带来的分词边界冲突的可能性。时使用时带来的分词边界冲突的可能性。

全部详细技术资料下载

【技术实现步骤摘要】
一种分词模型训练方法、分词方法和数据处理方法及装置

[0001]本专利技术涉及文本处理
，特别涉及一种分词模型训练方法、分词方法和数据处理方法及装置。

技术介绍

[0002]分词模型和实体标注模型通常都是基于字粒度的序列标注模型，分词模型由对大量分词数据进行模型训练建立，实体标注模型由对大量实体标注数据进行模型训练建立。二者一起使用时可能存在边界冲突的情况，如对于句子“驻京办表示”，分词结果为“驻京办表示”，实体标注结果为“驻京/LOC办表示”(其中，/为一种实体标注格式，“/”前面的“京”为实体词，“/”后面的“LOC”为标注结果)。

技术实现思路

[0003]鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种分词模型训练方法、分词方法和数据处理方法及装置。
[0004]第一方面，本专利技术实施例提供一种分词模型训练方法，包括：
[0005]使用分词标注数据训练得到分词模型；
[0006]获得实体标注数据，按照预设规则将所述实体标注数据的实体部分和非实体部分分别添加分词标签；
[0007]使用添加分词标签之后的实体标注数据对所述分词模型进行训练。
[0008]在一些可选的实施例中，所述使用分词标注数据训练得到分词模型，具体包括：
[0009]使用分词标注数据，采用条件随机场CRF损失函数训练得到分词模型；
[0010]相应的，所述使用添加分词标签之后的实体标注数据对所述分词模型进行训练，具体包括：/>[0011]使用添加分词标签之后的实体标注数据，采用CRF损失函数训练所述分词模型。
[0012]在一些可选的实施例中，所述采用条件随机场CRF损失函数训练得到分词模型，具体包括：
[0013]选择分词标注数据中的第一标注数据，生成所述第一标注数据对应的确定标签序列和可能标签序列组合；
[0014]确定所述第一标注数据与所述确定标签序列的第一联合概率，以及所述第一标注数据分别与可能标签序列组合中的各可能标签序列的第二联合概率；
[0015]根据所述第一联合概率和所述第二联合概率，采用随机梯度下降训练方法训练根据CRF损失函数构建的第一目标函数中的第一规范参数；
[0016]如果所述第一目标函数的值的下降幅度低于预设的第一下降阈值，则停止训练。
[0017]在一些可选的实施例中，所述生成所述第一标注数据对应的确定标签序列和可能标签序列组合，具体包括：
[0018]根据所述第一标注数据的分词情况，生成所述第一标注数据对应的确定BIES标签
序列；
[0019]根据所述第一标注数据中每个字在所述第一标注数据中的位置确定每个字的可能BIES标签，根据每个字的可能BIES标签生成所述第一标注数据对应的可能BIES标签序列组合。
[0020]在一些可选的实施例中，所述使用添加分词标签之后的实体标注数据，采用CRF损失函数训练所述分词模型，具体包括：
[0021]选择添加分词标签之后的实体标注数据中的第二标注数据，生成所述第二标注数据对应的确定标签序列组合和可能标签序列组合；
[0022]确定所述第二标注数据分别与确定标签序列组合中各确定标签序列的第三联合概率，以及所述第二标注数据分别与可能标签序列组合中各可能标签序列的第四联合概率；
[0023]根据所述第三联合概率和第四联合概率，采用随机梯度下降训练方法训练根据CRF损失函数构建的第二目标函数中的第二规范参数；
[0024]如果所述第二目标函数的值的下降幅度低于预设的第二下降阈值，停止训练。
[0025]在一些可选的实施例中，所述生成所述第二标注数据对应的确定标签序列组合，具体包括：
[0026]确定所述第二标注数据中的实体标注分词中各个字的确定BIES标签；
[0027]根据所述第二标注数据中的非实体部分的每个字相对于相邻实体标注分词的位置，确定每个字的可能BIES标签；
[0028]根据所述确定BIES标签和所述可能BIES标签生成所述第二标注数据对应的确定BIES标签序列组合。
[0029]在一些可选的实施例中，所述根据所述第二标注数据中的非实体部分的每个字相对于相邻实体标注分词的位置，确定每个字的可能BIES标签，具体包括：
[0030]对所述第二标注数据中的实体标注分词左侧的第一个非实体部分的字，填加(S，E)标签；
[0031]对所述第二标注数据中的实体标注分词右侧的第一个非实体部分的字，填加(S，B)标签。
[0032]在一些可选的实施例中，生成所述第二标注数据对应的可能标签序列组合，具体包括：
[0033]根据所述第二标注数据中每个字在所述第二标注数据中的位置确定每个字的可能BIES标签；
[0034]根据每个字的可能BIES标签生成所述第二标注数据对应的可能BIES标签序列组合。
[0035]第二方面，本专利技术实施例提供一种分词方法，包括：
[0036]利用上述分词模型训练方法训练完成的分词模型对目标文本进行分词，得到分词结果。
[0037]第三方面，本专利技术实施例提供一种数据处理方法，包括：
[0038]利用按照上述的分词模型训练方法训练完成的分词模型对目标文本进行分词，得到分词文本；
[0039]利用实体标注模型对所述目标文本进行标注，得到实体标注文本，所述实体标注模型是预先使用上述的实体标注数据训练的；
[0040]针对所述实体标注文本中的每个标注分词，判断所述标注分词的边界是否与所述分词文本中对应的分词边界一致；
[0041]若是，按照所述标注分词的标注信息标注分词文本中的所述分词。
[0042]第四方面，本专利技术实施例提供一种分词模型训练装置，包括：
[0043]第一训练模块，用于使用分词标注数据训练得到分词模型；
[0044]第二训练模块，用于获得实体标注数据，按照预设规则将所述实体标注数据的实体部分和非实体部分分别添加分词标签；使用添加分词标签之后的实体标注数据对所述分词模型进行训练。
[0045]第五方面，本专利技术实施例提供一种计算机可读存储介质，其上存储有计算机指令，当该指令被处理器执行时实现上述分词模型训练方法，或实现上述分词方法，或实现上述数据处理方法。
[0046]第六方面，本专利技术实施例提供一种服务器，包括：存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述分词模型训练方法，或实现上述分词方法，或实现上述数据处理方法。
[0047]本专利技术实施例提供的上述技术方案的有益效果至少包括：
[0048](1)本专利技术实施例提供的分词模型训练方法，使用分词数据训练得到分词模型，并利用实体标注数据中的实体标注分词的分词情况对分词模型进一步训练调整，使得分词模型能够拟合实体标注数据中的实体标注分词边界规律，最终使得分词模型和实体标注模型的分词边界本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分词模型训练方法，其特征在于，包括：使用分词标注数据训练得到分词模型；获得实体标注数据，按照预设规则将所述实体标注数据的实体部分和非实体部分分别添加分词标签；使用添加分词标签之后的实体标注数据对所述分词模型进行训练。2.如权利要求1所述的方法，其特征在于，所述使用分词标注数据训练得到分词模型，具体包括：使用分词标注数据，采用条件随机场CRF损失函数训练得到分词模型；相应的，所述使用添加分词标签之后的实体标注数据对所述分词模型进行训练，具体包括：使用添加分词标签之后的实体标注数据，采用CRF损失函数训练所述分词模型。3.如权利要求2所述的方法，其特征在于，所述采用条件随机场CRF损失函数训练得到分词模型，具体包括：选择分词标注数据中的第一标注数据，生成所述第一标注数据对应的确定标签序列和可能标签序列组合；确定所述第一标注数据与所述确定标签序列的第一联合概率，以及所述第一标注数据分别与可能标签序列组合中的各可能标签序列的第二联合概率；根据所述第一联合概率和所述第二联合概率，采用随机梯度下降训练方法训练根据CRF损失函数构建的第一目标函数中的第一规范参数；如果所述第一目标函数的值的下降幅度低于预设的第一下降阈值，则停止训练。4.如权利要求3所述的方法，其特征在于，所述生成所述第一标注数据对应的确定标签序列和可能标签序列组合，具体包括：根据所述第一标注数据的分词情况，生成所述第一标注数据对应的确定BIES标签序列；根据所述第一标注数据中每个字在所述第一标注数据中的位置确定每个字的可能BIES标签，根据每个字的可能BIES标签生成所述第一标注数据对应的可能BIES标签序列组合。5.如权利要求2所述的方法，其特征在于，所述使用添加分词标签之后的实体标注数据，采用CRF损失函数训练所述分词模型，具体包括：选择添加分词标签之后的实体标注数据中的第二标注数据，生成所述第二标注数据对应的确定标签序列组合和可能标签序列组合；确定所述第二标注数据分别与确定标签序列组合中各确定标签序列的第三联合概率，以及所述第二标注数据分别与可能标签序列组合中各可能标签序列的第四联合概率；根据所述第三联合概率和第四联合概率，采用随机梯度下降训练方法训练根据CRF损失函数构建的第二目标函数中的第二规范参数；如果所述第二目标函数的值的下降幅度低于预设的第二下降阈值，停止训练。...

【专利技术属性】
技术研发人员：王潇斌，徐光伟，龙定坤，马春平，丁瑞雪，谢朋峻，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人