分词方法及装置制造方法及图纸

技术编号：33950914 阅读：13 留言：0更新日期：2022-06-29 22:24

本公开提供一种分词方法及装置，该方法：按照预设粒度将待处理语料划分为多个语料片段；在多个语料片段之间插入遮罩片段，并将包含多个语料片段以及遮罩片段的待预测语料输入预训练语言模型中；通过预训练语言模型预测多个语料片段各自相邻的遮罩片段中的语料信息；基于多个语料片段以及语料信息对待处理语料进行分词处理，得到目标分词结果。该方法通过预训练语言模型能够预测出遮罩片段的语料信息，从而通过预测得到的语料信息完成分词处理，无需借助词典或分词文本即可完成分词，避免人工构建词典或分词文本带来的效率下降，提升分词效率。升分词效率。升分词效率。

全部详细技术资料下载

【技术实现步骤摘要】
分词方法及装置

[0001]本公开涉及数据处理
，尤其涉及一种分词方法及装置。

技术介绍

[0002]随着人工智能技术的发展，自然语言处理(Natural Language Processing，NLP)成为重要分支之一。在自然语言处理中，需要对语料数据进行切分，以便为后续语义识别提供基础。
[0003]目前，中文分词方法主要有两种方式：一种是基于词典分词算法，即，将待匹配的字符串和人工构建的词典进行匹配，若在词典中查询到与字符串对应的词，说明匹配成功，可识别到该词。例如，正向最大匹配法、逆向最大匹配法、双向匹配分词法等。另外一种方式是，基于统计的分词方法，即基于人工构建的大规模分词文本，利用统计机器学习模型对汉字进行标注训练，从而实现对未知文本的切分。例如，HMM、CRF、SVM、深度学习等算法。在上述方法中，词典或者分词文本通常都是人工建立的，由于词典以及分词文本的规模较大，需要消耗较多人力，效率低，建立维护成本较高。
[0004]综上，如何提升分词效率，成为亟待解决的技术问题。

技术实现思路

[0005]本公开提供一种分词方法及装置，用以避免人工构建词典或分词文本带来的效率下降以及成本过高的问题，降低分词方案构建成成本，提升分词效率。
[0006]根据本公开实施例的第一方面，本公开提供一种分词方法，包括：
[0007]按照预设粒度将待处理语料划分为多个语料片段；
[0008]在多个语料片段之间插入遮罩片段，并将包含多个语料片段以及遮罩片段的待预测语料...

【技术保护点】

【技术特征摘要】
1.一种分词方法，其特征在于，包括：按照预设粒度将待处理语料划分为多个语料片段；在所述多个语料片段之间插入遮罩片段，并将包含所述多个语料片段以及所述遮罩片段的待预测语料输入预训练语言模型中；通过所述预训练语言模型预测多个语料片段各自相邻的所述遮罩片段中的语料信息；基于所述多个语料片段以及所述语料信息对所述待处理语料进行分词处理，得到目标分词结果。2.根据权利要求1所述的方法，其特征在于，所述基于所述多个语料片段以及所述语料信息对所述待处理语料进行分词处理，得到目标分词结果，包括：将各个遮罩片段中的语料信息与相邻的语料片段进行对比；从各个遮罩片段中确定语料信息与相邻语料片段均不匹配的第一遮罩片段，并在第一遮罩片段处标注切分标识；基于所述切分标识对所述待处理语料中的多个语料片段进行切分，得到所述目标分词结果。3.根据权利要求2所述的方法，其特征在于，所述预设粒度为字；所述通过所述预训练语言模型预测多个语料片段各自相邻的所述遮罩片段中的语料信息，包括：通过所述预训练语言模型输出多个语料片段各自相邻的遮罩片段对应的待选字集合，所述待选字集合包括多个字。4.根据权利要求2所述的方法，其特征在于，所述从各个遮罩片段中确定语料信息与相邻语料片段均不匹配的第一遮罩片段，包括：在各个遮罩片段对应的待选字集合中，查询是否存在与各个遮罩片段相邻的语料片段中一致的字；若待选字集合中不存在与相邻语料片段中一致的字，则确定当前遮罩片段的语料信息与相邻语料片段均不匹配，并以当前遮罩片段作为第一遮罩片段。5.根据权...

【专利技术属性】
技术研发人员：罗镇权，
申请(专利权)人：达闼机器人股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人