多粒度融合的分词方法、装置、设备和存储介质制造方法及图纸

技术编号:30367071 阅读:29 留言:0更新日期:2021-10-16 17:38
本申请公开了一种多粒度融合的分词方法、装置、设备和存储介质。一种多粒度融合的分词方法,包括:建立粗粒度法律分词语料集合和细粒度法律分词语料集合;根据所述粗粒度法律分词语料集合和细粒度法律分词语料集合对法律分词模型进行训练;将待识别的文本输入到经过训练的法律分词模型中进行分词,分别得到粗粒度和细粒度的分词结果。本申请采用多粒度分词方法,满足法律场景中的分词需求。对于文本的理解与认知需要分词作为辅助,本发明专利技术可以提高文本阅读效率,发现法律领域中的特定词组。发现法律领域中的特定词组。

【技术实现步骤摘要】
多粒度融合的分词方法、装置、设备和存储介质


[0001]本申请涉及分词处理
,具体而言,涉及一种多粒度融合的分词方法、装置、设备和存储介质。

技术介绍

[0002]现有技术中,分词方法主要是面向通用的数据集的,无法满足特定的某一个场景的需求,比如,法律场景需求。法律领域中存在着大量的法律实体,通用的分词模型无法准确对于此类法律实体进行切分,如“中华人民共和国刑法”被误分为“中华人民共和国”和“刑法”两个词语。分词结果对于法律认识阅读会产生障碍,带来不好的体验度。

技术实现思路

[0003]本申请的主要目的在于提供一种多粒度融合的分词方法、装置、设备和存储介质,以解决上述问题。
[0004]为了实现上述目的,根据本申请的一个方面,提供了一种多粒度融合的分词方法。
[0005]本申请的多粒度融合的分词方法,包括:
[0006]建立粗粒度法律分词语料集合和细粒度法律分词语料集合;
[0007]根据所述粗粒度法律分词语料集合和细粒度法律分词语料集合对法律分词模型进行训练;
>[0008]将待识本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多粒度融合的分词方法,其特征在于,包括:建立粗粒度法律分词语料集合和细粒度法律分词语料集合;根据所述粗粒度法律分词语料集合和细粒度法律分词语料集合对法律分词模型进行训练;将待识别的文本输入到经过训练的法律分词模型中进行分词,分别得到粗粒度和细粒度的分词结果。2.根据权利要求1所述的多粒度融合的分词方法,其特征在于,建立粗粒度法律分词语料集合和细粒度法律分词语料集合,包括:根据信息处理用现代汉语分词规范标准和法律专业知识设计粗粒度和细粒度分词规则;根据所述分词规则进行分词数据集标注,并划分成粗粒度法律分词语料集合和细粒度法律分词语料集合。3.根据权利要求1所述的多粒度融合的分词方法,其特征在于,将待识别的文本输入到经过训练的法律分词模型中进行分词得到粗粒度和细粒度的分词结果之后,所述方法还包括:采用预先设定的自定义词表对所述分词结果进行修正。4.根据权利要求3所述的多粒度融合的分词方法,其特征在于,采用预先设定的自定义词表对所述分词结果进行修正,包括:判断所述自定义词表中是否包含分词结果;如果是,则判断所述自定义词表中是否存在所述分词结果的子集,或者,是否存在包含所述分词结果的长词组;如果是,则读取所述自定义词表中,所述分词结果的子集,或包含所述分词结果的长词组作为候选集合;根据所述候选集合对所述分词结果中的相关的词进行替换。5.根据权利要求4所述的多粒度融合的分词方法,其特征在于,根据所述候选集合对所述分词结果中的相关的词进行替换,包括:判断所述自定义词表中是...

【专利技术属性】
技术研发人员:顾敏杜向阳徐芳
申请(专利权)人:上海艾爵斯信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1