一种基于元器件行业的中英文混编文本的切词方法技术

技术编号：40799715 阅读：18 留言：0更新日期：2024-03-28 19:26

本发明专利技术公开了一种基于元器件行业的中英文混编文本的切词方法，涉及文本切词技术领域，该切词方法包括：S1、获取工业场景下的元器件文本数据，标注元器件文本数据中的中英文混编文本的切词边界，生成标注数据，并存储至元器件语料库；S2、采集不同种类元器件的物料清单数据，并进行数据预处理；S3、构建语言模型，并输入预处理后的物料清单数据进行模型测试；S4、采用数据蒸馏与模型压缩的方式，优化语言模型；S5、语言模型打包至可部署模块，接入元器件文本切词应用场景。本发明专利技术具备在专业领域中处理中英文混编文本的能力，为元器件行业提供了高效、准确的切词工具，提升了文本处理的效率和精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本切词，尤其是涉及一种基于元器件行业的中英文混编文本的切词方法。

技术介绍

1、在电子元器件行业，中英文混编的专业文本数据给切词任务带来了独特而复杂的挑战。传统的切词算法，如基于字典匹配、基于统计和基于深度学习的方法，以及常见的分词工具如jieba、spacy、hanlp等，往往在处理这类文本时效果不尽如人意。原因主要在于电子元器件物料规格命名的特殊性，其常采用中英文混合的方式，并且规则繁多，如“集成电路（mps）”、“ic-apx809-26sag-7”、“2smd”、“15210802601000”等。

2、这些规格命名中融合了中英文，使得切词算法难以正确辨别中文与英文之间的边界。例如，“集成电路（mps）”中，“集成电路”为中文，而“（mps）”为英文缩写，传统的切词方法可能无法准确区分。此外，一些规格名称中存在数字、特殊字符，如“ic-apx809-26sag-7”中的“26sag-7”，更增加了切词的难度。

3、传统的中文分词工具如jieba和英文分词工具如spacy都面临着无法很好适应...

【技术保护点】

1.一种基于元器件行业的中英文混编文本的切词方法，其特征在于，该切词方法包括：

2.根据权利要求1所述的一种基于元器件行业的中英文混编文本的切词方法，其特征在于，所述采集不同种类元器件的物料清单数据，并进行数据预处理包括：

3.根据权利要求1所述的一种基于元器件行业的中英文混编文本的切词方法，其特征在于，所述构建语言模型，并输入预处理后的物料清单数据进行模型测试包括：

4.根据权利要求3所述的一种基于元器件行业的中英文混编文本的切词方法，其特征在于，所述基于所述元器件语料库中已知的标注数据，定义元器件标识集，并构建基于自适应隐马尔可夫的初级切词模型包括...

【技术特征摘要】

1.一种基于元器件行业的中英文混编文本的切词方法，其特征在于，该切词方法包括：

4.根据权利要求3所述的一种基于元器件行业的中英文混编文本的切词方法，其特征在于，所述基于所述元器件语料库中已知的标注数据，定义元器件标识集，并构建基于自适应隐马尔可夫的初级切词模型包括：

5.根据权利要求4所述的一种基于元器件行业的中英文混编文本的切词方法，其特征在于，所述通过对比所述初验数值与预设数量阈值，自适应调度所述初级切词模型的切词模式包括：

6.根据权利要求4所述的一种基于元器件行...

【专利技术属性】
技术研发人员：张长付，刘军，侯跃腾，谢中涞，
申请(专利权)人：深圳华强电子网集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人