【技术实现步骤摘要】
本专利技术涉及文本切词,尤其是涉及一种基于元器件行业的中英文混编文本的切词方法。
技术介绍
1、在电子元器件行业,中英文混编的专业文本数据给切词任务带来了独特而复杂的挑战。传统的切词算法,如基于字典匹配、基于统计和基于深度学习的方法,以及常见的分词工具如jieba、spacy、hanlp等,往往在处理这类文本时效果不尽如人意。原因主要在于电子元器件物料规格命名的特殊性,其常采用中英文混合的方式,并且规则繁多,如“集成电路(mps)”、“ic-apx809-26sag-7”、“2smd”、“15210802601000”等。
2、这些规格命名中融合了中英文,使得切词算法难以正确辨别中文与英文之间的边界。例如,“集成电路(mps)”中,“集成电路”为中文,而“(mps)”为英文缩写,传统的切词方法可能无法准确区分。此外,一些规格名称中存在数字、特殊字符,如“ic-apx809-26sag-7”中的“26sag-7”,更增加了切词的难度。
3、传统的中文分词工具如jieba和英文分词工具如spacy都面临着无法很好适应
...【技术保护点】
1.一种基于元器件行业的中英文混编文本的切词方法,其特征在于,该切词方法包括:
2.根据权利要求1所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述采集不同种类元器件的物料清单数据,并进行数据预处理包括:
3.根据权利要求1所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述构建语言模型,并输入预处理后的物料清单数据进行模型测试包括:
4.根据权利要求3所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述基于所述元器件语料库中已知的标注数据,定义元器件标识集,并构建基于自适应隐马尔可
...【技术特征摘要】
1.一种基于元器件行业的中英文混编文本的切词方法,其特征在于,该切词方法包括:
2.根据权利要求1所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述采集不同种类元器件的物料清单数据,并进行数据预处理包括:
3.根据权利要求1所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述构建语言模型,并输入预处理后的物料清单数据进行模型测试包括:
4.根据权利要求3所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述基于所述元器件语料库中已知的标注数据,定义元器件标识集,并构建基于自适应隐马尔可夫的初级切词模型包括:
5.根据权利要求4所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述通过对比所述初验数值与预设数量阈值,自适应调度所述初级切词模型的切词模式包括:
6.根据权利要求4所述的一种基于元器件行...
【专利技术属性】
技术研发人员:张长付,刘军,侯跃腾,谢中涞,
申请(专利权)人:深圳华强电子网集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。