BOM文本的分词方法、装置、设备及存储介质制造方法及图纸

技术编号：32112492 阅读：10 留言：0更新日期：2022-01-29 18:55

本发明专利技术涉及文本分词领域，公开了一种BOM文本的分词方法、装置、设备及存储介质。该方法包括：获取待分词的BOM文本数据，对BOM文本数据进行中英文拆分处理，得到切割文本集；读取切割文本集中的切割文本；判断切割文本是否为中文文本；若为中文文本，则根据预置jieba函数，对切割文本进行分词处理，得到切割分词集，以及将切割分词集确定为分词数据；若不为中文文本，则根据的预置英文数字校验筛选算法，对切割文本进行筛选拆分处理，得到英文数字的分词数据；将所有的分词数据组合为分词数据集，将分词数据集确定为BOM文本数据的分词结果。将分词数据集确定为BOM文本数据的分词结果。将分词数据集确定为BOM文本数据的分词结果。

全部详细技术资料下载

【技术实现步骤摘要】
BOM文本的分词方法、装置、设备及存储介质

[0001]本专利技术涉及文本分词领域，尤其涉及一种BOM文本的分词方法、装置、设备及存储介质。

技术介绍

[0002]BOM 文件属于半结构化的文本文件，用户会在BOM 文件中写明要买硬件的参数信息，包括型号、品牌、精度等。
[0003]自然语言处理（NLP，Natural Language Processing）是人工智能领域中的一个重要方向，主要研究人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析（还包括词性标注和命名实体识别）中最基本的任务，也是众多NLP算法中必不可少的第一步，其切分准确与否往往直接影响下游任务的准确度。
[0004]目前已有一些成熟的分词算法，如jieba、PKUse、CoreNLP等，采用N元文法模型（N
‑
gram）、隐马尔可夫模型（Hidden Markov Model，HMM）、CRF等模型都取得了不错的效果，准确率都可以达到95%以上。但是在BOM中剩下的5%却很难突破，主要归结于以下几点：1）未登录词。即未出现在算法使用的词典中的词，比如BOM 中的专业参数词，以及各种不同型号词等。
[0005]2）不同用户书写规范问题。
[0006]3） BOM 文本描述属于混合语言，即中英数字混合，并非单纯的中文或英文。
[0007]4）粒度，即切分时的最小单位，不同应用对粒度的要求不一样，比如“贴...

【技术保护点】

【技术特征摘要】
1.一种BOM文本的分词方法，其特征在于，包括步骤：获取待分词的BOM文本数据，对所述BOM文本数据进行中英文拆分处理，得到切割文本集；读取所述切割文本集中的切割文本；判断所述切割文本是否为中文文本；若为中文文本，则根据预置jieba函数，对所述切割文本进行分词处理，得到切割分词集，以及将所述切割分词集确定为分词数据；若不为中文文本，则根据的预置英文数字校验筛选算法，对所述切割文本进行筛选拆分处理，得到英文数字的分词数据；将所有的分词数据组合为分词数据集，将所述分词数据集确定为所述BOM文本数据的分词结果。2.根据权利要求1所述的BOM文本的分词方法，其特征在于，所述根据的预置英文数字校验筛选算法，对所述切割文本进行筛选拆分处理，得到英文数字的分词数据包括：读取所述切割文本的字符数，读取预置筛选词典；判断所述字符数是否小于预置文本长度阈值；若小于文本长度阈值，则判断所述字符数是否为大于预置整体拆分阈值；若大于预置整体拆分阈值，则根据预置独立拆分算法，对所述切割文本进行数字英文独立拆分处理，得到英文数字独立组合的分词数据；若不大于预置整体拆分阈值，则根据预置整体拆分算法和所述筛选词典，对所述切割文本进行数字英文整体拆分处理，得到英文数字整体组合的分词数据；若未小于文本长度阈值，则根据预置字符比例算法和所述筛选词典，对所述切割文本进行比例拆分处理，得到英文数字的分词数据。3.根据权利要求2所述的BOM文本的分词方法，其特征在于，所述根据预置字符比例算法和所述筛选词典，对所述切割文本进行比例拆分处理，得到英文数字的分词数据包括：读取预置分割字符集，根据所述分割字符集，对所述切割文本进行全切分处理，得到全切分字符集；将所述全切分字符集中全切分字符与所述筛选词典进行匹配筛选，得到N个全切分匹配字符，其中，N为非负整数；统计N个全切分匹配字符占所述全切分字符集的比例值；判断所述比例值是否超过预置比例阈值；若超过比例阈值，则将所述全切分字符集确定为英文数字的分词数据；若未超过比例阈值，则将所述切割文本确定为英文数字的分词数据。4.根据权利要求2所述的BOM文本的分词方法，其特征在于，所述根据预置整体拆分算法和所述筛选词典，对所述切割文本进行数字英文整体拆分处理，得到英文数字整体组合的分词数据包括：根据所述筛选词典中的筛选词匹配所述切割文本中的字符数据，得到匹配结果；基于所述匹配结果，对...

【专利技术属性】
技术研发人员：杜飞，高宇鹏，刘武，刘松山，王园园，王安，李六七，
申请(专利权)人：深圳前海硬之城信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人