BOM文本的分词方法、装置、设备及存储介质制造方法及图纸

技术编号:32112492 阅读:10 留言:0更新日期:2022-01-29 18:55
本发明专利技术涉及文本分词领域,公开了一种BOM文本的分词方法、装置、设备及存储介质。该方法包括:获取待分词的BOM文本数据,对BOM文本数据进行中英文拆分处理,得到切割文本集;读取切割文本集中的切割文本;判断切割文本是否为中文文本;若为中文文本,则根据预置jieba函数,对切割文本进行分词处理,得到切割分词集,以及将切割分词集确定为分词数据;若不为中文文本,则根据的预置英文数字校验筛选算法,对切割文本进行筛选拆分处理,得到英文数字的分词数据;将所有的分词数据组合为分词数据集,将分词数据集确定为BOM文本数据的分词结果。将分词数据集确定为BOM文本数据的分词结果。将分词数据集确定为BOM文本数据的分词结果。

【技术实现步骤摘要】
BOM文本的分词方法、装置、设备及存储介质


[0001]本专利技术涉及文本分词领域,尤其涉及一种BOM文本的分词方法、装置、设备及存储介质。

技术介绍

[0002]BOM 文件属于半结构化的文本文件,用户会在BOM 文件中写明要买硬件的参数信息,包括型号、品牌、精度等。
[0003]自然语言处理(NLP,Natural Language Processing)是人工智能领域中的一个重要方向,主要研究人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析(还包括词性标注和命名实体识别)中最基本的任务,也是众多NLP算法中必不可少的第一步,其切分准确与否往往直接影响下游任务的准确度。
[0004]目前已有一些成熟的分词算法,如jieba、PKUse、CoreNLP等,采用N元文法模型(N

gram)、隐马尔可夫模型(Hidden Markov Model,HMM)、CRF等模型都取得了不错的效果,准确率都可以达到95%以上。但是在BOM中剩下的5%却很难突破,主要归结于以下几点:1)未登录词。即未出现在算法使用的词典中的词,比如BOM 中的专业参数词,以及各种不同型号词等。
[0005]2)不同用户书写规范问题。
[0006]3) BOM 文本描述属于混合语言,即中英数字混合,并非单纯的中文或英文。
[0007]4)粒度,即切分时的最小单位,不同应用对粒度的要求不一样,比如“贴片电容”可以是一个词也可以是两个词。
[0008]在实际应用中,以上难点时常会造成分词效果欠佳,进而影响之后的任务。如果分词错误会影响用户意图的解析,这对分词的准确性提出了更高的要求。因此,需要一种技术解决现有BOM文件的分词不准确的技术问题。

技术实现思路

[0009]本专利技术的主要目的在于解决现有BOM文件的分词不准确的技术问题。
[0010]本专利技术第一方面提供了一种BOM文本的分词方法,包括步骤:获取待分词的BOM文本数据,对所述BOM文本数据进行中英文拆分处理,得到切割文本集;读取所述切割文本集中的切割文本;判断所述切割文本是否为中文文本;若为中文文本,则根据预置jieba函数,对所述切割文本进行分词处理,得到切割分词集,以及将所述切割分词集确定为分词数据;若不为中文文本,则根据的预置英文数字校验筛选算法,对所述切割文本进行筛选拆分处理,得到英文数字的分词数据;
将所有的分词数据组合为分词数据集,将所述分词数据集确定为所述BOM文本数据的分词结果。
[0011]可选的,在本专利技术第一方面的第一种实现方式中,所述根据的预置英文数字校验筛选算法,对所述切割文本进行筛选拆分处理,得到英文数字的分词数据包括:读取所述切割文本的字符数,读取预置筛选词典;判断所述字符数是否小于预置文本长度阈值;若小于文本长度阈值,则判断所述字符数是否为大于预置整体拆分阈值;若大于预置整体拆分阈值,则根据预置独立拆分算法,对所述切割文本进行数字英文独立拆分处理,得到英文数字独立组合的分词数据;若不大于预置整体拆分阈值,则根据预置整体拆分算法和所述筛选词典,对所述切割文本进行数字英文整体拆分处理,得到英文数字整体组合的分词数据;若未小于文本长度阈值,则根据预置字符比例算法和所述筛选词典,对所述切割文本进行比例拆分处理,得到英文数字的分词数据。
[0012]可选的,在本专利技术第一方面的第二种实现方式中,所述根据预置字符比例算法和所述筛选词典,对所述切割文本进行比例拆分处理,得到英文数字的分词数据包括:读取预置分割字符集,根据所述分割字符集,对所述切割文本进行全切分处理,得到全切分字符集;将所述全切分字符集中全切分字符与所述筛选词典进行匹配筛选,得到N个全切分匹配字符,其中,N为非负整数;统计N个全切分匹配字符占所述全切分字符集的比例值;判断所述比例值是否超过预置比例阈值;若超过比例阈值,则将所述全切分字符集确定为英文数字的分词数据;若未超过比例阈值,则将所述切割文本确定为英文数字的分词数据。
[0013]可选的,在本专利技术第一方面的第三种实现方式中,所述根据预置独立拆分算法和所述筛选词典,对所述切割文本进行数字英文独立拆分处理,得到英文数字相互独立的分词数据包括:根据所述筛选词典中的筛选词匹配所述切割文本中的字符数据,得到匹配结果;基于所述匹配结果,对所述切割文本进行数字英文整体拆分处理,得到英文数字相互独立的分词数据。
[0014]可选的,在本专利技术第一方面的第四种实现方式中,所述基于所述匹配结果,对所述切割文本进行数字英文独立拆分处理,得到英文数字相互独立的分词数据包括:判断所述匹配结果是否存在匹配成功的字符数据;若存在,则将所述切割文本确定为英文数字的分词数据;若不存在,则将所述切割文本剔除,不作为分词数据。
[0015]可选的,在本专利技术第一方面的第五种实现方式中,所述根据预置独立拆分算法,对所述切割文本进行数字英文独立拆分处理,得到英文数字独立组合的分词数据包括:识别所述切割文本中的数字字符;基于所述数字字符的位置,对所述切割文本进行拆分处理,得到英文数字独立组合的分词数据。
[0016]可选的,在本专利技术第一方面的第六种实现方式中,所述判断所述切割文本是否为中文文本包括:根据预置字母数字正则表达式,对所述切割文本中进行匹配处理,判断所述切割文本是否存在匹配的字符。
[0017]本专利技术第二方面提供了一种BOM文本的分词装置,所述BOM文本的分词装置包括:中英文拆分模块,用于获取待分词的BOM文本数据,对所述BOM文本数据进行中英文拆分处理,得到切割文本集;读取模块,用于读取所述切割文本集中的切割文本;判断模块,用于判断所述切割文本是否为中文文本;分词模块,用于若为中文文本,则根据预置jieba函数,对所述切割文本进行分词处理,得到切割分词集,以及将所述切割分词集确定为分词数据;筛选拆分模块,用于若不为中文文本,则根据的预置英文数字校验筛选算法,对所述切割文本进行筛选拆分处理,得到英文数字的分词数据;组合模块,用于将所有的分词数据组合为分词数据集,将所述分词数据集确定为所述BOM文本数据的分词结果。
[0018]本专利技术第三方面提供了一种BOM文本的分词设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述BOM文本的分词设备执行上述的BOM文本的分词方法。
[0019]本专利技术的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的BOM文本的分词方法。
[0020]在本专利技术实施例中,BOM 领域专有名词众多,尤其是型号词千变万化,根据BOM 文本特点,对于中英文进行分开处理,并且重点初步解决了非中文的分隔符的判断问题,分词速度快,可以不断迭代。根据每个BOM词汇的具体构成细分处理,最终解决本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种BOM文本的分词方法,其特征在于,包括步骤:获取待分词的BOM文本数据,对所述BOM文本数据进行中英文拆分处理,得到切割文本集;读取所述切割文本集中的切割文本;判断所述切割文本是否为中文文本;若为中文文本,则根据预置jieba函数,对所述切割文本进行分词处理,得到切割分词集,以及将所述切割分词集确定为分词数据;若不为中文文本,则根据的预置英文数字校验筛选算法,对所述切割文本进行筛选拆分处理,得到英文数字的分词数据;将所有的分词数据组合为分词数据集,将所述分词数据集确定为所述BOM文本数据的分词结果。2.根据权利要求1所述的BOM文本的分词方法,其特征在于,所述根据的预置英文数字校验筛选算法,对所述切割文本进行筛选拆分处理,得到英文数字的分词数据包括:读取所述切割文本的字符数,读取预置筛选词典;判断所述字符数是否小于预置文本长度阈值;若小于文本长度阈值,则判断所述字符数是否为大于预置整体拆分阈值;若大于预置整体拆分阈值,则根据预置独立拆分算法,对所述切割文本进行数字英文独立拆分处理,得到英文数字独立组合的分词数据;若不大于预置整体拆分阈值,则根据预置整体拆分算法和所述筛选词典,对所述切割文本进行数字英文整体拆分处理,得到英文数字整体组合的分词数据;若未小于文本长度阈值,则根据预置字符比例算法和所述筛选词典,对所述切割文本进行比例拆分处理,得到英文数字的分词数据。3.根据权利要求2所述的BOM文本的分词方法,其特征在于,所述根据预置字符比例算法和所述筛选词典,对所述切割文本进行比例拆分处理,得到英文数字的分词数据包括:读取预置分割字符集,根据所述分割字符集,对所述切割文本进行全切分处理,得到全切分字符集;将所述全切分字符集中全切分字符与所述筛选词典进行匹配筛选,得到N个全切分匹配字符,其中,N为非负整数;统计N个全切分匹配字符占所述全切分字符集的比例值;判断所述比例值是否超过预置比例阈值;若超过比例阈值,则将所述全切分字符集确定为英文数字的分词数据;若未超过比例阈值,则将所述切割文本确定为英文数字的分词数据。4.根据权利要求2所述的BOM文本的分词方法,其特征在于,所述根据预置整体拆分算法和所述筛选词典,对所述切割文本进行数字英文整体拆分处理,得到英文数字整体组合的分词数据包括:根据所述筛选词典中的筛选词匹配所述切割文本中的字符数据,得到匹配结果;基于所述匹配结果,对...

【专利技术属性】
技术研发人员:杜飞高宇鹏刘武刘松山王园园王安李六七
申请(专利权)人:深圳前海硬之城信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1