一种电子元器件型号词的自动提取方法及系统技术方案

技术编号:28502423 阅读:23 留言:0更新日期:2021-05-19 22:48
本发明专利技术公开了一种电子元器件型号词的自动提取方法及系统,该方法包括:根据训练文档进行型号列名字典的构建以及型号词推测模型的训练;获得待提取文档,根据型号列名字典进行表格中型号词的匹配提取,和/或根据型号词推测模型进行文本中型号词的推测提取。通过实施本发明专利技术可以从电子厂商的海量电子元器件资料自动提取出元器件的型号词,减少人力投入以及提高提取的准确率,改善电商系统体验。改善电商系统体验。改善电商系统体验。

【技术实现步骤摘要】
一种电子元器件型号词的自动提取方法及系统


[0001]本专利技术涉及计算机应用
,尤其涉及一种电子元器件型号词的自动提取方法及系统。

技术介绍

[0002]随着社会工业化的不断发展,电子行业也随之蓬勃发展,产生各种电子元器件以满足社会工业化需要,随之而产生的海量电子元器件资料,资料中记录大量的元器件型号及规格需要提取出来,用作电商系统用户搜索对应元器件的关键词。目前行业并未有行之有效的方法从海量的文章中自动提取出型号,而是依靠人为肉眼的识别、标记和提取,不仅耗费时力,而且在提取的时候,由于人员素质不一,导致大量型号提取错误,影响电商系统用户搜索的准确性和用户搜索意图推测及商品推荐效果,导致用户体验差。

技术实现思路

[0003]本专利技术要解决的技术问题在于,针对现有技术的缺陷,提供一种电子元器件型号词的自动提取方法及系统。
[0004]本专利技术解决其技术问题所采用的技术方案是:构造一种电子元器件型号词的自动提取方法,包括以下步骤:
[0005]S1:根据训练文档进行型号列名字典的构建以及型号词推测模型的训练;
[0006]S2:获得待提取文档,根据所述型号列名字典进行表格中型号词的匹配提取,和/或根据所述型号词推测模型进行文本中型号词的推测提取。
[0007]优选地,在本专利技术所述的电子元器件型号词的自动提取方法中,所述步骤S1包括:
[0008]S11:从至少一训练文档中提取文本数据和/或表格数据;其中,所述训练文档为已标记型号词的文档;
[0009]S12:判断是否存在表格数据,若是,则执行步骤S13,若否,则执行步骤S14;
[0010]S13:根据表格的表头数据,通过经验推测构建所述型号列名字典;
[0011]S14:利用分词器对文本数据进行分词,获取分词后的存在标记的型号词,并输入至所述型号词推测模型中进行识别训练。
[0012]优选地,在本专利技术所述的电子元器件型号词的自动提取方法中,所述步骤S2包括:
[0013]S21:从至少一待提取文档中提取文本数据和/或表格数据;
[0014]S22:判断是否存在表格数据,若是,则执行步骤S23,若否,则执行步骤S24;
[0015]S23:根据所述型号列名字典进行表格数据中表头下的型号词匹配,提取表格中的型号词;
[0016]S24:利用分词器对文本数据进行分词,根据所述型号词推测模型对分词后的词语进行是否为型号词的推测,提取文本中的型号词。
[0017]优选地,在本专利技术所述的电子元器件型号词的自动提取方法中,所述型号词推测模型包括用于对单组厂商的型号词进行推测的至少一个单组厂商型号词推测模型和/或用
于对所有厂商的型号词进行推测的所有厂商型号词推测模型;
[0018]所述步骤S14包括:根据训练文档所属的厂商属性获取对应的文本数据,利用分词器对文本数据进行分词,获取分词后的存在标记的型号词,并输入至与厂商属性对应的所述单组厂商型号词推测模型中进行识别训练;
[0019]和/或,利用分词器对文本数据进行分词,获取分词后的存在标记的型号词,并输入至所述所有厂商型号词推测模型中进行识别训练;
[0020]所述步骤S24包括:
[0021]根据待提取文档所属的厂商属性获取对应的文本数据,利用分词器对文本数据进行分词,根据与厂商属性对应的所述单组厂商型号词推测模型对分词后的词语进行是否为该厂商的型号词的推测,提取文本中为该厂商的型号词;
[0022]和/或,利用分词器对文本数据进行分词,根据所述所有厂商型号词推测模型对分词后的词语进行是否为型号词的推测,提取文本中的型号词。
[0023]优选地,在本专利技术所述的电子元器件型号词的自动提取方法中,所述方法还包括:在提取过程中对图片数据和/或乱码数据进行丢弃。
[0024]优选地,在本专利技术所述的电子元器件型号词的自动提取方法中,所述方法还包括:
[0025]S3:将提取到的型号词存储至型号词库中,并根据所述型号词库对训练文档中的型号词进行标记。
[0026]本专利技术还构造了一种电子元器件型号词的自动提取系统,包括:
[0027]训练模块,用于预先根据训练文档进行型号列名字典的构建以及型号词推测模型的训练;
[0028]提取模块,用于获得待提取文档,根据所述型号列名字典进行表格中型号词的匹配提取,和/或根据所述型号词推测模型进行文本中型号词的推测提取。
[0029]优选地,在本专利技术所述的电子元器件型号词的自动提取系统中,所述训练模块包括:
[0030]训练数据模块,用于从至少一训练文档中提取文本数据和/或表格数据;其中,所述训练文档为已标记型号词的文档;
[0031]训练判断模块,用于判断是否存在表格数据,若是,则执行字典构建模块,若否,则执行模型训练模块;
[0032]字典构建模块,用于根据表格的表头数据,通过经验推测构建所述型号列名字典;
[0033]模型训练模块,用于利用分词器对文本数据进行分词,获取分词后的存在标记的型号词,并输入至所述型号词推测模型中进行识别训练。
[0034]优选地,在本专利技术所述的电子元器件型号词的自动提取系统中,所述提取模块包括:
[0035]提取数据模块,用于从至少一待提取文档中提取文本数据和/或表格数据;
[0036]提取判断模块,用于判断是否存在表格数据,若是,则执行表格提取模块,若否,则执行文本提取模块;
[0037]表格提取模块,用于根据所述型号列名字典进行表格数据中表头下的型号词匹配,提取表格中的型号词;
[0038]文本提取模块,用于利用分词器对文本数据进行分词,根据所述型号词推测模型
对分词后的词语进行是否为型号词的推测,提取文本中的型号词。
[0039]优选地,在本专利技术所述的电子元器件型号词的自动提取系统中,所述型号词推测模型包括用于对单组厂商的型号词进行推测的至少一个单组厂商型号词推测模型和/或用于对所有厂商的型号词进行推测的所有厂商型号词推测模型;
[0040]所述模型训练模块包括:
[0041]单组厂商模型训练模块,用于根据训练文档所属的厂商属性获取对应的文本数据,利用分词器对文本数据进行分词,获取分词后的存在标记的型号词,并输入至与厂商属性对应的所述单组厂商型号词推测模型中进行识别训练;
[0042]和/或,所有厂商模型训练模块,用于利用分词器对文本数据进行分词,获取分词后的存在标记的型号词,并输入至所述所有厂商型号词推测模型中进行识别训练;
[0043]所述文本提取模块包括:
[0044]单组厂商文本提取模块,用于根据待提取文档所属的厂商属性获取对应的文本数据,利用分词器对文本数据进行分词,根据与厂商属性对应的所述单组厂商型号词推测模型对分词后的词语进行是否为该厂商的型号词的推测,提取文本中为该厂商的型号词;
[0045]和/或,所有厂商文本提取模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电子元器件型号词的自动提取方法,其特征在于,包括以下步骤:S1:根据训练文档进行型号列名字典的构建以及型号词推测模型的训练;S2:获得待提取文档,根据所述型号列名字典进行表格中型号词的匹配提取,和/或根据所述型号词推测模型进行文本中型号词的推测提取。2.根据权利要求1所述的电子元器件型号词的自动提取方法,其特征在于,所述步骤S1包括:S11:从至少一训练文档中提取文本数据和/或表格数据;其中,所述训练文档为已标记型号词的文档;S12:判断是否存在表格数据,若是,则执行步骤S13,若否,则执行步骤S14;S13:根据表格的表头数据,通过经验推测构建所述型号列名字典;S14:利用分词器对文本数据进行分词,获取分词后的存在标记的型号词,并输入至所述型号词推测模型中进行识别训练。3.根据权利要求2所述的电子元器件型号词的自动提取方法,其特征在于,所述步骤S2包括:S21:从至少一待提取文档中提取文本数据和/或表格数据;S22:判断是否存在表格数据,若是,则执行步骤S23,若否,则执行步骤S24;S23:根据所述型号列名字典进行表格数据中表头下的型号词匹配,提取表格中的型号词;S24:利用分词器对文本数据进行分词,根据所述型号词推测模型对分词后的词语进行是否为型号词的推测,提取文本中的型号词。4.根据权利要求3所述的电子元器件型号词的自动提取方法,其特征在于,所述型号词推测模型包括用于对单组厂商的型号词进行推测的至少一个单组厂商型号词推测模型和/或用于对所有厂商的型号词进行推测的所有厂商型号词推测模型;所述步骤S14包括:根据训练文档所属的厂商属性获取对应的文本数据,利用分词器对文本数据进行分词,获取分词后的存在标记的型号词,并输入至与厂商属性对应的所述单组厂商型号词推测模型中进行识别训练;和/或,利用分词器对文本数据进行分词,获取分词后的存在标记的型号词,并输入至所述所有厂商型号词推测模型中进行识别训练;所述步骤S24包括:根据待提取文档所属的厂商属性获取对应的文本数据,利用分词器对文本数据进行分词,根据与厂商属性对应的所述单组厂商型号词推测模型对分词后的词语进行是否为该厂商的型号词的推测,提取文本中为该厂商的型号词;和/或,利用分词器对文本数据进行分词,根据所述所有厂商型号词推测模型对分词后的词语进行是否为型号词的推测,提取文本中的型号词。5.根据权利要求3所述的电子元器件型号词的自动提取方法,其特征在于,所述方法还包括:在提取过程中对图片数据和/或乱码数据进行丢弃。6.根据权利要求1所述的电子元器件型号词的自动提取方法,其特征在于,所述方法还包括:S3:将提取到的型号词存储至型号词库中,并根据所述型号词...

【专利技术属性】
技术研发人员:樊芳华
申请(专利权)人:深圳市世强元件网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1