实体提取方法、实体提取装置及计算机可读存储介质制造方法及图纸

技术编号:38244912 阅读:11 留言:0更新日期:2023-07-25 18:06
本发明专利技术涉及文本处理技术领域,具体地涉及一种实体提取方法、装置及计算机可读存储介质,包括标注步骤S1,在训练文本数据中标注实体、实体类型、工业品实体和属性实体之间的对应关系以及工业品实体对应的属性实体的排序,并保存为标注数据;实体类型抽取步骤S2,基于工业BERT模型,根据步骤S1中标注的实体和实体类型,在原始文本数据中提取工业品实体和属性实体;实体关系抽取步骤S3,基于工业BERT模型,根据步骤S1中标注的工业品实体和属性实体之间的对应关系,判定步骤S2中提取的工业品实体和属性实体的关系;属性排序步骤S4,基于工业BERT模型,根据步骤S1中标注的工业品实体对应的属性实体的排序,对步骤S3中工业品实体对应的属性实体进行排序。的属性实体进行排序。的属性实体进行排序。

【技术实现步骤摘要】
实体提取方法、实体提取装置及计算机可读存储介质


[0001]本专利技术涉及文本处理
,具体地涉及一种工业品的实体提取方法、实体提取装置及计算机可读存储介质。

技术介绍

[0002]相较于一般产品的生产采购,工业品的品类繁多、规格参数复杂,而且行业内对于工业品选购的标准即工业品属性的定义和描述缺乏统一的标准。例如,对于轴承这个工业品实体,根据运动形式可以分为滚动轴承和活动轴承,根据载荷方向可以分为向心轴承和推力轴承,根据滚动体类型又可以分为圆柱滚子轴承、滚针轴承等,同时在轴承的选型过程,外径、内径、宽度、材料等又是决定了选型结果的关键属性。
[0003]但是,不同的企业、平台对于同一个工业品实体的属性定义和描述千差万别,例如对于同一型号的向心滚动轴承,A厂家的产品描述中将其定义为滚动轴承,而B厂家则需要的是向心轴承,若负责沟通采购的人员不具备相关的专业知识,则会严重影响双方的沟通交流,提高了沟通成本,同样也限制了采购和设计的统一化和数字化。
[0004]传统采购流程中,采购人员需要以自身企业属性及标准横向对比市场上不同标准,严重依赖采购人员的工业领域专业经验;对于制造商、供应商在工业市场上登记其工业品时,市场平台往往没有一套指定的标准来引导登记人员来和采购人员用语保持一致,致使登记人员同样需要较深的行业经验并需要了解当地区域的主流属性及标准,登记人员不熟悉的工业品往往难以合理地登记,导致被采购的机会大大降低。从而导致各个环节对人力成本、时间成本的大幅增加,整个供应链变得复杂和低效。
[0005]现有技术中,一些工业品网站提供了针对部分商品提供了一套指定的商品属性,来提供登记人员按照其标准填写参数以及提供给采购人员可选择的属性范围,来降低双方的人力消耗,提高整个采购流程的易用性。但是目前绝大多数网站都是依托于专业人员对工业品的熟悉程度来人力整合商品的属性参数,由于工业品数量繁多、属性错综复杂,仅依靠人力几乎不可能完成大规模的属性整合。

技术实现思路

[0006]针对以上问题,本专利技术提供了一种工业品的实体提取方法、实体提取装置及计算机可读存储介质。上述工业品的实体提取方法能够通过深度学习模型实现文本中工业品实体提取的自动化,大大提升了工业品实体提取的效率和准确性,进而还能够将提取到的数据结构化、统一化以便后续的参考使用。
[0007]本专利技术的技术方案中,提供了一种用于工业品的实体提取方法,包括标注步骤S1,在训练文本数据中标注实体、实体类型、工业品实体和属性实体之间的对应关系以及工业品实体对应的属性实体的排序,并保存为标注数据;实体类型抽取步骤S2,基于工业BERT模型,根据步骤S1中标注的实体和实体类型,在原始文本数据中提取工业品实体和属性实体;实体关系抽取步骤S3,基于工业BERT模型,根据步骤S1中标注的工业品实体和属性实体之
间的对应关系,判定步骤S2中提取的工业品实体和属性实体的关系;属性排序步骤S4,基于工业BERT模型,根据步骤S1中标注的工业品实体对应的属性实体的排序,对步骤S3中工业品实体对应的属性实体进行排序。
[0008]根据本专利技术的技术方案,根据训练文本数据预设并保存工业品实体和属性实体之间的关系以及各个工业品实体对应的多个属性实体的排序,然后通过训练得到的工业BERT模型在原始文本数据中进行自动的实体抓取、属性匹配和属性排序动作,从而实现高效准确的关键数据集实体的提取。上述实体提取方法的泛化性高,能够方便地迁移到各种不同的工业品领域中,而且深度学习的计算效率高,在无并发的计算中即可达到每秒仅10万字的文本的读取计算,并且在存储和计算资源的允许下,能够方便地进行扩充以提高数据计算量和计算速度。
[0009]优选地,本专利技术的技术方案中,实体提取方法还包括预训练步骤S0,基于BERT模型,通过预设的训练文本数据进行预训练,得到工业BERT模型。
[0010]根据本专利技术的技术方案,通过丰富和扩充预设的训练文本数据,可以使本专利技术中的工业BERT模型高效自动化地学习各种各样的工业领域中的工业品文本信息,从而通过丰富大量的数据实现模型的完整性和准确性,也能够方便地将工业BERT模型迁移到其他的工业品领域中。
[0011]本专利技术的技术方案中,在实体提取方法的标注步骤S1中,还标记了实体在训练文本数据中的位置。
[0012]根据本专利技术的技术方案,通过标记实体在训练文本数据中的位置,能够标记实体的字符长度以及各个实体之间的位置关系,以便于提高后续工业BERT模型对文本中实体的提取的效率和准确性。
[0013]优选地,本专利技术的技术方案中,在实体提取方法的实体类型抽取步骤S2中,在提取工业品实体和属性实体时,标注实体的实体类型。
[0014]根据本专利技术的技术方案,在提取工业品实体和属性实体的同时标注实体的实体类型,能够实现对工业品实体和属性实体这两种类型实体的区分,以便后续对工业品实体和属性实体的快速提取以及对两者之间关系的判断。
[0015]进一步地,本专利技术的技术方案中,在实体提取方法的实体关系抽取步骤S3中,在原始文本数据中实体的前后插入位置字符,位置字符分别与实体的第一个字符和最后一个字符共用位置编码,位置字符包括工业品位置字符和属性位置字符。
[0016]根据本专利技术的技术方案,通过位置字符来标记定位实体字符的边界,以便更好地携带实体信息并据此判断实体之间的关系。
[0017]优选地,本专利技术的技术方案中,实体提取方法的属性排序步骤S4包括样本标记步骤S41,对原始文本数据中的样本进行标记,工业品实体标记为工业品样本,属性实体标记为属性样本,原始文本数据中的其余文本标记为普通样本;样本标签步骤S42,按照步骤S41中标记的样本的排序,第N个工业品实体对应的属性实体为第N

1个工业品实体和第N+1个工业品实体之间的全部属性实体;属性实体在步骤S1中标注的标注数据中时,属性实体的标签为正样本,否则属性实体的标签为负样本;关联度计算步骤S43,根据工业品实体、属性实体、工业品实体和属性实体的关系以及属性实体的标签,计算每个工业品实体对应的属性实体的关联度。
[0018]根据本专利技术的技术方案,通过将样本中的实体、实体关系进行准确地标记和提取,以便于进一步准确计算属性实体和工业品实体之间的关联度。
[0019]优选地,本专利技术的技术方案中,在样本标签步骤S42中,若第N

1个工业品实体和第N+1个工业品实体之间的全部属性实体中的正样本与负样本的比例大于预设比例,则提取原始文本数据中的其他属性实体作为负样本;若负采样仍小于预设比例,则从属性实体库中随机采样的属性实体作为负样本,直至满足负采样不小于预设比例。
[0020]根据本专利技术的技术方案,采样时始终使得负采样不小于预设比例,以保证采样数据的数据量,避免因采样数据过少导致的计算偏差或错误。
[0021]进一步地,本专利技术的技术方案中,实体提取方法的关联度计算步骤S43中,将工业品实体映射到原始文本数据中得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于工业品的实体提取方法,其特征在于,包括标注步骤S1,在训练文本数据中标注实体、实体类型、工业品实体和属性实体之间的对应关系以及所述工业品实体对应的所述属性实体的排序,并保存为标注数据;实体类型抽取步骤S2,基于工业BERT模型,根据所述标注步骤S1中标注的所述实体和所述实体类型,在原始文本数据中提取所述工业品实体和所述属性实体;实体关系抽取步骤S3,基于工业BERT模型,根据所述标注步骤S1中标注的所述工业品实体和所述属性实体之间的对应关系,判定所述实体类型抽取步骤S2中提取的所述工业品实体和所述属性实体的关系;属性排序步骤S4,基于工业BERT模型,根据所述标注步骤S1中标注的所述工业品实体对应的所述属性实体的排序,对所述实体关系抽取步骤S3中所述工业品实体对应的所述属性实体进行排序。2.如权利要求1所述的实体提取方法,其特征在于,还包括预训练步骤S0,基于BERT模型,通过预设的所述训练文本数据进行预训练,得到所述工业BERT模型。3.如权利要求2所述的实体提取方法,其特征在于,在所述标注步骤S1中,标记所述实体在所述训练文本数据中的位置。4.如权利要求3所述的实体提取方法,其特征在于,在所述实体类型抽取步骤S2中,在提取所述工业品实体和所述属性实体时,标注所述实体的所述实体类型。5.如权利要求4所述的实体提取方法,其特征在于,在所述实体关系抽取步骤S3中,在所述原始文本数据中所述实体的前后插入位置字符,所述位置字符分别与所述实体的第一个字符和最后一个字符共用位置编码,所述位置字符包括工业品位置字符和属性位置字符。6.如权利要求5所述的实体提取方法,其特征在于,所述属性排序步骤S4包括样本标记步骤S41,对所述原始文本数据中的样本进行标记,所述工业品实体标记为工业品样本,所述属性实体标记为属性样本,所述原始文本数据中的其余文本标记为普通样本;样本标签步骤S42,按照样本标记步骤S41中标记的所述样本的排序,第N个所述工业品实体对应的属性实体为第N

1个所述工业品实体和第N+1个工业品实体之间的全部所述属性实体;所述属性实体在所述标注步骤S1中标注的所述标注数据中时,所述属性实体的标签为正样本,否则所述属性实体的标签为负样本;关联度计算步骤S43,根据所述工业品实体、所述属性实体、所述工业品实体和所述属性实体的关系以及所述属性实体的标签,计算每个所述工业品实体对应的所述属性实体的关联度。7.如权利要求6所述的实体提取方法,其特征在于,在所述样本标签...

【专利技术属性】
技术研发人员:李春雨苏啸倪浩天
申请(专利权)人:米思米中国精密机械贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1