【技术实现步骤摘要】
汽修资料结构标准化方法、装置及电子设备和存储介质
本申请涉及数据处理
,更具体地说,涉及一种汽修资料结构标准化方法、装置及一种电子设备和一种计算机可读存储介质。
技术介绍
汽车维修资料的数据量较为庞大,各份资料内容有所偏差。在相关技术中,对汽车维修资料采用人工录入系统的方式,数据可靠性较差,录入效率较低,且数据杂乱无章。因此,如何提高汽修资料的录入效率和数据可靠性是本领域技术人员需要解决的技术问题。
技术实现思路
本申请的目的在于提供一种汽修资料结构标准化方法、装置及一种电子设备和一种计算机可读存储介质,提高了汽修资料的录入效率和数据可靠性。为实现上述目的,本申请提供了一种汽修资料结构标准化方法,包括:获取汽修资料和标准数据结构,将所述汽修资料按照预设规则划分为多个数据区段;其中,所述标准数据结构包括多个数据表;确定每个所述数据区段的实体词,并利用实体识别技术提取每两个所述实体词对应的数据区段之间的实体关系词;基于所述实体词和所述实体关系词构建三元关系集;其中 ...
【技术保护点】
1.一种汽修资料结构标准化方法,其特征在于,包括:/n获取汽修资料和标准数据结构,将所述汽修资料按照预设规则划分为多个数据区段;其中,所述标准数据结构包括多个数据表;/n确定每个所述数据区段的实体词,并利用实体识别技术提取每两个所述实体词对应的数据区段之间的实体关系词;/n基于所述实体词和所述实体关系词构建三元关系集;其中,所述单元关系集包括第一实体词、第二实体词和用于表征所述第一实体词和第二实体词的关系的实体关系词;/n根据所述三元关系集确定所述数据表中关键字段的值,以便生成标准化的汽修数据。/n
【技术特征摘要】
1.一种汽修资料结构标准化方法,其特征在于,包括:
获取汽修资料和标准数据结构,将所述汽修资料按照预设规则划分为多个数据区段;其中,所述标准数据结构包括多个数据表;
确定每个所述数据区段的实体词,并利用实体识别技术提取每两个所述实体词对应的数据区段之间的实体关系词;
基于所述实体词和所述实体关系词构建三元关系集;其中,所述单元关系集包括第一实体词、第二实体词和用于表征所述第一实体词和第二实体词的关系的实体关系词;
根据所述三元关系集确定所述数据表中关键字段的值,以便生成标准化的汽修数据。
2.根据权利要求1所述汽修资料结构标准化方法,其特征在于,将所述汽修资料按照预设规则划分为多个数据区段,包括:
将每个所述汽修资料按照段落进行划分,将每个所述段落作为每个所述数据区段。
3.根据权利要求1所述汽修资料结构标准化方法,其特征在于,所述确定每个所述数据区段的实体词,包括:
确定所述汽修资料的主题分布,将所述主题分布和每个所述数据区段输入分类模型中,得到每个所述数据区段的实体词。
4.根据权利要求3所述汽修资料结构标准化方法,其特征在于,所述确定所述汽修资料的主题分布,包括:
对所述汽修资料进行切词操作,并确定每个词的词频,以便得到所述汽修资料的词频分布;
利用目标概率函数基于所述词频分布确定所述汽修资料的主题分布。
5.根据权利要求1至4中任一项所述汽修资料结构标准化方法,其特征在于,所述根据所述三元关系集确定所述数据表中关键字段的值,包括:
确定所述三元关系集中的第一实体词对应的第一数据表和第二实体词对应的第二数据表;
在所述第一数据表中获取所述第一实体词对应的第一编码,在所述第二数据表中获取所述第二实体词对应的第二编码;
根据所述三元关系集中的关系实体词和第二编码在所述第一数据表中记录所述第一实体词与所述第二实体词的关系;
根据所述三元关系集中的关系实体词和第一编码在所述第二数据表中记录所述第一实体词与所述第二实体词的关系。
6.根据权利要求5所述汽修资料结构标准化方法,其特征在于,在所述第一数据表中获取所述第一实体词对应的第一编码,在所述第二数据表中获取所述第二实体词对应的第...
【专利技术属性】
技术研发人员:刘新,秦文礼,
申请(专利权)人:深圳市元征科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。