System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于智能汽车,具体涉及一种车型主数据匹配方法及系统。
技术介绍
1、随着智能汽车技术和互联网技术的发展,汽车领域涌现了一大批互联网公司,除了传统的汽车销售、租赁、保险等基础服务,还提供车辆定位和导航、自动驾驶技术、车联网技术、车辆安全技术等技术服务以及汽车金融服务、车辆维护和保养、车联网服务等诸多服务功能。
2、由于汽车领域业务范围广泛,车型数据来源复杂,涉及多个业务模块,汽车车型是业务模块之间信息流的重要内容,而同一车型在不同模块间的不同名称造成了整个系统的割裂,对不同业务之间的信息推送造成了不利影响。例如对于同一款车型,不同业务模块之间的车型数据可能存在差异,甚至含有错误信息,影响了不同业务模块之间的信息对接。由于车型数据量庞大,而车型匹配较为复杂,不同模块之间的车型如使用人工进行匹配显然不现实,因此,对不同业务系统的车型名称进行智能、准确的匹配成为急需解决的问题。
3、现有的智能车型识别方法多采用机器学习等模型进行车型识别训练,然而在同一款车型的车型描述数据存在差异甚至含有错误信息时,车型识别的准确度难以保障,不利于不同业务模块之间的车型数据准确、快速匹配。
技术实现思路
1、有鉴于此,本专利技术提出了一种车型主数据匹配方法及系统,用于解决汽车领域不同业务模块之间的车型数据不能准确匹配的问题。
2、本专利技术第一方面,公开了一种车型主数据匹配方法,所述方法包括:
3、构建车型数据的语料库,并对语料库中的样本数据进行分词
4、对分词处理后的语料库中的部分样本数据进行噪声增强处理,生成正样本;
5、根据生成的正样本对语料库进行样本扩增,构建训练集;
6、构建车型匹配模型,通过所述训练集训练车型匹配模型;
7、通过车型匹配模型进行不同业务模块的车型数据匹配。
8、在以上技术方案的基础上,优选的,所述对分词处理后的语料库中的部分样本数据进行噪声增强处理,生成正样本具体包括:
9、将语料库中的关键字划分成厂商、品牌、车系、车型四个不同类型;
10、分别计算对不同类型的关键字进行处理的概率;
11、按照对不同类型的关键字进行处理的概率,对部分样本数据中的关键字进行替换、删除处理、打乱顺序处理或添加处理;
12、根据替换、删除处理、打乱顺序处理或添加处理后的样本数据生成正样本。
13、在以上技术方案的基础上,优选的,所述分别计算对不同类型的关键字进行处理的概率具体包括:
14、分别计算语料库中厂商、品牌、车系、车型四个类型的关键字的权重:
15、
16、其中, type代表关键字的类型, type为厂商、品牌、车系、车型四个类型中的一种, kw代表关键字,表示类型 type下关键字 kw的权重;为类型 type下关键字 kw在语料库中出现的次数,为厂商、品牌、车系或车型的所有关键字在语料库中出现的总次数;
17、根据各个类型的关键字的权重分别计算对厂商、品牌、车系、车型四个类型的关键字进行处理的概率:
18、
19、其中,代表厂商、品牌、车系或车型的关键字的处理概率,为厂商、品牌、车系以及车型的关键字总数。
20、在以上技术方案的基础上,优选的,所述替换、删除处理包括:
21、从分词后的语料库中删除车型数据所使用的文字,得到噪声文字库;
22、从厂商、品牌、车系或车型的关键字的处理概率中随机选出一个概率,按照随机选出的概率从待处理的样本数据中抽样出一个关键字,对抽样出的关键字进行替换或删除,进行替换和删除的概率均为50%;
23、若进行替换,计算新替换的文字长度 l broken:
24、
25、其中, w lb= random(0.2,0.6), random(·)为随机函数, l kw为抽样出的关键字的文字长度;
26、根据新替换的文字长度 l broken从噪声文字库中查找长度最接近的关键字并替换原关键字。
27、在以上技术方案的基础上,优选的,所述打乱顺序处理具体包括:
28、将厂商、品牌、车系和车型的关键字的处理概率分别乘以一个修正系数αcorrect,得到新的处理概率值;
29、随机抽取一个新的处理概率值,并根据新的处理概率值的大小决定待处理样本数据是否需要打乱顺序,如需要打乱,则对待处理样本数据中的关键词的顺数进行随机的位置调换。
30、在以上技术方案的基础上,优选的,所述分别计算对不同类型的关键字进行处理的概率具体包括:
31、使用albert模型计算出不同厂商、品牌、车系的词向量,并分别计算不同厂商、品牌或车系之间的余弦相似度 sim score:
32、 sim score =cossim( w emb_1 , w emb_2)
33、其中, w emb_1、 w emb_2分别代表2个不同的厂商、品牌或车系的词向量, cossim()为余弦相似度计算函数;
34、使用 softmax公式分别计算厂商、品牌、车系的关键字的添加概率:
35、 p add =softmax( sim score)
36、所述添加处理具体包括:
37、随机选取厂商、品牌、车系中的一种类型数据,按照对应的添加概率进行抽样,向待处理样本数据中添加其他的厂商、品牌本文档来自技高网...
【技术保护点】
1.一种车型主数据匹配方法,其特征在于,所述方法包括:
2.根据权利要求1所述的车型主数据匹配方法,其特征在于,所述对分词处理后的语料库中的部分样本数据进行噪声增强处理,生成正样本具体包括:
3.根据权利要求2所述的车型主数据匹配方法,其特征在于,所述分别计算对不同类型的关键字进行处理的概率具体包括:
4.根据权利要求3所述的车型主数据匹配方法,其特征在于,所述替换、删除处理包括:
5.根据权利要求3所述的车型主数据匹配方法,其特征在于,所述打乱顺序处理具体包括:
6.根据权利要求2所述的车型主数据匹配方法,其特征在于,所述分别计算对不同类型的关键字进行处理的概率具体包括:
7.根据权利要求1所述的车型主数据匹配方法,其特征在于,所述车型匹配模型包括依次连接的ALBERT模型、卷积模块和循环模块;
8.根据权利要求7所述的车型主数据匹配方法,其特征在于,所述通过车型匹配模型进行不同业务模块的车型数据匹配的过程中,采用多级匹配算法进行车型主数据匹配;
9.一种车型主数据匹配系统,其特征在
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使计算机实现如权利要求1~7任一项所述的方法。
...【技术特征摘要】
1.一种车型主数据匹配方法,其特征在于,所述方法包括:
2.根据权利要求1所述的车型主数据匹配方法,其特征在于,所述对分词处理后的语料库中的部分样本数据进行噪声增强处理,生成正样本具体包括:
3.根据权利要求2所述的车型主数据匹配方法,其特征在于,所述分别计算对不同类型的关键字进行处理的概率具体包括:
4.根据权利要求3所述的车型主数据匹配方法,其特征在于,所述替换、删除处理包括:
5.根据权利要求3所述的车型主数据匹配方法,其特征在于,所述打乱顺序处理具体包括:
6.根据权利要求2所述的车型主数据匹配方法,其特征在于...
【专利技术属性】
技术研发人员:杨剑,
申请(专利权)人:星云海数字科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。