车联网智能问答系统技术方案

技术编号:38570303 阅读:7 留言:0更新日期:2023-08-22 21:05
本发明专利技术提供一种车联网智能问答系统,语料入库时,数据结构化处理模块将车联网常用问答对数据作为开源数据,对其进行结构化处理,进入离线索引处理后,问答语料库基于收集的开源数据集训练深度学习模型,基于训练好网络参数的深度学习模型,结合车联网问答数据,微调神经网络连接权值,采用SimCSE训练模型进一步扩增样本,之后依据问答语料库训练好的深度模型,部署语义向量抽取模块的模型服务;语义向量抽取模块获取问答对数据的语义向量,对语义向量数据建模,形成离线语义索引库。系统通过问答服务模块接收用户请求,对用户请求进行多路召回处理,将查询的向量与召回的向量做相似度计算,向客户发送相似度高的模型答案。向客户发送相似度高的模型答案。向客户发送相似度高的模型答案。

【技术实现步骤摘要】
车联网智能问答系统


[0001]本专利技术涉及一种智能交互系统,具体涉及一种应用于车联网的智能问答系统。

技术介绍

[0002]车联网日渐兴起,为了提升车机车联网功能的司乘使用体验,行业内提供了多种问答解决方案,从应用上分类,例如:在陪护领域的广泛使用的闲聊智能问答系统,在陪伴等非生产领域使用,无法用于特定领域,同时,闲聊机器人的对话语料要求广泛,对话语料数量非常巨大;针对特定行业垂直领域的智能问答机器人,例如车机助手、金融问答机器人,指向性非常明确,无法有效泛化到其他行业。从技术上分类,例如:基于字面检索的问答机器人,根据query中字面匹配的重复度,返回相似问答语句,无法实现否定语句的有效召回;基于向量的问答机器人,根据query获取其对应的embedding向量,再通过向量检索相同或相似的问答语句,向量机器人在训练深度模型时对领域的问答语料量要求较大。
[0003]目前市面上还没有一款针对车联网领域的智能问答系统,满足该场景需自研方案。

技术实现思路

[0004]本专利技术目的是提供一款针对车联网领域的智能问答系统,满足车联网场景需求。
[0005]为了实现上述目的,本专利技术提供一种车联网智能问答系统,包括如下模块:数据结构化处理模块、问答语料库、语义向量抽取模块、向量建模、语义索引库,上述模块应用于如下过程:语料入库、离线索引、在线查询,其中,其中,
[0006]语料入库时:
[0007]数据结构化处理模块对已有的车联网常用问答对数据进行结构化处理,作为语义向量抽取模块的深度学习模型的微调训练数据;
[0008]问答语料库是Elasticsearch库,收集数据结构化处理模块处理后的问答对数据形成问答数据集,用于构建离线索引以及关键字查询;
[0009]离线索引时:
[0010]问答语料库基于收集的开源数据集训练深度学习模型,将车联网常用的问答数据,通过中英互译、模型语义改写实现语料数据增长后,再通过数据结构化模块结构化处理的车联网问答数据微调深度学习模型参数;将微调后的深度学习模型,部署模型服务,作为语义向量抽取模块;
[0011]语义向量抽取模块抽取问答语料库中的车联网问答数据,获取车联网问答数据对应的语义向量,将对应的语义向量通过向量建模模块实现稠密向量建模,形成语料库中所有车辆网问答数据的语义索引库;
[0012]用户进行在线查询时:
[0013]系统通过问答服务模块接收用户查询语句后,对用户查询语句通过Elasticsearch库,实现字检索,检索出字面与用户查询语句相似的句子,形成候选集,候选
集通过语义向量抽取模块获取候选集的语义向量;
[0014]向量检索模块在用户查询语句的语义索引库中快速查找到与候选集的语义向量相似的语义向量,并进行相似度排序;
[0015]向量检索模块选取相似度高的作为模型答案TopN,通过问答服务模块向客户返回模型答案TOPN。
[0016]优选的,所述问答数据是中、英文、中英夹杂的问答数据。
[0017]更优选,结合车联网问答语料中中英文比例,调整中、英文、中英夹杂的语料比例为80:3:17。该比例与车联网问答语料中,中英文比例接近,是通过该语料训练的模型在车联网语料上的分类效果确定的该比例。虽然车联网问答语料中不包含全英文语料,训练模型的语料中,添加全英文语料有助于大模型的泛化性能。
[0018]优选的,所述深度学习模型是Bert深度神经网络语义模型。基于Bert的模型在NLP领域,各项测评任务重均取得了最优效果,所以本文选择Bert作为深度模型。
[0019]优选的,语料数据增长至1.5倍。
[0020]本专利技术设计的优势包括以下几点:针对特定的车联网垂直领域,对话语料区别于其他问答机器人。同时,在车联网垂直领域问答语料有限的情况下,通过迁移学习很好实现少样本情况下的embedding向量抽取。
[0021]车联网问答系统满足业务需求:问答检索准召率83%,远高于其他领域直接应用在车联网领域的问答机器人;处理流程分层结构清晰,模块耦合度低,稳定性高,灵活性和扩展性强。
附图说明
[0022]图1为本专利技术的一种车联网智能问答系统的整体结构图
[0023]图2为本专利技术的一种车联网智能问答系统的查询逻辑图
[0024]图3为本专利技术的一种车联网智能问答系统的实际展示效果图
具体实施方式
[0025]为清楚描述本专利技术,现结合附图进一步详细说明。
[0026]如图1所示的一种车联网智能问答系统,整体结构包括如下模块:数据结构化处理模块、问答语料库、语义向量抽取模块、向量建模、语义索引库,上述模块应用于如下过程:语料入库、离线索引、在线查询。
[0027]如图1及图2的车联网智能问答系统的查询逻辑图所示,其中:
[0028]语料入库时:
[0029]数据结构化处理模块对已有的车联网常用问答对数据进行结构化处理,作为语义向量抽取模块的深度学习模型的微调训练数据;
[0030]问答语料库是Elasticsearch库,收集数据结构化处理模块处理后的问答对数据形成问答数据集,用于构建离线索引以及关键字查询。
[0031]离线索引时:
[0032]问答语料库基于收集的开源数据集训练深度学习模型,将车联网常用的问答数据,通过中英互译、模型语义改写实现语料数据增长后,再通过数据结构化模块结构化处理
的车联网问答数据微调深度学习模型参数;将微调后的深度学习模型,部署模型服务,作为语义向量抽取模块;
[0033]语义向量抽取模块抽取问答语料库中的车联网问答数据,获取车联网问答数据对应的语义向量,将对应的语义向量通过向量建模模块实现稠密向量建模,形成语料库中所有车辆网问答数据的语义索引库;
[0034]用户进行在线查询时:
[0035]系统通过问答服务模块接收用户查询语句后,对用户查询语句通过Elasticsearch库,实现字检索,检索出字面与用户查询语句相似的句子,形成候选集,候选集通过语义向量抽取模块获取候选集的语义向量;
[0036]语义向量抽取模块获取用户查询语句对应的语义向量,将其通过向量建模模块实现稠密向量建模,形成用户查询语句的语义索引库;
[0037]向量检索模块在用户查询语句的语义索引库中快速查找到与候选集的语义向量相似的语义向量,并进行相似度排序;
[0038]向量检索模块选取相似度高的作为模型答案TopN,通过问答服务模块向客户返回模型答案TOPN。
[0039]本专利技术的系统,通过问答服务模块接收用户查询语句后,对用户查询语句进行了三路召回:
[0040](1)通过字检索,召回字面相似问答对至候选集;
[0041](2)通过语义向量抽取模块获取用户请求的语义向量,召回答案字面相似问答对数据至候选集;系统将候选集中的相似问答对数据通过查询向量模块获取语义向量发送到向量检索本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种车联网智能问答系统,其特征在于,包括如下模块:数据结构化处理模块、问答语料库、语义向量抽取模块、向量建模、语义索引库,上述模块应用于如下过程:语料入库、离线索引、在线查询,其中,语料入库时:数据结构化模块对已有的车联网常用的问答对数据进行结构化处理,作为语义向量抽取模块的深度学习模型的微调训练数据;问答语料库是Elasticsearch库,收集数据结构化处理模块处理后的问答数据形成数据集,用于构建离线索引以及关键字查询;离线索引时:问答语料库基于事先采集的网络开源问答数据训练深度学习模型;将车联网常用的问答数据,通过中英互译、模型语义改写实现语料数据增长后,再通过数据结构化模块结构化处理的车联网问答数据微调深度学习模型参数,将微调后的深度学习模型,部署模型服务,作为语义向量抽取模块;语义向量抽取模块抽取问答语料库中的车联网问答数据,获取车联网问答数据对应的语义向量,将对应的语义向量通过向量建模模块实现稠密向量建模,形成语料库中所有车辆网问答数据的语义索引库;在线查询时:系统通过问答服务模块接收用户查询语句后,对用户查询语句通过Elasticsearch库,...

【专利技术属性】
技术研发人员:叶飞杨柯张杰王俊岭林娟
申请(专利权)人:摩斯智联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1