一种基于SaaS的保险自动问答方法及系统技术方案

技术编号:30798308 阅读:17 留言:0更新日期:2021-11-16 08:03
本发明专利技术提出一种基于SaaS的保险自动问答方法及系统,所述方法包括以下步骤:(1)输入问句Question;(2)共享特征抽取;(3)实体识别;(4)实体关系抽取;(5)语料库选择;(6)生成答案Answer。本发明专利技术提出的基于SaaS的保险自动问答方法及系统,不仅满足了保险中介平台自身对对话系统的需求,还为缺乏IT能力的小型保险中介和个人搭建自己的对话系统,提供了技术解决方案,实现共赢,具有十分重要的使用价值。具有十分重要的使用价值。具有十分重要的使用价值。

【技术实现步骤摘要】
一种基于SaaS的保险自动问答方法及系统


[0001]本专利技术属于自然语言处理领域,具体涉及一种基于SaaS的保险自动问答方法及系统。

技术介绍

[0002]问答系统(Question Answering System,QAS)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题,其研究兴起的主因是人们对快速、准确地获取信息的需求。保险中介是指介于保险经营机构之间或保险经营机构与投保人之间,专门从事保险业务咨询与销售、风险管理与安排、价值衡量与评估、损失鉴定与理算等中介服务活动,并从中依法获取佣金或手续费的单位或个人。移动互联网的发展,使微信、微博、QQ成了保险知识传播的媒介,越来越多的知识涌入各个平台。保险代理人对保险知识和保险条款的理解良莠不齐,规模较小的保险中介没有能力开发成熟的IT系统,而大型保险中介对保险信息的收集、清洗、校正、整合是专业的,有能力对输出IT能力。
[0003]目前保险代理平台的问答系统通常以离线客服的形式,只为本平台的APP、微信公众号等服务。鉴于问答系统对研发人员要求高,研发投入大,对于有问答系统需求的小型中介,只能向大型保险机构购买相关服务。SaaS(Software

as

a

Service)平台是运营SaaS软件的平台。SaaS提供商为企业搭建信息化所需要的所有网络基础设施及软件、硬件运作平台,并负责所有前期的实施、后期的维护等一系列服务,企业无需购买软硬件、建设机房、招聘IT人员,即可通过互联网使用信息系统。
[0004]有鉴于此,本专利技术提出了一种基于SaaS平台的保险自动问答方法及系统,以解决上述问题。

技术实现思路

[0005]本专利技术的目的是:为了解决现有技术存在的问题,本专利技术提出了一种基于SaaS平台的保险自动问答方法及系统,不仅能满足大型保险中介自身对问答系统的需求,还可以将问答系统输出给小型中介平台,不但减少了小型中介的IT成本,也可以提高大型保险中介的收入,互利共赢。
[0006]为了解决上述问题,本专利技术所采用的技术方案是:一种基于SaaS的保险自动问答方法,应用于保险自动问答系统,所述方法依次包括如下步骤:
[0007](1)输入问句Question;
[0008](2)共享特征抽取:使用基于Bert方式构建共享特征抽取模块,得到共享特征抽取模型Bert;
[0009](3)实体识别:将Question输入共享特征抽取模型Bert,经过Softmax层,识别其中的实体,并用相应的label表示;
[0010](4)实体关系抽取:在Question经过实体识别模块获取实体后,通过关系分类模块输出实体之间的关系;
[0011](5)语料库选择:将[CLS]和Question问句输入共享特征抽取模块Bert,经过特征提取、关系融合,获得[CLS]和Question问句的特征矩阵,其中[CLS]表示句子的开始,将[CLS]对应的向量作为Question的特征向量,该特征向量的维度是128,经过Softmax层构建分类模型,问句通过分类模型后,给出该问句属于私有语料库、公有语料库、专业语料库、推荐语料库的概率值,选择最大概率值的语料库作为生成Answer的语料库;
[0012](6)生成答案Answer:根据已建立的answer模板数据库,通过将实体识别模块和实体关系抽取模块提取的实体和实体关系,映射到模板,最终生成相应的answer返回给系统,输出答案Answer。
[0013]进一步的,所述步骤(1)具体包括:用户通过微信公众号、微博或QQ聊天工具的输入框输入问句,通过后台系统上传到问答系统,等待获取答案Answer。
[0014]进一步的,所述步骤(2)包括:
[0015](2.1)通过保险关键词爬虫收集百度、微博、微信公众号的保险领域相关资料及保险强相关的网站数据,不限于新闻、聊天、保险条款、疾病;
[0016](2.2)将(2.1)获取的保险资料去掉无效数据,按标点符号为分隔符,按行存储到txt格式文件中;
[0017](2.3)将(2.2)生成的txt文本输入到共享特征抽取模型Bert中,经训练得到保险领域的词向量模型,并保存成h5格式,用户输入系统的保险问句被转化为64行*128列的矩阵,其中行表示句子的最大长度为64,列表示每个字由128维的向量表示。
[0018]进一步的,所述步骤(3)包括:
[0019](3.1)识别出实体词边界,基于BertForTokenClassification的命名实体识别方法属于有监督的学习方法,利用规则标注的大规模语料对BertForTokenClassification模型的参数进行训练,得到实体识别模块的预训练模型,Question通过实体识别模块,得到问句中各个实体的开始位置和结束位置;
[0020](3.2)识别出实体的类型,根据实体的开始和结束位置,将实体组组合并将其转为保险名称、年龄、性别、疾病、犹豫期、金额这些具体实体类型。
[0021]进一步的,所述步骤(4)包括:
[0022](4.1)将Question输入共享特征抽取模块Bert,得到表示Question64*128的特征矩阵,将矩阵输入RE Module实体关系抽取模块,输入Fully Connected全连接神经网络;
[0023](4.2)实体识别模块的输出,经过转换得到一个跟输入序列长度相同的,转化为固定维度的序列,拼接得到的向量分别通过一个Feed Forward前馈神经网络层,通过一个Biaffine分类器,预测出实体之间的关系;Biaffine分类器的实际表示如下:
[0024][0025][0026]其中,表示实体h
j
和实体h
k
之间的关系概率;和分别表示实体h
j
和h
k
的向量;表示x1接受x2依赖的概率;U是维度为m*d*d的仿射变换,m是输入问句的长度,d是输入向量的维度;W(x1||x2)表示x1和x2的拼接转换向量,b表示偏置向量。
[0027]进一步的,所述步骤(6)包括:
[0028](6.1)租户通过后台系统上传关注的保险知识,以Question|Answer存储到csv中,通过后台上传csv,并解析csv中的Question、Answer构建自身的私有语料库;
[0029](6.2)SaaS系统开发平台利用自己的技术优势,经过抓取、清洗、提取、人工审核步骤,建立公有语料库及专业语料库,租户按需在后台配置是否启用相应的语料库;系统统计某一时间段最热门或者租户配置的引导问题构成推荐语料库;
[0030](6.3)根据已建立的answer模板数据库,通过将实体识别模块和实体关系抽取模块提取的实体和实体关系,映射到模板,最终生成相应的answer返回给租户接入的系统,完成问答流程。...

【技术保护点】

【技术特征摘要】
1.一种基于SaaS的保险自动问答方法,应用于保险自动问答系统,所述方法依次包括如下步骤:(1)输入问句Question;(2)共享特征抽取:使用基于Bert方式构建共享特征抽取模块,得到共享特征抽取模型Bert;(3)实体识别:将Question输入共享特征抽取模型Bert,经过Softmax层,识别其中的实体,并用相应的label表示;(4)实体关系抽取:在Question经过实体识别模块获取实体后,通过关系分类模块输出实体之间的关系;(5)语料库选择:将[CLS]和Question问句输入共享特征抽取模块Bert,经过特征提取、关系融合,获得[CLS]和Question问句的特征矩阵,其中[CLS]表示句子的开始,将[CLS]对应的向量作为Question的特征向量,该特征向量的维度是128,经过Softmax层构建分类模型,问句通过分类模型后,给出该问句属于私有语料库、公有语料库、专业语料库、推荐语料库的概率值,选择最大概率值的语料库作为生成Answer的语料库;(6)生成答案Answer:根据已建立的answer模板数据库,通过将实体识别模块和实体关系抽取模块提取的实体和实体关系,映射到模板,最终生成相应的answer返回给系统,输出答案Answer。2.如权利要求1所述的一种基于SaaS的保险自动问答方法,其特征在于,所述步骤(1)具体包括:用户通过微信公众号、微博或QQ聊天工具的输入框输入问句,通过后台系统上传到问答系统,等待获取答案Answer。3.如权利要求1所述的一种基于SaaS的保险自动问答方法,其特征在于,所述步骤(2)进一步包括:(2.1)通过保险关键词爬虫收集百度、微博、微信公众号的保险领域相关资料及保险强相关的网站数据,不限于新闻、聊天、保险条款、疾病;(2.2)将(2.1)获取的保险资料去掉无效数据,按标点符号为分隔符,按行存储到txt格式文件中;(2.3)将(2.2)生成的txt文本输入到共享特征抽取模型Bert中,经训练得到保险领域的词向量模型,并保存成h5格式,用户输入系统的保险问句被转化为64行*128列的矩阵,其中行表示句子的最大长度为64,列表示每个字由128维的向量表示。4.如权利要求1所述的一种基于SaaS的保险自动问答方法,其特征在于,所述步骤(3)进一步包括:(3.1)识别出实体词边界,基于BertForTokenClassification的命名实体识别方法属于有监督的学习方法,利用规则标注的大规模语料对BertForTokenClassification模型的参数进行训练,得到实体识别模块的预训练模型,Question通过实体识别模块,得到问句中各个实体的开始位置和结束位置;(3.2)识别出实体的类型,根据实体的开始和结束位置,将实体组组合并将其转为保险名称、年龄、性别、疾病、犹豫期、金额这些具体实体类型。5.如权利要求1所述的一种基于SaaS的保险自动问答方法,其特征在于,所述步骤(4)进一步包括:
(4.1)将Question输入共享特征抽取模块Bert,得到表示Question64*128的特...

【专利技术属性】
技术研发人员:王晶
申请(专利权)人:青岛全掌柜科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1