一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统技术方案

技术编号:19857642 阅读:23 留言:0更新日期:2018-12-22 11:43
本发明专利技术提供了一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统,具体方法包括,对文本中的语句进行分词;去除文本中的停用词,保留非停用词;按照文本词性对每个词赋予权重,根据每个词的重要级别进行分类,级别越高权重越高,级别越低权重越低;对文本中每个词的进行加权词向量表示;对加权后的词向量进行文本相似度匹配。与现有技术相比,能够更准确地实现问答匹配,便于更准确地识别用户意图,匹配相应回答模板的特点。

【技术实现步骤摘要】
一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统
本专利技术涉及一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统,涉及智能客服领域。
技术介绍
现有技术中,对话系统大体上可以分为三大类:闲聊型对话系统(Chitchat-bot)、检索型对话系统(IR-bot)、任务型对话系统(Task-bot)。随着人工智能的发展,对话系统的研究也取得了不同程度的成果,有的已经成功运用于各行各业。然而,部分行业的咨询自动问答系统并不多见,大多效果不理想,常常出现“答非所问”的现象,无法知晓用户意图,难以很好地实现问答匹配,降低了系统的准确率和招回率,对用户体验造成了伤害。有鉴于此,本专利技术人专门设计了一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统,本案由此产生。
技术实现思路
本专利技术提供了一种基于语义相似度的自动问答文本匹配方法,具有能够更准确地实现问答匹配,便于更准确地识别用户意图,匹配相应回答模板的特点。本专利技术还提供了一种基于语义相似度的自动问答方法及系统,具有能够更准确地识别用户意图,匹配相应回答模板的特点。根据本专利技术提供的一种基于语义相似度的自动问答文本匹配方法,具体方法包括,对文本进行分词操作,对文本中的语句进行分词;对文本进行去停词操作,去除文本中的停用词,保留非停用词;按照文本词性对每个词赋予权重,根据每个词的重要级别进行分类,级别越高权重越高,级别越低权重越低;文本中每个词的加权词向量表示为:t=v*w;文本相似度匹配,设文本a中每个词的加权词向量为a1,a2,...,an,文本b中每个词的加权词向量为b1,b2,...,bm,则文本a与b的相似度为:其中,v为词向量,w为词向量权重,n与m分别代表文本a、b中词的个数,i与j分别表示文本a、b中的某个词的顺序下标。所述重要级别由高到低包括核心、次核心、一般和不重要;其中,核心级别的字和/或词包括句子主干中的名词;次核心级别的字和/或词包括句子主干中的动词;一般级别的字和/或词包括代词、形容词和副词;不重要级别的字和/或词包括助词、标点、未知符号和语气词。所述方法还包括,把未分类的其他词性的词设置为一般级别的字和/或词。其中,核心级别的字和/或词权重为3;次核心级别的字和/或词权重为2;一般级别的字和/或词权重为1;不重要级别的字和/或词权重为0。所述方法还包括,把未分类的其他词性的词设置权重为1。根据本专利技术提供的一种基于语义相似度的自动问答文本匹配方法,采用上述自动问答文本匹配方法,应用于整形咨询自动问答匹配方法。根据本专利技术提供的一种基于语义相似度的自动问答方法,具体方法包括,在基于上述自动问答文本匹配方法的基础上进行匹配模型训练,基于训练好的模型,对问答对进行整理,实现用户的意图识别,匹配模板,给出相应回答。根据本专利技术提供的一种基于语义相似度的自动问答系统,其特征在于,包括客户端和服务端;其中服务端在基于上述自动问答文本匹配方法的基础上进行匹配模型训练,基于训练好的模型,对问答对进行整理,实现用户的意图识别,匹配模板,给出相应回答。与现有技术相比,本专利技术能够更准确地实现问答匹配,可更加准确地识别用户意图,从而匹配相应的回答模板,避免出现“答非所问”的现象,令对话系统更加更加顺畅和智能化,满足人工智能的需求,大大提升了用户的体验。附图说明图1为本专利技术其中一实施例的自动问答方法实现示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例和附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。一种基于语义相似度的自动问答文本匹配方法,具体方法包括,对文本进行分词操作,对文本中的语句进行分词;对文本进行去停词操作,去除文本中的停用词,保留非停用词;按照文本词性对每个词赋予权重,根据每个词的重要级别进行分类,级别越高权重越高,级别越低权重越低;文本中每个词的加权词向量表示为:t=v*w;文本相似度匹配,设文本a中每个词的加权词向量为a1,a2,...,an,文本b中每个词的加权词向量为b1,b2,...,bm,则文本a与b的相似度为:其中,v为词向量,w为词向量权重,n与m分别表示文本a、b中词的个数,i与j分别表示文本a、b中的某个词的顺序下标。停词,即停用词,是指在信息检索中,为节省存储孔家和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为StopWords(停用词)。作为本专利技术的一种具体实施方式,所述重要级别由高到低包括核心、次核心、一般和不重要;其中,核心级别的字和/或词包括句子主干中的名词;次核心级别的字和/或词包括句子主干中的动词;一般级别的字和/或词包括代词、形容词和副词;不重要级别的字和/或词包括助词、标点、未知符号和语气词。作为本专利技术的一种具体实施方式,所述方法还包括,把未分类的其他词性的词设置为一般级别的字和/或词。其中,核心级别的字和/或词权重为3;次核心级别的字和/或词权重为2;一般级别的字和/或词权重为1;不重要级别的字和/或词权重为0。所述方法还包括,把未分类的其他词性的词设置权重为1。一种基于语义相似度的自动问答文本匹配方法,采用上述自动问答文本匹配方法,应用于整形咨询自动问答匹配方法。作为本专利技术的一个具体实施方式,假设文本a:你们医院地址在哪?文本b:请问医院的地址是?分词后结果:a:你们医院地址在哪b:请问医院地址是去停用词结果:a:你们医院地址b:请问医院地址按照词性赋予每个词权重:假设每个词的词向量已经训练出来,每个词的加权词向量为:则文本a中词的加权词向量为v你们,3v医院,3v地址,b中词的加权词向量为2v请问,3v医院,3v地址。文本a、b的相似度:sim(a,b)=0.5*(max{v你们*2v请问,v你们*3v医院,v你们*3v地址}+max{3v医院*2v请问,3v医院*3v医院,3v医院*3v地址}+max{3v地址*2v请问,3v地址*3v医院,3v地址*3v地址})+0.5*(max{2v请问*v你们,2v请问*3v医院,2v请问*3v地址}+max{3v医院*v你们,3v医院*3v医院,3v医院*3v地址}+max{3v地址*v你们,3v地址*3v医院,3v地址*3v地址})在本具体实施例中,n表示名词,r表示代词,v表示动词。本专利技术还提供了一种基于语义相似度的自动问答方法,具体方法包括,在基于上述自动问答文本匹配方法的基础上进行匹配模型训练,基于训练好的模型,对问答对进行整理,实现用户的意图识别,匹配模板,给出相应回答。问题可答题归为两类,通用问题与专业问题。通用问题如询问医院地址、医院上班时间等,此类问题可以直接进行FAQ匹配,给出统一的回答;专业问题如割双眼皮多少钱、手术要多久、是永久的吗?此类问题需要先明确整形项目、整形方式等信息后才能给出回答。这些待明确的信息称为槽位,也就是说在回答相关问题时需要先填充槽位,即填槽。如图1所示,无论是回答通用问题还是专业问题本文档来自技高网...

【技术保护点】
1.一种基于语义相似度的自动问答文本匹配方法,其特征在于,具体方法包括,对文本进行分词操作,对文本中的语句进行分词;对文本进行去停词操作,去除文本中的停用词,保留非停用词;按照文本词性对每个词赋予权重,根据每个词的重要级别进行分类,级别越高权重越高,级别越低权重越低;文本中每个词的加权词向量表示为:t=v*w;文本相似度匹配,设文本a中每个词的加权词向量为a1,a2,...,an,文本b中每个词的加权词向量为b1,b2,...,bm,则文本a与b的相似度为:

【技术特征摘要】
1.一种基于语义相似度的自动问答文本匹配方法,其特征在于,具体方法包括,对文本进行分词操作,对文本中的语句进行分词;对文本进行去停词操作,去除文本中的停用词,保留非停用词;按照文本词性对每个词赋予权重,根据每个词的重要级别进行分类,级别越高权重越高,级别越低权重越低;文本中每个词的加权词向量表示为:t=v*w;文本相似度匹配,设文本a中每个词的加权词向量为a1,a2,...,an,文本b中每个词的加权词向量为b1,b2,...,bm,则文本a与b的相似度为:其中,v为词向量,w为词向量权重,n与m分别代表文本a、b中词的个数,i与j分别表示文本a、b中的某个词的顺序下标。2.根据权利要求1所述的自动问答文本匹配方法,其特征在于,所述重要级别由高到低包括核心、次核心、一般和不重要;其中,核心级别的字和/或词包括句子主干中的名词;次核心级别的字和/或词包括句子主干中的动词;一般级别的字和/或词包括代词、形容词和副词;不重要级别的字和/或词包括助词、标点、未知符号和语气词。3.根据权利要求1所述的自动问答文本匹配方法,其特征在于,所述方法还...

【专利技术属性】
技术研发人员:康祖荫肖龙源蔡振华李稀敏刘晓葳谭玉坤
申请(专利权)人:厦门快商通信息技术有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1