文本语义匹配方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:25551130 阅读:27 留言:0更新日期:2020-09-08 18:50
本发明专利技术公开了文本语义匹配方法、装置、计算机设备及存储介质,涉及语义解析技术领域,包括获取与接收的待回答文本数据对应的当前语义向量;获取各提问文本数据分别对应的语义向量以组成语义向量集合,获取当前语义向量与语义向量集合中各语义向量的相似度;若语义向量集合中各语义向量与当前语义向量的相似度中无超出相似度阈值对应的目标语义向量,获取待回答文本数据对应的待编码向量以输入至编码器得到编码向量;获取编码向量与语义向量集合中各语义向量的相似度,以获取相似度为最大值对应的第一最佳候选语义向量,获取对应的第一答复文本数据。该方法实现了对文本语义的准确获取,且由于事先将文本转化为语义向量,提高了文本的匹配效率。

【技术实现步骤摘要】
文本语义匹配方法、装置、计算机设备及存储介质
本专利技术涉及语义解析
,尤其涉及一种文本语义匹配方法、装置、计算机设备及存储介质。
技术介绍
在智能问答系统中,文本匹配(TextMatching)模块是其重要的组成构件之一。现有的技术方案主要包括基于特征的文本匹配、基于表示型(Representation-Based)的文本匹配和基于交互型(Interaction-Based)的文本匹配。目前,基于特征的文本匹配方法主要是利用TF-IDF(即词频-逆文本频率指数)、BM25(基于概率检索模型提出的算法)、LDA(是一种文档主题生成模型)等方法,提取文本对中的关键词特征,并映射为同一语义空间中的两个向量,然后采用向量距离、余弦相似度、或者通过简单的线性模型来计算文本对(在问答系统中一般是Q-Q对)匹配程度。该方法其本质是基于字面的匹配,当文本中存在语言多义同义时,则文本匹配结果准确率低。基于表示型的文本匹配,分别对两个句子进行编码,无需考虑两个句子之间词和词的关系,如微软公司提出的DSSM模型等,由于其编码了一些与文本意义不本文档来自技高网...

【技术保护点】
1.一种文本语义匹配方法,其特征在于,包括:/n判断是否接收到用户端发送的待回答文本数据;/n若接收到所述待回答文本数据,获取与所述待回答文本数据对应的当前语义向量;/n获取已存储知识库中的各提问文本数据分别对应的语义向量,以组成语义向量集合,获取所述当前语义向量与所述语义向量集合中各语义向量的相似度;/n判断所述语义向量集合中各语义向量与所述当前语义向量的相似度中是否有超出预先设置的相似度阈值对应的目标语义向量;/n若所述语义向量集合中各语义向量与所述当前语义向量的相似度中无超出所述相似度阈值对应的目标语义向量,获取所述待回答文本数据对应的待编码向量,以输入至基于多头注意力机制的编码器得到编...

【技术特征摘要】
1.一种文本语义匹配方法,其特征在于,包括:
判断是否接收到用户端发送的待回答文本数据;
若接收到所述待回答文本数据,获取与所述待回答文本数据对应的当前语义向量;
获取已存储知识库中的各提问文本数据分别对应的语义向量,以组成语义向量集合,获取所述当前语义向量与所述语义向量集合中各语义向量的相似度;
判断所述语义向量集合中各语义向量与所述当前语义向量的相似度中是否有超出预先设置的相似度阈值对应的目标语义向量;
若所述语义向量集合中各语义向量与所述当前语义向量的相似度中无超出所述相似度阈值对应的目标语义向量,获取所述待回答文本数据对应的待编码向量,以输入至基于多头注意力机制的编码器得到编码向量;以及
获取所述编码向量与所述语义向量集合中各语义向量的相似度,以获取所述语义向量集合中各语义向量与所述编码向量之间的相似度为最大值对应的第一最佳候选语义向量,获取与所述第一最佳候选语义向量对应的第一答复文本数据并发送至用户端。


2.根据权利要求1所述的文本语义匹配方法,其特征在于,所述获取所述待回答文本数据对应的待编码向量,以输入至基于多头注意力机制的编码器得到编码向量,包括:
获取所述待回答文本数据进行关键词抽取对应得到的当前关键词集合;
获取所述关键词集合中各关键词对应的位置编码和词向量,以由各关键词对应的位置编码和词向量组成与各关键词对应的待编码向量;
将所述关键词集合中各关键词对应的待编码向量输入至所述编码器,得到与所述待回答文本数据对应的编码向量。


3.根据权利要求1所述的文本语义匹配方法,其特征在于,所述判断所述语义向量集合中各语义向量与所述当前语义向量的相似度中是否有超出预先设置的相似度阈值对应的目标语义向量之后,还包括:
若所述语义向量集合中各语义向量与所述当前语义向量的相似度中有超出所述相似度阈值对应的目标语义向量,获取对应的目标语义向量以组成目标语义向量集合;
获取所述目标语义向量集合中各语义向量与所述当前语义向量的相似度为最大值对应的语义向量,以作为第二最佳候选语义向量,获取与所述第二最佳候选语义向量对应的第二答复文本数据并发送至用户端。


4.根据权利要求1所述的文本语义匹配方法,其特征在于,所述获取与所述待回答文本数据对应的当前语义向量,包括:
将所述待回答文本数据通过基于概率统计分词模型进行分词,得到与所述待回答文本数据对应的分词结果;
通过词频-逆文本频率指数模型,抽取所述分词结果按词频-逆文本频率指数降序排序后未超出预设的排名阈值的关键词,以组成分词关键词集合;
通过Word2Vec模型获取所述分词关键词集合中各关键词对应的词向量,以由所述分词关键词集合中各关键词对应的词向量及各词向量对应的权重,获取与所述待回答文本数据对应的当前语义向量。


5.根据权利要求2所述的文本语义匹配方法,其特征在于,所述获取所述关键词集合中各关键词对应的位置编码和词向量,包...

【专利技术属性】
技术研发人员:李小娟徐国强
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1