Including the calculation method, a text similarity: step (S1), according to the classification of presupposition and theme classification based on user intent, according to historical texts, aiming at creating intention recognition classification model of the historical text phrase, the intention recognition model reflects the probability in the classification under the theme of the phrase; step (S2), will serve as the object similarity text segmentation object corresponding to the phrase the intention recognition classification model of the object phrase, the intention recognition classification model based on the sum of the probability and normalization of the object phrase, to obtain the object intention classification vector text, the the intention of classification reflects the probability vector in the classification of the object under the theme of the text; and step (S3), according to the intention classification vector, using cosine method to get two The similarity of the object text.
【技术实现步骤摘要】
文本相似度计算方法
本专利技术涉及一种文本相似度计算方法,特别涉及利用意图识别分类模型的文本相似度计算方法。
技术介绍
文本相似度,即计算两个问题是否相似的算法,其作为一种最基础的算法有着广泛的应用,同时也是搜索引擎、文本排序、关联问题挖掘等一系列问题的核心。如果能有效地计算两两文本之间的相似度,一系列的问题也能随之解决。意图识别,即识别一种行为的意图。例如,在问答对话中,提问者每句话都带有一定的意图,应答方根据对方的意图进行回答。相关问题在搜索引擎、聊天机器人等场景下有广泛的应用。尤其,在聊天机器人中,意图识别是整个系统的核心模块。在回答用户的问题时,事先将所有问题划分为一个个主题即按用户的意图进行分类的分类主题(以公司客服与用户对话为例,一个主题就是一个业务点。例如,有关退换货、有关发货地址等)。用户每次提问,都将问题映射到某个主题中,之后给出特定主题对应的答案。机器学习就是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。常见的机器学习方法可以分为监督学习、半监督学习和无监督学习。所谓监督学习,就是从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据该函数来预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是可以预先标注的。所谓主题模型就是对文本隐含主题进行建模的方法。给定训练语料,自动地将训练语料划分为不同的主题,用于预测新的语料属于哪个主题。LR(Logisticregression)即逻辑回归算法,是一种常用的监督学习算法。Bagofwords(词袋),是一 ...
【技术保护点】
一种文本相似度计算方法,包括:步骤(S1),按照预设的基于用户意图而分类的分类主题,根据历史文本,创建针对所述历史文本中的词组的意图识别分类模型,该意图识别分类模型反映了所述词组在所述分类主题下的概率;步骤(S2),将作为相似度计算对象的对象文本分割为与上述意图识别分类模型中的所述词组对应的对象词组,基于所述意图识别分类模型,对所述对象词组的所述概率进行相加并归一,获得所述对象文本的意图分类向量,该意图分类向量反映了所述对象文本在所述分类主题下的概率;以及步骤(S3),根据所述意图分类向量,利用余弦法求取两个所述对象文本的相似度。
【技术特征摘要】
1.一种文本相似度计算方法,包括:步骤(S1),按照预设的基于用户意图而分类的分类主题,根据历史文本,创建针对所述历史文本中的词组的意图识别分类模型,该意图识别分类模型反映了所述词组在所述分类主题下的概率;步骤(S2),将作为相似度计算对象的对象文本分割为与上述意图识别分类模型中的所述词组对应的对象词组,基于所述意图识别分类模型,对所述对象词组的所述概率进行相加并归一,获得所述对象文本的意图分类向量,该意图分类向量反映了所述对象文本在所述分类主题下的概率;以及步骤(S3),根据所述意图分类向量,利用余弦法求取两个所述对象文本的相似度。2.根据权利要求1所述的文本相似度计算方法,其特征在于,所述余弦法的公式为:其中,cosθ表示...
【专利技术属性】
技术研发人员:俞晓光,陶玮,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。