用于语义解析的方法和系统技术方案

技术编号：18458729 阅读：24 留言：0更新日期：2018-07-18 12:40

本发明专利技术公开了一种用于语义解析的方法和系统，该方法包括：获得用户发送的文本信息中包含的一个或多个特征词；从预先构建的特征概率库中获取该一个或多个特征词中的每个特征词针对特征概率库中的每个分类业务的特征概率；基于所获得的每个特征词针对每个分类业务的特征概率获得文本信息针对该分类业务的联合概率，并将文本信息关联到特征概率库中的一个或多个分类业务；获得文本信息与相关联的一个或多个分类业务下的所有知识条目中的每个知识条目的相似度，并将文本信息匹配到相似度最高的知识条目。

Methods and systems for semantic parsing

The present invention discloses a method and system for semantic parsing, which includes obtaining one or more feature words contained in the text information sent by the user; obtaining each feature word in one or more feature words from the pre built feature probability library for each classification service in the feature probability library. Probability of obtaining the joint probability of text information for the classified service based on the characteristic probability of each feature word for each classification service, and linking text information to one or more classified services in the feature probability library, and obtaining all knowledge bars under one or more classified services associated with the text information. The similarity of each knowledge item and the matching of text information to the highest similarity knowledge item.

全部详细技术资料下载

【技术实现步骤摘要】
用于语义解析的方法和系统
本公开涉及移动通信业务支撑领域，更具体地，涉及用于语义解析的方法和系统。
技术介绍
近年来，搜索技术的发展推进了以搜索为基础的在线问答系统的出现以及更高级的交互式问答系统在各个领域的应用。交互式问答系统是指人与系统之间能够用自然语言的形式进行交互的、上下文相关的、在一个会话过程中连续的对话。目前的交互式问答系统多是针对某一具体领域的，系统的表现性能很大程度上依赖于该领域知识库的规模，系统的回复即是在该知识库中搜索到的与用户问句匹配的答案。领域不同，对应的知识库也不同。但是，以日常对话为内容的问答通常涉及到一个或多个领域。电信运营商的在线客服系统对人机自助服务的支持不是很好，要么只支持人工服务，要么自助服务对于用户的自然语言语义解析较差，同时需要大量的人工线下录入工作，包括对电信专业知识的录入和常用聊天语料的录入。而业务部门对繁琐的人工操作较为反感，由于无法长期坚持，导致机器人问答准确率逐渐下降。
技术实现思路
本专利技术的第一方面涉及一种用于语义解析的方法，包括：获得用户发送的文本信息中包含的一个或多个特征词；从预先构建的特征概率库中获取该一个或多个特征词中的每个特征词针对特征概率库中的每个分类业务的特征概率；基于所获得的每个特征词针对每个分类业务的特征概率获得文本信息针对该分类业务的联合概率，并将文本信息关联到特征概率库中的一个或多个分类业务；获得文本信息与相关联的一个或多个分类业务下的所有知识条目中的每个知识条目的相似度，并将文本信息匹配到相似度最高的知识条目。本专利技术的第二方面涉及一种用于语义解析的系统，包括：特征词获得模块，...

【技术保护点】
1.一种用于语义解析的方法，包括：获得用户发送的文本信息中包含的一个或多个特征词；从预先构建的特征概率库中获取所述一个或多个特征词中的每个特征词针对所述特征概率库中的每个分类业务的特征概率；基于所获得的每个特征词针对每个分类业务的特征概率获得所述文本信息针对该分类业务的联合概率，并将所述文本信息关联到特征概率库中的一个或多个分类业务；获得所述文本信息与相关联的所述一个或多个分类业务下的所有知识条目中的每个知识条目的相似度，并将所述文本信息匹配到相似度最高的知识条目。

【技术特征摘要】
1.一种用于语义解析的方法，包括：获得用户发送的文本信息中包含的一个或多个特征词；从预先构建的特征概率库中获取所述一个或多个特征词中的每个特征词针对所述特征概率库中的每个分类业务的特征概率；基于所获得的每个特征词针对每个分类业务的特征概率获得所述文本信息针对该分类业务的联合概率，并将所述文本信息关联到特征概率库中的一个或多个分类业务；获得所述文本信息与相关联的所述一个或多个分类业务下的所有知识条目中的每个知识条目的相似度，并将所述文本信息匹配到相似度最高的知识条目。2.如权利要求1所述的方法，还包括将所述相似度最高的知识条目作为结果提供给所述用户。3.如权利要求1所述的方法，所述获取用户发送的文本信息中包含的一个或多个特征词包括：对用户发送的自然语言问句进行分词处理，获取候选特征词集；根据预先设置的停用词表对获取的候选特征词集进行过滤处理，得到所述一个或多个特征词。4.如权利要求1所述的方法，其中，构建所述特征概率库包括：采集训练样本数据集；对训练样本数据集中的样本数据与已所述特征概率库中的分类业务进行匹配，获取匹配成功的样本数据以及对应的分类业务，在特征概率库中建立分类业务存储区，存储与分类业务匹配成功的样本数据；在分类业务存储区中，获取样本数据中包含的词条，统计词条在分类业务中的文档频率DF；将DF值超过预先设置的分类业务DF阈值的词条作为特征词存入分类业务存储区；计算特征词在分类业务中的特征指示概率；根据特征指示概率计算该特征词的特征概率，并存入分类业务存储区中，建立特征词与特征概率的特征概率库。5.如权利要求1所述的方法，所述文本信息针对每个分类业务的特征联合概率等于所述一个或多个特征中每个特征的特征概率的乘积除以以下两项之和：所述一个或多个特征中每个特征的特征概率的乘积、以及所述一个或多个特征中每个特征的特征概率的逆的乘积。6.如权利要求1所述的方法，其中，所述自然语句与其所关联到的所述一个或多个分类业务的联合概率高于预定联合概率阈值。7.如权利要求1所述的方法，其中，获得所述文本信息与相关联的所述一个或多个分类业务下的所有知识条目中的每个知识条目的相似度包括：把所述文本信息的一个或多个特征词抽象成与该文本信息相对应的知识点向量；通过词频-逆文档频率(TF-IDF)算法获得所述知识点向量在所述一个或多个分类业务中的总权重向量，以及所述知识点向量在该知识条目中的知识条目权重向量；基于所述总权重向量和所述知识条目权重向量通过向量空间算法获得所述文本信息与该知识条目的相似度。8.一种用于语义解析的系统，包括：特征词获得模块，被配置为获得用户发送的文本信息中包含的一个或多个特征词；特征概率库构建模块，被配置为从预先构...

【专利技术属性】
技术研发人员：董宇，
申请(专利权)人：中国移动通信集团贵州有限公司，中国移动通信集团公司，
类型：发明
国别省市：贵州,52

全部详细技术资料下载我是这个专利的主人