用于语义解析的方法和系统技术方案

技术编号:18458729 阅读:24 留言:0更新日期:2018-07-18 12:40
本发明专利技术公开了一种用于语义解析的方法和系统,该方法包括:获得用户发送的文本信息中包含的一个或多个特征词;从预先构建的特征概率库中获取该一个或多个特征词中的每个特征词针对特征概率库中的每个分类业务的特征概率;基于所获得的每个特征词针对每个分类业务的特征概率获得文本信息针对该分类业务的联合概率,并将文本信息关联到特征概率库中的一个或多个分类业务;获得文本信息与相关联的一个或多个分类业务下的所有知识条目中的每个知识条目的相似度,并将文本信息匹配到相似度最高的知识条目。

Methods and systems for semantic parsing

The present invention discloses a method and system for semantic parsing, which includes obtaining one or more feature words contained in the text information sent by the user; obtaining each feature word in one or more feature words from the pre built feature probability library for each classification service in the feature probability library. Probability of obtaining the joint probability of text information for the classified service based on the characteristic probability of each feature word for each classification service, and linking text information to one or more classified services in the feature probability library, and obtaining all knowledge bars under one or more classified services associated with the text information. The similarity of each knowledge item and the matching of text information to the highest similarity knowledge item.

【技术实现步骤摘要】
用于语义解析的方法和系统
本公开涉及移动通信业务支撑领域,更具体地,涉及用于语义解析的方法和系统。
技术介绍
近年来,搜索技术的发展推进了以搜索为基础的在线问答系统的出现以及更高级的交互式问答系统在各个领域的应用。交互式问答系统是指人与系统之间能够用自然语言的形式进行交互的、上下文相关的、在一个会话过程中连续的对话。目前的交互式问答系统多是针对某一具体领域的,系统的表现性能很大程度上依赖于该领域知识库的规模,系统的回复即是在该知识库中搜索到的与用户问句匹配的答案。领域不同,对应的知识库也不同。但是,以日常对话为内容的问答通常涉及到一个或多个领域。电信运营商的在线客服系统对人机自助服务的支持不是很好,要么只支持人工服务,要么自助服务对于用户的自然语言语义解析较差,同时需要大量的人工线下录入工作,包括对电信专业知识的录入和常用聊天语料的录入。而业务部门对繁琐的人工操作较为反感,由于无法长期坚持,导致机器人问答准确率逐渐下降。
技术实现思路
本专利技术的第一方面涉及一种用于语义解析的方法,包括:获得用户发送的文本信息中包含的一个或多个特征词;从预先构建的特征概率库中获取该一个或多个特征词中的每个特征词针对特征概率库中的每个分类业务的特征概率;基于所获得的每个特征词针对每个分类业务的特征概率获得文本信息针对该分类业务的联合概率,并将文本信息关联到特征概率库中的一个或多个分类业务;获得文本信息与相关联的一个或多个分类业务下的所有知识条目中的每个知识条目的相似度,并将文本信息匹配到相似度最高的知识条目。本专利技术的第二方面涉及一种用于语义解析的系统,包括:特征词获得模块,被配置为获得用户发送的文本信息中包含的一个或多个特征词;特征概率库构建模块,被配置为从预先构建的特征概率库中获取一个或多个特征词中的每个特征词针对特征概率库中的每个分类业务的特征概率;关联分类确定模块,被配置为基于所获得的每个特征词针对每个分类业务的特征概率获得文本信息针对该分类业务的联合概率,并将文本信息关联到特征概率库中的一个或多个分类业务;目标确定模块,被配置为获得文本信息与相关联的一个或多个分类业务下的所有知识条目中的每个知识条目的相似度,并将文本信息匹配到相似度最高的知识条目。附图说明图1示出根据本专利技术实施例的用于进行语义解析的方法的流程图。图2示出根据本专利技术实施例构建特征库的流程示意图。图3示出根据本专利技术实施例的用于进行语义解析的系统的框图。图4是示出能够实现根据本专利技术实施例的用于执行语义分析的方法和系统的计算设备的示例性硬件架构的结构图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面将详细描述本专利技术的各个方面的特征和示例性实施例。在下面的详细描述中,提出了许多具体细节,以便提供对本专利技术的全面理解。但是,对于本领域技术人员来说很明显的是,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术的更好的理解。本专利技术决不限于下面所提出的任何具体配置和算法,而是在不脱离本专利技术的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中,没有示出公知的结构和技术,以便避免对本专利技术造成不必要的模糊。现有在线客服智能应答支持标准的问答对,需要将客服知识库中的知识点通过坐席人员人工采编成问答对再录入智能应答系统,由系统对问答对中的问题内容提取特征词并生成相应的指示性概率,然后通过样本训练来校验机器人处理用户提问的质量。同时,智能应答系统关于用户日常生活类问句的处理较差,需要对日常用语提前采编录入,如果能匹配上寒暄语,则给出相应的答案,对于无法识别的提问,则一律返回系统正在成长。对于互联网或日常生产交互日志等,均需要人工干预转换成结构化知识,才能按照现有处理规则完成机器人智能应答功能。从整个过程可以看出,系统在处理上需要大量的人工干预,系统的日常维护工作繁琐,使用效果不太理想。图1示出根据本专利技术实施例的用于进行语义解析的方法100的流程图。如图中所示,方法100包括以下步骤:S102,获得用户发送的文本信息中包含的一个或多个特征词;S104,从预先构建的特征概率库中获取该一个或多个特征词中的每个特征词针对特征概率库中的每个分类业务的特征概率;S106,基于所获得的每个特征词针对每个分类业务的特征概率获得文本信息针对该分类业务的联合概率,并将文本信息关联到特征概率库中的一个或多个分类业务;S108,获得文本信息与相关联的一个或多个分类业务下的所有知识条目中的每个知识条目的相似度,并将文本信息匹配到相似度最高的知识条目。在一些实施例中,方法100可选地包括将相似度最高的知识条目提供给用户。在步骤S102中,获得用户输入的文本信息的一个或多个特征词包括:对用户发送的文本流进行分词处理,获取候选特征词集;根据预先设置的停用词表对获取的候选特征词集进行过滤处理,得到特征词。将自然语句进入智能分析系统后,系统先通过中英文分词插件将自然语句分割为多个词组,此时的词组中应该有多个对于进行特征分析毫无作用的词组。如自然语句‘我要了解商旅套餐’进行分词操作后后应为“我”、“要”、“我要”、“了解”、“商旅”、“套餐”。其中“我”、“要”、“我要”、“了解”对于特征分析毫无作用。系统通过辨别词语类型的方式将动词和名词以外的词组剔除掉,留下“商旅”、“套餐”作为关键词。本步骤中,停用词表包括无意义词语、和/或,高文档率词语。在实际应用时,用户文本中输入的很多词语与需要处理的业务内容关系不大,这样,在获取的候选特征词集中,可能包含了大量噪音。例如,无意义词语的连词:可是、那么、如果等;虚词:的、了、呢等词语,这些与业务内容无关的词语,为了避免后续的冗余处理,节约计算资源,需要将其过滤。本专利技术实施例中,在获取候选特征词集后,可以根据预先设置的停用词表对获取的候选特征词集进行去噪处理,即通过设置停用词表,与获取的候选特征词集进行匹配,将候选特征词集中与停用词表相匹配的词语进行去噪(过滤)处理。另外,一些出现频率过高的词语,例如,我们、人家等,这些词只在文本中起辅助作用,与业务内容的关联性也较小。因此,为降低后续处理,提高过滤的性能,可以将它们删除掉。本专利技术实施例中,在停用词表中设置该类高文档率词语,具体可通过大规模文本集的分析,筛选一批文档率高的词语,加入到停用词表中,即停用词表包括无意义词语以及高文档率词语,并可以采用字典过滤的方式进行,关于字典过滤的方式,具体可参见相关技术文献,在此不再赘述。经过过滤处理的一个或多个候选特征词即为所需要的一个或多个特征词集。在S104中,构建特征概率库包括以下步骤:A1,采集训练样本数据集以及测试样本数据集。在该步骤中,可按照比例(例如,2:1)将样本数据分为训练集(训练样本数据集)和测试集。A2,对训练样本数据集中样本数据进行精确匹配以及模糊匹配,获取匹配成功的样本数据以及对应的分类业务,在本文档来自技高网...

【技术保护点】
1.一种用于语义解析的方法,包括:获得用户发送的文本信息中包含的一个或多个特征词;从预先构建的特征概率库中获取所述一个或多个特征词中的每个特征词针对所述特征概率库中的每个分类业务的特征概率;基于所获得的每个特征词针对每个分类业务的特征概率获得所述文本信息针对该分类业务的联合概率,并将所述文本信息关联到特征概率库中的一个或多个分类业务;获得所述文本信息与相关联的所述一个或多个分类业务下的所有知识条目中的每个知识条目的相似度,并将所述文本信息匹配到相似度最高的知识条目。

【技术特征摘要】
1.一种用于语义解析的方法,包括:获得用户发送的文本信息中包含的一个或多个特征词;从预先构建的特征概率库中获取所述一个或多个特征词中的每个特征词针对所述特征概率库中的每个分类业务的特征概率;基于所获得的每个特征词针对每个分类业务的特征概率获得所述文本信息针对该分类业务的联合概率,并将所述文本信息关联到特征概率库中的一个或多个分类业务;获得所述文本信息与相关联的所述一个或多个分类业务下的所有知识条目中的每个知识条目的相似度,并将所述文本信息匹配到相似度最高的知识条目。2.如权利要求1所述的方法,还包括将所述相似度最高的知识条目作为结果提供给所述用户。3.如权利要求1所述的方法,所述获取用户发送的文本信息中包含的一个或多个特征词包括:对用户发送的自然语言问句进行分词处理,获取候选特征词集;根据预先设置的停用词表对获取的候选特征词集进行过滤处理,得到所述一个或多个特征词。4.如权利要求1所述的方法,其中,构建所述特征概率库包括:采集训练样本数据集;对训练样本数据集中的样本数据与已所述特征概率库中的分类业务进行匹配,获取匹配成功的样本数据以及对应的分类业务,在特征概率库中建立分类业务存储区,存储与分类业务匹配成功的样本数据;在分类业务存储区中,获取样本数据中包含的词条,统计词条在分类业务中的文档频率DF;将DF值超过预先设置的分类业务DF阈值的词条作为特征词存入分类业务存储区;计算特征词在分类业务中的特征指示概率;根据特征指示概率计算该特征词的特征概率,并存入分类业务存储区中,建立特征词与特征概率的特征概率库。5.如权利要求1所述的方法,所述文本信息针对每个分类业务的特征联合概率等于所述一个或多个特征中每个特征的特征概率的乘积除以以下两项之和:所述一个或多个特征中每个特征的特征概率的乘积、以及所述一个或多个特征中每个特征的特征概率的逆的乘积。6.如权利要求1所述的方法,其中,所述自然语句与其所关联到的所述一个或多个分类业务的联合概率高于预定联合概率阈值。7.如权利要求1所述的方法,其中,获得所述文本信息与相关联的所述一个或多个分类业务下的所有知识条目中的每个知识条目的相似度包括:把所述文本信息的一个或多个特征词抽象成与该文本信息相对应的知识点向量;通过词频-逆文档频率(TF-IDF)算法获得所述知识点向量在所述一个或多个分类业务中的总权重向量,以及所述知识点向量在该知识条目中的知识条目权重向量;基于所述总权重向量和所述知识条目权重向量通过向量空间算法获得所述文本信息与该知识条目的相似度。8.一种用于语义解析的系统,包括:特征词获得模块,被配置为获得用户发送的文本信息中包含的一个或多个特征词;特征概率库构建模块,被配置为从预先构...

【专利技术属性】
技术研发人员:董宇
申请(专利权)人:中国移动通信集团贵州有限公司中国移动通信集团公司
类型:发明
国别省市:贵州,52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1