语句解析方法、装置、计算机设备及可读介质制造方法及图纸

技术编号:18972379 阅读:23 留言:0更新日期:2018-09-19 03:38
本发明专利技术提供一种语句解析方法、装置、计算机设备及可读介质,通过获取待解析的目标语句对应的启发式理解的特征信息;根据目标语句对应的启发式理解的特征信息,获取目标语句的多种候选解析结果以及各种候选解析结果对应的置信度;各候选解析结果中包括候选意图和候选槽位;根据各候选解析结果以及对应的置信度,获取目标语句对应的目标理解。本发明专利技术的语句解析方案,即使在训练数据资源不足的冷启动阶段,也能够获取到目标语句对应的启发式理解的特征信息,实现对目标语句的准确理解。而且,能够避免使用固定格式的模板进行语句识别,可以避免模板泛化能力弱带来的语句理解准确性差的技术缺陷,能够有效地提高语句解析的准确性和语句解析的效率。

Sentence parsing method, device, computer equipment and readable medium

The invention provides a statement parsing method, device, computer equipment and readable medium, which obtains the characteristic information of heuristic understanding corresponding to the target statement to be parsed, and obtains various candidate parsing results and various candidate parsing results of the target statement according to the characteristic information of heuristic understanding corresponding to the target statement. The corresponding confidence level, the candidate intention and the candidate slots are included in the candidate parsing results, and the target understanding corresponding to the target statement is obtained according to the candidate parsing results and the corresponding confidence level. The statement parsing scheme of the invention can obtain the characteristic information corresponding to the heuristic understanding of the target statement even in the cold start stage when the training data resources are insufficient, and realize the accurate understanding of the target statement. Furthermore, it can avoid the use of fixed format templates for sentence recognition, avoid the technical defects of poor sentence comprehension caused by weak template generalization ability, and effectively improve the accuracy of sentence parsing and the efficiency of sentence parsing.

【技术实现步骤摘要】
语句解析方法、装置、计算机设备及可读介质
本专利技术涉及计算机应用
,尤其涉及一种语句解析方法、装置、计算机设备及可读介质。
技术介绍
人工智能(ArtificialIntelligence;AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。随着智能交互产品的快速发展,Query语句理解技术受到了越来越广泛的关注。Query语句理解的目标是将用户的非结构化Query语句解析为结构化的意图和槽位的形式,从而使得计算机可以理解并且能够寻找资源来满足用户的需求。与传统搜索引擎中的用户Query语句不同,在智能交互领域,用户的Query语句不仅仅只是关键词的组合,而是越来越口语化、越来越接近真实的自然语言,这就需要Query语句理解的解析算法具有更强大的表义能力、自然语言理解能力。通常来说,Query语句理解技术被分成两个主要的子任务:意图识别和槽位解析。意图识别可以被看成是一个分类任务,判断一条Query语句表达了用户的什么意图;槽位解析则可以被看成是一个序列标注任务,对Query语句中具体的槽位信息进行标注。例如,对于一条Query语句“给我推荐一个曾经吓死过人的电影,要免费的”,Query语句理解时可以判断它表达的意图是“SYS_MOVIE(寻找电影)”,同时其中含有两个槽位:“曾经吓死过人:user_movie_tag”,“免费:user_is_free”。按照现有的技术,可以采用人工编辑的模板对Query语句进行理解,或者基于大量的标注训练数据训练机器学习模型,来理解Query语句。但是,当标注的训练数据资源不足时,机器学习模型不适合冷启动,仅能够采用人工标记的模板来理解Query语句,而现有模板数量有限,且模板格式固定、泛化能力非常弱,导致现有的Query语句理解的准确性较差。
技术实现思路
本专利技术提供了一种语句解析方法、装置、计算机设备及可读介质,用于提高Query语句理解的准确性。本专利技术提供一种语句解析方法,所述方法包括:获取待解析的目标语句对应的启发式理解的特征信息;根据所述目标语句对应的启发式理解的特征信息,解析所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度;各所述候选解析结果中包括候选意图和候选槽位;根据各种所述候选解析结果以及各种所述候选解析结果的置信度,确定所述目标语句对应的目标理解。进一步可选地,如上所述的方法中,获取待解析的目标语句对应的启发式理解的特征信息,具体包括:基于预设的多个语义片段规则组,获取所述目标语句对应的第一启发式理解的特征信息;各所述语义片段规则组分别对应一种意图,各所述语义片段规则组中包括多个槽位以及各所述槽位的顺序标识;和/或基于预标注的训练语句数据集,获取所述目标语句对应的第二启发式理解的特征信息;所述预标注的训练语句数据集中包括多条训练语句,各所述训练语句中已标注对应的意图和槽位;对应地,根据所述目标语句对应的启发式理解的特征信息,解析所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度,具体包括:根据所述第一启发式理解的特征信息和/或所述启发式理解的第二特征信息,获取所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度。进一步可选地,如上所述的方法中,基于预设的多个语义片段规则组,获取所述目标语句对应的第一启发式理解的特征信息,具体包括:基于预设的各个所述语义片段规则组,获取所述目标语句的命中各所述候选槽位的片段的顺序标识是否满足对应的所述语义片段规则组中的限定的特征、所述目标语句中是否包括对应的候选意图对应的特定片段的特征、和所述目标语句的候选理解的识别覆盖率的特征。进一步可选地,如上所述的方法中,根据所述第一启发式理解的特征信息,解析所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度,具体包括:根据所述目标语句的命中各所述候选槽位的片段的顺序标识是否满足对应的所述语义片段规则组中的限定的特征、所述目标语句中是否包括对应的候选意图对应的特定片段的特征、和所述目标语句的候选理解的识别覆盖率的特征中的至少一种,解析所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度;或者根据所述目标语句的命中各所述候选槽位的片段的顺序标识是否满足对应的所述语义片段规则组中的限定的特征、所述目标语句中是否包括对应的候选意图对应的特定片段的特征、和所述目标语句的候选理解的识别覆盖率的特征以及预先为各所述特征配置的权重,解析所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度。进一步可选地,如上所述的方法中,基于预标注的训练语句数据集,获取所述目标语句对应的第二启发式理解的特征信息,具体包括如下至少一种:基于所述预标注的训练语句数据集,获取所述目标语句中的每个词语对应的各候选槽位的槽位与意图的相关性特征;基于所述预标注的训练语句数据集,获取所述目标语句中的每个词语对应的各候选槽位的槽位普及程度特征;基于所述预标注的训练语句数据集,获取所述目标语句中的每个词语对应的词语与槽位的相关性特征;基于所述预标注的训练语句数据集,获取所述目标语句中的不同词语对应的候选槽位间的槽位与槽位的相关性特征;和/或基于所述预标注的训练语句数据集,获取所述目标语句的自然语言特征。进一步可选地,如上所述的方法中,根据所述第二启发式理解的特征信息,获取所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度,具体包括:根据所述目标语句对应的所述槽位与意图的相关性特征、所述槽位普及程度特征、所述词语与槽位的相关性特征、所述槽位与槽位的相关性特征以及所述自然语言特征、以及预先为各所述特征配置的权重,解析所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度。进一步可选地,如上所述的方法中,根据所述第一启发式理解的特征信息和/或所述第二启发式理解的特征信息,解析所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度,具体包括:根据所述第一启发式理解的特征信息和/或所述第二启发式理解的特征信息,采用神经网络模型解析所述目标语句的多种所述候选解析结果,并计算各种所述候选解析结果对应的置信度。本专利技术提供一种语句解析装置,所述装置包括:获取模块,用于获取待解析的目标语句对应的启发式理解的特征信息;解析模块,用于根据所述目标语句对应的启发式理解的特征信息,解析所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度;各所述候选解析结果中包括候选意图和候选槽位;确定模块,用于根据各种所述候选解析结果以及各种所述候选解析结果的置信度,确定所述目标语句对应的目标理解。进一步可选地,如上所述的装置中,所述获取模块,具体用于:基于预设的多个语义片段规则组,获取所述目标语句对应的第一启发式理解的特征信息;各所述语义片段规则组分别对应一种意图,各所述语义片段规则组中包括多个槽位以及各所述槽位的顺序标识;和/或基于预标注的训练语句数据集,获取所述目标语句本文档来自技高网
...

【技术保护点】
1.一种语句解析方法,其特征在于,所述方法包括:获取待解析的目标语句对应的启发式理解的特征信息;根据所述目标语句对应的启发式理解的特征信息,解析所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度;各所述候选解析结果中包括候选意图和候选槽位;根据各种所述候选解析结果以及各种所述候选解析结果的置信度,确定所述目标语句对应的目标理解。

【技术特征摘要】
1.一种语句解析方法,其特征在于,所述方法包括:获取待解析的目标语句对应的启发式理解的特征信息;根据所述目标语句对应的启发式理解的特征信息,解析所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度;各所述候选解析结果中包括候选意图和候选槽位;根据各种所述候选解析结果以及各种所述候选解析结果的置信度,确定所述目标语句对应的目标理解。2.根据权利要求1所述的方法,其特征在于,获取待解析的目标语句对应的启发式理解的特征信息,具体包括:基于预设的多个语义片段规则组,获取所述目标语句对应的第一启发式理解的特征信息;各所述语义片段规则组分别对应一种意图,各所述语义片段规则组中包括多个槽位以及各所述槽位的顺序标识;和/或基于预标注的训练语句数据集,获取所述目标语句对应的第二启发式理解的特征信息;所述预标注的训练语句数据集中包括多条训练语句,各所述训练语句中已标注对应的意图和槽位;对应地,根据所述目标语句对应的启发式理解的特征信息,解析所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度,具体包括:根据所述第一启发式理解的特征信息和/或所述启发式理解的第二特征信息,获取所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度。3.根据权利要求2所述的方法,其特征在于,基于预设的多个语义片段规则组,获取所述目标语句对应的第一启发式理解的特征信息,具体包括:基于预设的各个所述语义片段规则组,获取所述目标语句的命中各所述候选槽位的片段的顺序标识是否满足对应的所述语义片段规则组中的限定的特征、所述目标语句中是否包括对应的候选意图对应的特定片段的特征、和所述目标语句的候选理解的识别覆盖率的特征。4.根据权利要求3所述的方法,其特征在于,根据所述第一启发式理解的特征信息,解析所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度,具体包括:根据所述目标语句的命中各所述候选槽位的片段的顺序标识是否满足对应的所述语义片段规则组中的限定的特征、所述目标语句中是否包括对应的候选意图对应的特定片段的特征、和所述目标语句的候选理解的识别覆盖率的特征中的至少一种,解析所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度;或者根据所述目标语句的命中各所述候选槽位的片段的顺序标识是否满足对应的所述语义片段规则组中的限定的特征、所述目标语句中是否包括对应的候选意图对应的特定片段的特征、和所述目标语句的候选理解的识别覆盖率的特征以及预先为各所述特征配置的权重,解析所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度。5.根据权利要求2所述的方法,其特征在于,基于预标注的训练语句数据集,获取所述目标语句对应的第二启发式理解的特征信息,具体包括如下至少一种:基于所述预标注的训练语句数据集,获取所述目标语句中的每个词语对应的各候选槽位的槽位与意图的相关性特征;基于所述预标注的训练语句数据集,获取所述目标语句中的每个词语对应的各候选槽位的槽位普及程度特征;基于所述预标注的训练语句数据集,获取所述目标语句中的每个词语对应的词语与槽位的相关性特征;基于所述预标注的训练语句数据集,获取所述目标语句中的不同词语对应的候选槽位间的槽位与槽位的相关性特征;和/或基于所述预标注的训练语句数据集,获取所述目标语句的自然语言特征。6.根据权利要求5所述的方法,其特征在于,根据所述第二启发式理解的特征信息,获取所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度,具体包括:根据所述目标语句对应的所述槽位与意图的相关性特征、所述槽位普及程度特征、所述词语与槽位的相关性特征、所述槽位与槽位的相关性特征以及所述自然语言特征、以及预先为各所述特征配置的权重,解析所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度。7.根据权利要求2所述的方法,其特征在于,根据所述第一启发式理解的特征信息和/或所述第二启发式理解的特征信息,解析所述目标语句的多种候选解析结果以及各种所述候选解析结果对应的置信度,具体包括:根据所述第一启发式理解的特征信息和/或所述第二启发式理解的特征信息,采...

【专利技术属性】
技术研发人员:陈立玮刘琼琼丁鑫哲孙珂
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1