一种用于知识图谱问答的语义解析方法、系统及设备技术方案

技术编号：25480543 阅读：33 留言：0更新日期：2020-09-01 23:01

本发明专利技术公开了一种用于知识图谱问答的语义解析方法、系统及设备，所述方法包括：获取用户输入的问句，通过预先构建的字典对问句中的实体、属性、概念和方法进行识别，构建多个数据节点，根据问句中多个数据节点距离方法的远近，将多个数据节点划分为目标节点和约束节点；通过预先训练好的条件随机场CRF模型对问句中的时间和属性值进行识别，对时间进行标准化和归一化处理，得到问句中的时间点或时间范围，并将识别出的属性值赋值给识别出的属性；根据识别出的方法、时间、目标节点和约束节点构建JSON数据结构，完成对问句的语义解析。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于知识图谱问答的语义解析方法、系统及设备
本专利技术涉及人工智能
，尤其是涉及一种用于知识图谱问答的语义解析方法、系统及设备。
技术介绍
在现有技术中，国内外很多互联网公司都在构建自己的知识图谱，并在基于知识图谱的基础上推出搜索、问答、推荐等功能来改善服务质量。很多垂直领域也考虑构建基于知识图谱的智能问答系统。对于基于知识图谱的智能问答系统，其关键点就是对用户问句进行语义理解，从而转化为图数据库可理解的查询语言。对于用户问句的语义理解，关键点就是对于实体、属性、本体的识别和消歧技术，其直接决定了问答系统效果的好坏。目前，对于实体、属性、本体的识别，多使用深度学习的方法，通过大量语料的标注、训练，产生候选集，通过对候选集排序，选出最优答案，但是，上述方法需要大量的语料标注，耗费人力物力，同时，计算效果也参差不齐，达不到理想效果。其次，目前基于知识图谱的问答中，多为已知实体名称，求解实体属性这一类简单的问题，问答类型比较单一，对用户友好度不够。对于含有时间约束条件的问答以及根据属性求实体的问答都没有很...

【技术保护点】
1.一种用于知识图谱问答的语义解析方法，其特征在于，包括：/n获取用户输入的问句，通过预先构建的字典对问句中的实体、属性、概念和方法进行识别，构建多个数据节点，根据问句中多个数据节点距离方法的远近，将所述多个数据节点划分为目标节点和约束节点，其中，所述多个数据节点具体包括：实体及实体对应的概念、属性及属性对应的概念以及口语化概念对应的概念；/n通过预先训练好的条件随机场CRF模型对问句中的时间和属性值进行识别，对时间进行标准化和归一化处理，得到问句中的时间点或时间范围，并将识别出的属性值赋值给识别出的属性；/n根据识别出的方法、时间、目标节点和约束节点构建JSON数据结构，完成对问句的语义解析...

【技术特征摘要】
1.一种用于知识图谱问答的语义解析方法，其特征在于，包括：
获取用户输入的问句，通过预先构建的字典对问句中的实体、属性、概念和方法进行识别，构建多个数据节点，根据问句中多个数据节点距离方法的远近，将所述多个数据节点划分为目标节点和约束节点，其中，所述多个数据节点具体包括：实体及实体对应的概念、属性及属性对应的概念以及口语化概念对应的概念；
通过预先训练好的条件随机场CRF模型对问句中的时间和属性值进行识别，对时间进行标准化和归一化处理，得到问句中的时间点或时间范围，并将识别出的属性值赋值给识别出的属性；
根据识别出的方法、时间、目标节点和约束节点构建JSON数据结构，完成对问句的语义解析，其中，在所述JSON数据结构中，所述目标节点和所述约束节点的参数包括：概念、实体和属性。

2.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：
将用户问句中出现的口语化实体映射到知识图谱的标准的实体，构建口语化实体到标准化实体字典；
将标准化实体映射到该实体所对应的概念，得到该实体在知识图谱中概念，构建标准化实体到标准概念字典；
将口语化属性映射到知识图谱的标准的属性，构建口语化属性到标准化属性字典；
将标准化属性映射到该属性所对应的概念，构建标准化属性到标准化概念字典；
将口语化概念映射到知识图谱的标准的概念，构建口语化概念到标准化概念字典；
将口语化方法映射到知识图谱中标准的方法，构建口语化方法到标准化方法字典。

3.根据权利要求1所述的方法，其特征在于，获取用户输入的问句，通过预先构建的字典对问句中的实体、属性、概念和方法进行识别，构建多个数据节点，根据问句中多个数据节点距离方法的远近，将所述多个数据节点划分为目标节点和约束节点具体包括：
获取用户输入的问句，通过预先构建的实体同义词字典识别出问句中出现的实体，确定口语化实体对应的标准化实体，并根据识别出的标准化实体，通过预先构建的标准化实体到概念词典，识别出标准化实体所对应的概念，并建立实体及实体对应概念的第一数据节点；
通过预先构建的属性同义词字典识别出问句中出现的属性，确定口语化属性对应的标准化属性，并根据识别出的标准化属性，通过预先构建的标准化属性到概念词典，识别出标准化属性所对应的概念，并建立属性及属性对应概念的第二数据节点；
通过预先构建的概念同义词字典识别出问句中出现的概念，确定口语化概念对应的标准化概念，并构建第三数据节点；
基于所述第一数据节点、第二数据节点以及第三数据节点，若数据节点之间的概念有交集，则取相同的概念，将实体、属性和概念合并为一个节点，若概念之间没有交集，则不进行数据节点的合并；
通过预先构建的方法同义词字典识别出问句中出现的方法，确定口语化方法对应的标准化方法；
根据数据节点中实体或属性在问句中距离方法的远近将所述数据节点划分为目标节点和约束节点，其中，距离方法最近的数据节点为目标节点，其他数据节点为约束节点。

4.根据权利要求1所述的方法，其特征在于，通过预先训练好的条件随机场CRF模型对问句中的时间和属性值进行识别，对时间进行标准化和归一化处理，得到问句中的时间点或时间范围，并将识别出的属性值赋值给识别出的属性具体包括：
通过预先训练CRF模型得到的时间提取模型，提取问句中时间信息所对应的标签，将所述标签进行归一化处理，将归一化的标签进行聚合，根据聚合后的标签得到问句中的时间点或时间范围；
通过预先训练CRF模型得到的属性值提取模型，提取相关的属性值，将属性值赋值给识别出的属性。

5.一种用于知识图谱问答的语义解析系统，其特征在于，
数据层，用于保存构建字典所需的字典数据和构建条件随机场CRF模型所需的训...

【专利技术属性】
技术研发人员：王晓鸣，刘弦弦，么新新，张学龙，
申请(专利权)人：北京智通云联科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人