一种基于场景信息的实体含义识别方法和系统技术方案

技术编号：12907008 阅读：113 留言：0更新日期：2016-02-24 14:22

本发明专利技术公开了一种基于场景信息的实体含义识别方法和系统，其中实体含义识别方法包括：识别用户输入，以产生输入识别结果；从输入识别结果中识别出实体；为识别出的实体获取候选实体含义的集合；基于获取的场景信息，计算所述候选实体含义的集合中各候选实体含义的特征向量；基于各候选实体含义的特征向量，计算各候选实体含义的分数，根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。与现有技术相比，本发明专利技术可以有效改善实体含义识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息技术，尤其涉及一种基于场景信息的实体含义识别方法和系统。
技术介绍
在信息检索中，首先要识别用户输入，并准确解释用户输入的含义，根据用户输入的含义检索用户需要的内容。在准确解释用户输入的含义时，用户输入中的实体(专用名词，例如颐和园、交大、中山路)的含义识别尤为重要。例如交大，可能存在北京交通大学、上海交通大学、西安交通大学等。在深圳、哈尔滨等都存在中山路。因此，准确识别实体的含义对于信息检索的准确性尤为重要。
技术实现思路
本专利技术解决的技术问题之一是提升实体含义识别的准确性。根据本专利技术的一个方面的一个实施例，提供了一种基于场景信息的实体含义识别方法，包括:识别用户输入，以产生输入识别结果；从输入识别结果中识别出实体；为识别出的实体获取候选实体含义的集合；基于获取的场景信息，计算所述候选实体含义的集合中各候选实体含义的特征向量;基于各候选实体含义的特征向量，计算各候选实体含义的分数，根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。根据本专利技术的一个实施例，所述用户输入包括语音输入和/或文字输入。根据本专利技术的一个实施例，从输入识别结果中识别出实体的步骤包括:将输入识别结果分词；为从输入识别结果中分出的词进行词性标注；将每一个字输入分类器，判定每一个字是否是构成实体的字、以及构成实体的开头、中间还是末尾；根据分类器对每一个字的判定结果，判断该词是否是实体。根据本专利技术的一个实施例，所述分类器是通过利用训练语料作为输入、并对分类结果进行反馈训练出的。根据本专利技术的一个实施例，为识别出的实体获...

【技术保护点】
一种基于场景信息的实体含义识别方法，包括：识别用户输入，以产生输入识别结果；从输入识别结果中识别出实体；为识别出的实体获取候选实体含义的集合；基于获取的场景信息，计算所述候选实体含义的集合中各候选实体含义的特征向量；基于各候选实体含义的特征向量，计算各候选实体含义的分数，根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：沈李斌，雷欣，
申请(专利权)人：北京羽扇智信息科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人