一种基于场景信息的实体含义识别方法和系统技术方案

技术编号:12907008 阅读:113 留言:0更新日期:2016-02-24 14:22
本发明专利技术公开了一种基于场景信息的实体含义识别方法和系统,其中实体含义识别方法包括:识别用户输入,以产生输入识别结果;从输入识别结果中识别出实体;为识别出的实体获取候选实体含义的集合;基于获取的场景信息,计算所述候选实体含义的集合中各候选实体含义的特征向量;基于各候选实体含义的特征向量,计算各候选实体含义的分数,根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。与现有技术相比,本发明专利技术可以有效改善实体含义识别的准确性。

【技术实现步骤摘要】

本专利技术涉及信息技术,尤其涉及一种基于场景信息的实体含义识别方法和系统
技术介绍
在信息检索中,首先要识别用户输入,并准确解释用户输入的含义,根据用户输入的含义检索用户需要的内容。在准确解释用户输入的含义时,用户输入中的实体(专用名词,例如颐和园、交大、中山路)的含义识别尤为重要。例如交大,可能存在北京交通大学、上海交通大学、西安交通大学等。在深圳、哈尔滨等都存在中山路。因此,准确识别实体的含义对于信息检索的准确性尤为重要。
技术实现思路
本专利技术解决的技术问题之一是提升实体含义识别的准确性。根据本专利技术的一个方面的一个实施例,提供了一种基于场景信息的实体含义识别方法,包括:识别用户输入,以产生输入识别结果;从输入识别结果中识别出实体;为识别出的实体获取候选实体含义的集合;基于获取的场景信息,计算所述候选实体含义的集合中各候选实体含义的特征向量;基于各候选实体含义的特征向量,计算各候选实体含义的分数,根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。根据本专利技术的一个实施例,所述用户输入包括语音输入和/或文字输入。根据本专利技术的一个实施例,从输入识别结果中识别出实体的步骤包括:将输入识别结果分词;为从输入识别结果中分出的词进行词性标注;将每一个字输入分类器,判定每一个字是否是构成实体的字、以及构成实体的开头、中间还是末尾;根据分类器对每一个字的判定结果,判断该词是否是实体。根据本专利技术的一个实施例,所述分类器是通过利用训练语料作为输入、并对分类结果进行反馈训练出的。根据本专利技术的一个实施例,为识别出的实体获取候选实体含义的集合的步骤包括:针对识别出的实体,从实体含义库查找与该实体匹配的候选实体含义。根据本专利技术的一个实施例,获取的场景信息包括用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项。根据本专利技术的一个实施例,所述候选实体含义的集合中各候选实体含义的特征向量中的至少一部分特征基于用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项计算。根据本专利技术的一个实施例,计算各候选实体含义的分数的步骤包括:使用评分函数计算各候选实体含义的分数。根据本专利技术的一个实施例,所述评分函数的系数是利用训练语料作为输入、并对实体含义识别结果进行反馈训练出的。根据本专利技术另一个方面的一个实施例,还提供了一种基于场景信息的实体含义识别系统,包括:输入识别装置,被配置为识别用户输入以产生输入识别结果;实体识别装置,被配置为从输入识别结果中识别出实体;候选实体含义获取装置,被配置为为识别出的实体获取候选实体含义的集合;计算装置,被配置为基于获取的场景信息,计算所述候选实体含义的集合中各候选实体含义的特征向量;实体含义识别装置,被配置为基于各候选实体含义的特征向量,计算各候选实体含义的分数,根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。根据本专利技术的一个实施例,用户输入包括语音输入和/或文字输入。根据本专利技术的一个实施例,实体识别装置包括:分词单元,被配置为将输入识别结果分词,并为从输入识别结果中分出的词进行词性标注;实体判断单元,被配置为将每一个字输入分类器,判定每一个字是否是构成实体的字、以及构成实体的开头、中间还是末尾,根据分类器对每一个字的判定结果,判断该词是否是实体。根据本专利技术的一个实施例,所述分类器是通过利用训练语料作为输入、并对分类结果进行反馈训练出的。根据本专利技术的一个实施例,所述候选实体含义获取装置被配置为:针对识别出的实体,从实体含义库查找与该实体匹配的候选实体含义。根据本专利技术的一个实施例,获取的场景信息包括用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项。根据本专利技术的一个实施例,所述候选实体含义的集合中各候选实体含义的特征向量中的至少一部分特征基于用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项计算。根据本专利技术的一个实施例,所述实体含义识别装置被配置为使用评分函数计算各候选实体含义的分数。根据本专利技术的一个实施例,所述评分函数的系数是利用训练语料作为输入、并对实体含义识别结果进行反馈训练出的。与仅采用通用模型的现有技术相比,本专利技术的实施例所提供的技术方案,通过基于获取的场景信息而不仅是通用模型来分析候选实体含义,根据不同的场景信息对候选实体含义进行针对性地分析,较大地提升了实体含义识别的准确性。本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本专利技术并不仅限于这些实施例。而是,本专利技术的范围是广泛的,且意在仅通过后附的权利要求限定本专利技术的范围。【附图说明】通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出根据本专利技术一个实施例的基于场景信息的实体含义识别方法的流程图;图2示出了根据本专利技术一个实施例的基于场景信息的实体含义识别系统的示意性框图;图3示出了根据本专利技术的一个实施例的实体识别装置的示意性框图;附图中相同或相似的附图标记代表相同或相似的部件。【具体实施方式】下面结合附图对本专利技术作进一步详细描述。图1示出了根据本专利技术一个实施例的基于场景信息的实体含义识别方法的流程图。根据图1,所述实体含义识别方法包括:步骤S101,识别用户输入,以产生输入识别结果。可选地,所述用户输入包括诸如语音输入、文字输入等各种输入方式,文字输入可包括诸如字形输入和拼音输入。当用户输入为文字输入时,输入识别结果即输入的文字;当用户输入为语音输入时,可以基于声学模型识别出音节,通过查询字典中音节与文本的可能映射关系,利用语言模型进行语音解码,识别出对应的文本作为输入识别结果。语音解码目前已有成熟技术。以语音识别为例,用户输入为“woyaoqujiaoda”,输入识别结果为“我要去交大”。步骤S102,从输入识别结果中识别出实体。实体是输入识别结果中的专用名词,例如地点、人名等。可选地,对输入识别结果进行一系列的预处理,诸如编码转换、全角半角转换等。预处理后,基于相应的规则、统计方法或机器学习方法从输入识别结果中识别出实体。可选地,从输入识别结果中识别出实体的步骤包括:-将输入识别结果分词;例如,将输入识别结果“我要去交大”进行分词,得到“我/要/去/交大”,分词的方法是已有技术,在此不作限定,包括诸如基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法等。通过分词,将输入识别结果切分为一个一个的词。-为从输入识别结果中分出的词进行词性标注;例如,为上文中切分后的各个词“我/要/去/交大”进行词性标注,我-代词,要-助动词,去-动词,交大-名词。词性标注的方法是已有技术。通过分词和词性标注,可以提升实体识别的准确率。分词后的名词也可以作为训练语料,为构建实体识别的模型服务当前第1页1 2 3 本文档来自技高网...

【技术保护点】
一种基于场景信息的实体含义识别方法,包括:识别用户输入,以产生输入识别结果;从输入识别结果中识别出实体;为识别出的实体获取候选实体含义的集合;基于获取的场景信息,计算所述候选实体含义的集合中各候选实体含义的特征向量;基于各候选实体含义的特征向量,计算各候选实体含义的分数,根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:沈李斌雷欣
申请(专利权)人:北京羽扇智信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1