虚拟场景的实体识别方法、装置、设备、介质及程序产品制造方法及图纸

技术编号:33048875 阅读:13 留言:0更新日期:2022-04-15 09:33
本申请提供了一种虚拟场景的实体识别方法、装置、设备、存储介质及计算机程序产品;方法包括:针对虚拟场景对应的多个待识别实体,获取各所述待识别实体的实体名称、以及所述实体名称的字符长度;基于各所述待识别实体对应的所述字符长度,从所述多个待识别实体中筛选出所述虚拟场景对应的至少一个内容实体;基于各所述待识别实体的实体名称,分别以各所述内容实体为聚类中心,对所述多个待识别实体进行聚类处理,得到至少一个实体簇;将各所述实体簇中除所述内容实体以外的待识别实体,作为用于对相应实体簇中所述内容实体进行内容扩展的可下载内容实体;通过本申请,能够提高虚拟场景的实体的识别效率。场景的实体的识别效率。场景的实体的识别效率。

【技术实现步骤摘要】
虚拟场景的实体识别方法、装置、设备、介质及程序产品


[0001]本申请涉及信息处理
,尤其涉及一种虚拟场景的实体识别方法、装置、设备、存储介质及计算机程序产品。

技术介绍

[0002]人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术也逐渐应用于实体识别领域。
[0003]相关技术中,针对虚拟场景的实体识别,通常采用人工识别的方式实现,首先通过人工获取实体的实体信息,然后基于实体信息对实体进行人工识别。但是人工实体识别的方式消耗大量的人力和时间,导致实体的识别效率低下。

技术实现思路

[0004]本申请实施例提供一种虚拟场景的实体识别方法、装置、设备、存储介质及计算机程序产品,能够提高虚拟场景的实体的识别效率。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种虚拟场景的实体识别方法,包括:
[0007]针对虚拟场景对应的多个待识别实体,获取各所述待识别实体的实体名称、以及所述实体名称的字符长度;
[0008]基于各所述待识别实体对应的所述字符长度,从所述多个待识别实体中筛选出所述虚拟场景对应的至少一个内容实体;
[0009]基于各所述待识别实体的实体名称,分别以各所述内容实体为聚类中心,对所述多个待识别实体进行聚类处理,得到至少一个实体簇;
[0010]将各所述实体簇中除所述内容实体以外的待识别实体,作为用于对相应实体簇中所述内容实体进行内容扩展的可下载内容实体。
[0011]本申请实施例还提供一种虚拟场景的实体识别装置,包括:
[0012]获取模块,用于针对虚拟场景对应的多个待识别实体,获取各所述待识别实体的实体名称、以及所述实体名称的字符长度;
[0013]筛选模块,用于基于各所述待识别实体对应的所述字符长度,从所述多个待识别实体中筛选出所述虚拟场景对应的至少一个内容实体;
[0014]聚类模块,用于基于各所述待识别实体的实体名称,分别以各所述内容实体为聚类中心,对所述多个待识别实体进行聚类处理,得到至少一个实体簇;
[0015]确定模块,用于将各所述实体簇中除所述内容实体以外的待识别实体,作为用于
对相应实体簇中所述内容实体进行内容扩展的可下载内容实体。
[0016]上述方案中,所述筛选模块,还用于基于各所述待识别实体对应的所述字符长度,从所述多个待识别实体中筛选出所述字符长度最小的待识别实体,并将所述字符长度最小的待识别实体,确定为所述虚拟场景对应的内容实体。
[0017]上述方案中,所述聚类模块,还用于当存在不属于所述实体簇的至少两个目标待识别实体时,基于各所述目标待识别实体对应的所述字符长度,从所述至少两个目标待识别实体中筛选出目标内容实体;以各所述目标内容实体为聚类中心,对所述至少两个目标待识别实体进行聚类处理,得到至少一个目标实体簇;循环执行上述操作,直至各所述待识别实体加入对应的实体簇。
[0018]上述方案中,所述内容实体的实体名称的字符长度为目标长度;所述聚类模块,还用于针对各所述内容实体分别执行如下处理,以得到至少一个实体簇:针对各所述待识别实体的实体名称,从所述实体名称的第一个字符开始,截取字符长度为所述目标长度的字符串;将所述内容实体的实体名称分别与各所述待识别实体对应的所述字符串进行比对,得到比对结果;当所述比对结果表征存在与所述内容实体的实体名称相同的目标字符串时,将所述目标字符串对应的目标待识别实体,加入以所述内容实体为聚类中心的实体簇。
[0019]上述方案中,所述内容实体的实体名称的字符长度为目标长度;所述聚类模块,还用于针对各所述待识别实体的实体名称,从所述实体名称的第一个字符开始,截取字符长度为所述目标长度的字符串;构建包括各所述待识别实体所对应键值对的实体表;其中,所述键值对中的键为所述待识别实体对应的所述字符串,所述键值对中的值为所述待识别实体的实体名称;所述聚类模块,还用于针对各所述内容实体分别执行如下处理,以得到至少一个实体簇:基于所述实体表,将所述内容实体的实体名称分别与各所述键值对中的所述键进行匹配,得到匹配结果;当所述匹配结果表征所述实体表中,存在与所述内容实体的实体名称相同的目标键时,将所述目标键对应的值所指示的待识别实体,加入以所述内容实体为聚类中心的实体簇。
[0020]上述方案中,所述聚类模块,还用于针对各所述内容实体分别执行如下处理,以得到至少一个实体簇:分别确定各所述待识别实体的实体名称与所述内容实体的实体名称间的名称相似度;将所述名称相似度高于相似度阈值的待识别实体,加入以所述内容实体为聚类中心的实体簇。
[0021]上述方案中,所述聚类模块,还用于针对各所述内容实体分别执行如下处理,以得到至少一个实体簇:获取各所述待识别实体的实体名称的第一名称向量、以及所述内容实体的实体名称的第二名称向量;分别确定各所述第一名称向量与所述第二名称向量间的向量距离;将所述向量距离低于距离阈值的第一名称向量所对应的待识别实体,加入以所述内容实体为聚类中心的实体簇。
[0022]上述方案中,所述确定模块,还用于针对各所述实体簇,分别执行如下处理:将所述实体簇中除所述内容实体以外的待识别实体,作为候选可下载内容实体,并获取所述候选可下载内容实体的描述文本;针对各所述候选可下载内容实体,分别执行如下处理:通过神经网络模型,基于所述描述文本对所述候选可下载内容实体的实体类别进行预测,得到预测结果;当所述预测结果表征所述候选可下载内容实体的实体类别为可下载内容实体类别时,将所述候选可下载内容实体确定为用于对相应实体簇中所述内容实体进行内容扩展
的可下载内容实体。
[0023]上述方案中,所述确定模块,还用于当所述预测结果表征所述候选可下载内容实体的实体类别为内容实体类别时,将所述候选可下载内容实体作为所述实体簇中的候选内容实体;确定所述内容实体的实体名称与所述待识别实体的实体名称间的第一字符匹配度,并确定所述候选内容实体的实体名称与所述待识别实体的实体名称间的第二字符匹配度;当所述第一字符匹配度小于所述第二字符匹配度时,更新所述实体簇中的内容实体为所述候选内容实体。
[0024]上述方案中,所述确定模块,还用于获取所述描述文本包含的分词,并通过所述神经网络模型的向量映射层,对所述分词进行向量映射,得到所述描述文本对应的描述向量;获取所述分词在所述描述文本中的位置信息,并通过所述神经网络模型的位置编码层,对所述位置信息进行编码,得到所述描述文本对应的位置编码;通过所述神经网络模型的类别预测层,结合所述描述向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟场景的实体识别方法,其特征在于,所述方法包括:针对虚拟场景对应的多个待识别实体,获取各所述待识别实体的实体名称、以及所述实体名称的字符长度;基于各所述待识别实体对应的所述字符长度,从所述多个待识别实体中筛选出所述虚拟场景对应的至少一个内容实体;基于各所述待识别实体的实体名称,分别以各所述内容实体为聚类中心,对所述多个待识别实体进行聚类处理,得到至少一个实体簇;将各所述实体簇中除所述内容实体以外的待识别实体,作为用于对相应实体簇中所述内容实体进行内容扩展的可下载内容实体。2.如权利要求1所述的方法,其特征在于,所述基于各所述待识别实体对应的所述字符长度,从所述多个待识别实体中筛选出所述虚拟场景对应的至少一个内容实体,包括:基于各所述待识别实体对应的所述字符长度,从所述多个待识别实体中筛选出所述字符长度最小的待识别实体,并将所述字符长度最小的待识别实体,确定为所述虚拟场景对应的内容实体。3.如权利要求1所述的方法,其特征在于,所述分别以各所述内容实体为聚类中心,对所述多个待识别实体进行聚类处理,得到至少一个实体簇之后,所述方法还包括:当存在不属于所述实体簇的至少两个目标待识别实体时,基于各所述目标待识别实体对应的所述字符长度,从所述至少两个目标待识别实体中筛选出目标内容实体;以各所述目标内容实体为聚类中心,对所述至少两个目标待识别实体进行聚类处理,得到至少一个目标实体簇;循环执行上述操作,直至各所述待识别实体加入对应的实体簇。4.如权利要求1所述的方法,其特征在于,所述内容实体的实体名称的字符长度为目标长度;所述基于各所述待识别实体的实体名称,分别以各所述内容实体为聚类中心,对所述多个待识别实体进行聚类处理,得到至少一个实体簇,包括:针对各所述内容实体分别执行如下处理,以得到至少一个实体簇:针对各所述待识别实体的实体名称,从所述实体名称的第一个字符开始,截取字符长度为所述目标长度的字符串;将所述内容实体的实体名称分别与各所述待识别实体对应的所述字符串进行比对,得到比对结果;当所述比对结果表征存在与所述内容实体的实体名称相同的目标字符串时,将所述目标字符串对应的目标待识别实体,加入以所述内容实体为聚类中心的实体簇。5.如权利要求1所述的方法,其特征在于,所述内容实体的实体名称的字符长度为目标长度;所述方法还包括:针对各所述待识别实体的实体名称,从所述实体名称的第一个字符开始,截取字符长度为所述目标长度的字符串;构建包括各所述待识别实体所对应键值对的实体表;其中,所述键值对中的键为所述待识别实体对应的所述字符串,所述键值对中的值为所述待识别实体的实体名称;所述基于各所述待识别实体的实体名称,分别以各所述内容实体为聚类中心,对所述多个待识别实体进行聚类处理,得到至少一个实体簇,包括:
针对各所述内容实体分别执行如下处理,以得到至少一个实体簇:基于所述实体表,将所述内容实体的实体名称分别与各所述键值对中的所述键进行匹配,得到匹配结果;当所述匹配结果表征所述实体表中,存在与所述内容实体的实体名称相同的目标键时,将所述目标键对应的值所指示的待识别实体,加入以所述内容实体为聚类中心的实体簇。6.如权利要求1所述的方法,其特征在于,所述基于各所述待识别实体的实体名称,分别以各所述内容实体为聚类中心,对所述多个待识别实体进行聚类处理,得到至少一个实体簇,包括:针对各所述内容实体分别执行如下处理,以得到至少一个实体簇:分别确定各所述待识别实体的实体名称与所述内容实体的实体名称间的名称相似度;将所述名称相似度高于相似度阈值的待识别实体,加入以所述内容实体为聚类中心的实体簇。7.如权利要求1所述的方法,其特征在于,所述基于各所述待识别实体的实体名称,分别以各所述内容实体为聚类中心,对所述多个待识别实体进行聚类处理,得到至少一个实体簇,包括:针对各所述内容实体分别执行如下处理,以得到至少一个实体簇:获取各所述待识别实体的实体名称的第一名称向量、以及所述内容实体的实体名称的第二名称向量;分别确定各所述第一名称向量与所述第二...

【专利技术属性】
技术研发人员:桑健顺吴蓓蒋益巧郭豪黄东晓刘文强
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1