【技术实现步骤摘要】
实体识别方法、装置、存储介质和电子设备
本专利技术涉及计算机
,尤其涉及一种实体识别方法、装置、存储介质和电子设备。
技术介绍
随着科技发展,人们可以通过计算机网络搜索自己需要的内容。但由于目前计算机的数据存储量庞大,在搜索过程中经常会获取到大量无关的搜索结果,降低搜索结果的准确率。因此,如何在大量的数据中匹配到需要搜索的信息,提高搜索效率是目前需要解决的问题。
技术实现思路
有鉴于此,本专利技术实施例提供了一种实体识别方法、装置、存储介质和电子设备,旨在提高实体识别过程的效率以及识别结果的准确率。第一方面,本专利技术实施例提供了一种实体识别方法,所述方法包括:确定目标领域对应的标准实体名称索引和同义词库,所述标准实体名称索引用于搜索目标领域的标准实体名称,所述同义词库中包括多个目标领域对应的实体名称组,各所述实体名称组中包括多个含义相同的实体名称;确定待识别的第一实体文本对应的第一词集合,所述第一词集合中包括对所述第一实体文本分词后得到的多个第一实体名称;基于所述标 ...
【技术保护点】
1.一种实体识别方法,其特征在于,所述方法包括:/n确定目标领域对应的标准实体名称索引和同义词库,所述标准实体名称索引用于搜索目标领域的标准实体名称,所述同义词库中包括多个目标领域对应的实体名称组,各所述实体名称组中包括多个含义相同的实体名称;/n确定待识别的第一实体文本对应的第一词集合,所述第一词集合中包括对所述第一实体文本分词后得到的多个第一实体名称;/n基于所述标准实体名称索引对第一实体文本进行搜索,以确定至少一个标准实体文本以及各所述标准实体文本对应的标准词集合,所述标准词集合中包括对标准实体文本分词后得到的多个标准实体名称;/n根据各所述标准词集合在所述同义词库中 ...
【技术特征摘要】
1.一种实体识别方法,其特征在于,所述方法包括:
确定目标领域对应的标准实体名称索引和同义词库,所述标准实体名称索引用于搜索目标领域的标准实体名称,所述同义词库中包括多个目标领域对应的实体名称组,各所述实体名称组中包括多个含义相同的实体名称;
确定待识别的第一实体文本对应的第一词集合,所述第一词集合中包括对所述第一实体文本分词后得到的多个第一实体名称;
基于所述标准实体名称索引对第一实体文本进行搜索,以确定至少一个标准实体文本以及各所述标准实体文本对应的标准词集合,所述标准词集合中包括对标准实体文本分词后得到的多个标准实体名称;
根据各所述标准词集合在所述同义词库中确定所述第一词集合中各所述第一实体名称对应的标准实体名称,以确定对应的第二词集合;
计算各所述标准词集合和对应的第二词集合的相似度,以确定目标标准词集合对应的标准实体文本为识别得到的第二实体文本。
2.根据权利要求1所述的方法,其特征在于,所述确定目标领域对应的标准实体名称索引和同义词库包括:
确定目标领域对应的专用实体文本集合以及标准实体文本集合;
根据所述专用实体文本集合确定同义词库;
根据所述专用实体文本集合、标准实体文本集合和同义词库确定标准实体名称索引。
3.根据权利要求2所述的方法,其特征在于,所述根据所述专用实体文本集合、标准实体文本集合和同义词库确定标准实体名称索引包括:
对所述专用实体文本集合中各所述专用实体文本进行分词处理,以确定所述目标领域对应的专用实体名称集合;
根据所述同义词库、专用实体名称集合和标准实体文本集合确定标准实体名称索引。
4.根据权利要求1所述的方法,其特征在于,所述确定待识别的第一实体文本对应的第一词集合包括:
确定待识别的第一实体文本;
对所述第一实体文本进行分词处理,以根据分词后得到的多个第一实体名称确定第一词集合。
5.根据权利要求1所述的方法,其特征在于,所述基于所述标准实体名称索引对第一实体文本进行搜索,以确定至少一个标准实体文本以及各所述标准实体文本对应的标准词集合包括:
基于所述标准实体名称索引对第一实体文本进行搜索,以确定至少一个标准实体文本;
对各所述标准实体文本进行分词处理,以得到包括多个第二实体名称的标准词集合,所述第二实体名称为标准实体文本分词得到的标准实体名称。
6.根据权利要求1所述的方法,其特征在于,所述根据各所述标准词集合在所述同义词库中确定所述第一词集合中各所述第一实体名称对应的标准实体名称,以确定对应的第二词集合包括:
确定目标标准词集合;
在所述同义词库中确定各所述第一实体名称对应的至少一个同义词;
响应于存在与所述目标标准词集合中第二实体名称相同的同义词,通过所述同义词替换对应的第一实体名称以确定对应的第二词集合。
7.根据权利要求1所述的方法,其特征在于,所述计算各所述标准词集合和对应的第二词集合的相似度,以确定目标标准词集合对应的标准实体文本为识别得到的第二实体文本包括:
确定各所述标准词集合对应的标准向量,以及对应的第二词集合对应的同义向量,所述标准向量用于表征对应的标准词集合,所述第同义向量用于表征对应的第二词集合;
计算各所述标准向量和对应的同义向量的相似度,以确定目标标准向量对应的标准词集合为目标标准词集合;
确定所述目标标准词集合对应的标准实体名称为识别得到的第二实体文本。
8.根据权利要求7所述的方法,其特征在于,所述确定各所述标准词集合对应的标准向量,以及对应的第二词集合对应的同义向量包括:
确定词性权重集合,所述词性权重集合中包括多个词性和对应的权重;
确定各所述标准词集合中各第二实体名称的词性,以在所述词性权重集合中确定对应的第一权重集合;
确定各所述标准词集合对应的第二词集合中各词的词性,以在所述词性权重集合中确定对应的第二权重集合;
根据各所述第一权重集合确定对应的标准向量,并根据各所述第二权重集合确定对应的同义向量。
9.根据权利要求7所述的方法,其特征在于,所述计算各所述标准向量和对应的同义向量的相似度,以确定目标标准向量对应的标准词集合为目标标准词集合包括:
计算各所述标准向量和对应的同义向量的余弦相似度得到相似度值;
确定相似度值最大的标准词向量为目标标准词向量;
确定所述目标标准词向量对应的标准词集合为目标标准词集合。
10.一种实体识别装置,其特征在于,所述装置包括:
第一确定模块,用于确定目标领域对应的标准实体名称索引和同义词库,所述标准实体名称索引用于搜索目标领域的标准实体名称,所述同义词库中包括多个目标...
【专利技术属性】
技术研发人员:赵华宇,胡思琦,闫鹏,高仕才,
申请(专利权)人:北京嘀嘀无限科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。