【技术实现步骤摘要】
一种军事领域下的实体搜索方法
[0001]本专利技术属于计算机自然语言处理
,具体涉及一种军事领域下的实体搜索方法。
技术介绍
[0002]现有技术中面向传统领域的搜索主要包括新闻、自媒体等搜索领域。实体搜索与传统的新闻搜索不同,它能够帮助用户搜索更准确的实体,以提升用户体验。实体搜索在体育、娱乐、电商等常见领域中已有广泛的应用,不过却很少应用在军事领域的应用场景中。由于军事领域的数据集较少,且军事应用中同一实体存在很多不同的别称,例如:武器装备的特殊称呼(歼
‑
8战斗机的别名有“长须鲸”)、舰的舷号(西奥多
·
罗斯福号航空母舰常用的别名有“CVN
‑
71”)等,因此军事领域下的实体识别存在极大的挑战,实体搜索通常包含数据预处理、实体识别、实体链接、实体排序四个流程。
[0003]在数据预处理过程中,军事领域下的数据预处理与其他领域有着些许的不同,主要在于军事领域中实体的别名非常丰富。
[0004]在实体识别过程中,目前大多数实体识别采用的是深度学习 ...
【技术保护点】
【技术特征摘要】
1.一种军事领域下的实体搜索方法,其特征在于,包括以下步骤:构建军事实体别名关系抽取模型,采用构建的实体别名样本集完成对军事实体别名关系的训练,其中,军事实体别名关系抽取模型用于提取出更多非文本结构中实体与别名的关系;从现有词条数据中提取实体的别名,保存实体与别名之间的实体别名对应关系,构建由文本、实体及别名构成的实体别名样本集;基于所述实体别名对应关系建立基于关系识别实体单元,基于所述军事实体别名关系抽取模型建立基于模型识别实体单元;使用中,将用户输入语句分别输入基于关系识别实体单元及基于模型识别实体单元,分别得到关系识别实体及模型识别实体;再对关系识别实体及模型识别实体进行实体融合,得到实体列表;计算实体列表中实体的实体得分,根据实体得分及语义得分计算实体最终得分,根据实体最终得分的高低对实体列表进行排序,得到实体排序列表。2.根据权利要求1所述的实体搜索方法,其特征在于,所述实体别名对应关系采用Elasticsearch数据库存储。3.根据权利要求1所述的实体搜索方法,其特征在于,所述军事实体别名关系抽取模型采用BERT模型和CRF模型构建。4.根据权利要求1所述的实体搜索方法,其特征在于,所述基于关系识别实体单元,包括切词处理、实体匹配及实体确认:所述切词处理,用于将用户输入语句进行切词得到中间词语;所述实体匹配,用于根据所述中间词语在实体别名对应关系中进行匹配,得到满足要求的实体为中间实体列表;所述实体确认,用于从所述中间实体列表确认关系识别实体,包括:若所述中间实体列表中包含多个实体且实体间存在交集,则将具有最长匹配长度别名的实体加入候选实体列表中,若实体间没有交集则将中间实体列表中的全部实体加入候选实体列表中,候选实体列表中实体即为关系识别实体。5.根据权利要求4所述的实体搜索方法...
【专利技术属性】
技术研发人员:杨理想,王银瑞,张侨,田泽,张协银,
申请(专利权)人:南京星耀智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。