System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于地点的文本检索方法、系统、存储介质及电子设备技术方案_技高网

基于地点的文本检索方法、系统、存储介质及电子设备技术方案

技术编号:41139992 阅读:7 留言:0更新日期:2024-04-30 18:10
本公开提供一种基于地点的文本检索方法、系统、存储介质及电子设备。方法包括:获取素材文本;在所述素材文本上标注标签,所述标签包括所述素材文本中事件发生地点的多粒度层级的表示;将标注后的素材文本构建数据库,所述数据库中的素材文本分划分为训练集、验证集和测试集;输入所述素材文本至语言处理模型中,对所述素材文本进行字符向量编码;构建提取网络模型,用于提取所述字符向量编码中的地点特征向量,所述地点特征向量包括多粒度层级的地点特征向量;利用度量学习,优化所述提取网络模型;获取待检索地点,匹配所述待检索地点和所述地点特征向量,生成检索文本列表。解决了在基于地点检索文本时漏检错检的问题。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及一种基于地点的文本检索方法、系统、存储介质及电子设备


技术介绍

1、在军事领域中,地点综述类报文是对发生在某个地点某段时间的事件动态的综述性文章。而涉及事件地点的报文分布在各个素材文本中。目前大部分实现逻辑是对素材文本抽取地点实体或事件发生地点,然后按照地点匹配的方式检索素材文本。抽取地点实体方法没有充分利用文本语义特征,容易出现漏检和错检素材情况。

2、如何从大量素材文本中准确的检索出与地点相关的素材,对于军事领域地点综述类报文至关重要。


技术实现思路

1、有鉴于此,本公开的目的在于提出一种基于地点的文本检索方法、系统、存储介质及电子设备,解决了在基于地点检索文本时漏检错检的问题。

2、为了实现上述公开目的之一,本公开提供了一种基于地点的文本检索方法,所述方法包括:

3、获取素材文本;

4、在所述素材文本上标注标签,所述标签包括所述素材文本中事件发生地点的多粒度层级的表示;

5、将标注后的素材文本构建数据库,所述数据库中的素材文本分划分为训练集、验证集和测试集;

6、输入所述素材文本至语言处理模型中,对所述素材文本进行字符向量编码;

7、构建提取网络模型,用于提取所述字符向量编码中的地点特征向量,所述地点特征向量包括多粒度层级的地点特征向量;

8、利用度量学习,优化所述提取网络模型;

9、获取待检索地点,匹配所述待检索地点和所述地点特征向量,生成检索文本列表。

10、作为本公开一实施方式的进一步改进,所述输入所述素材文本至语言处理模型中,对所述素材文本进行字符向量编码,包括:

11、将素材文本按字符切分成字符序列;

12、将长度为lt的所述字符序列数输入到所述语言处理模型;

13、进行维度为nbert的编码,每个字符生成1×nbert维的字符向量;

14、对lt个字符进行编码,得到的字符向量,记为ebert(lt×nbert)。

15、作为本公开一实施方式的进一步改进,所述标签包括所述素材文本中事件发生地点的多粒度层级的表示,包括:

16、所述标签包括素材文本中事件发生的国家地点、区域地点、省份地点和城市地点;

17、所述多粒度层级的地点特征向量,包括:

18、国家特征、区域特征、省份特征和城市特征。

19、作为本公开一实施方式的进一步改进,所述利用度量学习,优化提取网络模型,包括:

20、在所述数据库中获取所述素材文本,所述素材文本具有锚点样本、正样本和负样本组成的三元组;

21、利用损失函数,得到所述锚点样本分别与所述正样本和所述负样本之间的损失,优化所述提取网络模型。

22、作为本公开一实施方式的进一步改进,

23、所述损失函数的公式表示为:

24、

25、其中,k为不同粒度的层级,n为所述三元组的数量,表示锚点样本,表示正样本,i和j为样本在n中的序号,nk表示三元组在k层级的样本总数,f_k表示所述地点特征向量,表示f_ki的向量矩阵的转置矩阵。

26、作为本公开一实施方式的进一步改进,k=1,2,3,4;

27、其中1,2,3,4分别与城市层,省份层,区域层和国家层一一对应;

28、多个层级总的损失公式表示为:

29、

30、作为本公开一实施方式的进一步改进,所述获取待检索地点,匹配所述待检索地点和所述地点特征向量,生成检索文本列表,包括:

31、获取待检索地点,匹配与待检索地点的名称相同的相同地点特征向量;

32、根据所述相同地点特征向量,得到相同地点的多粒度层级的地点特征向量;

33、选取多粒度层级的地点特征向量对应的文本列表,生成检索文本列表。

34、基于相同的专利技术构思,本公开还提供了一种基于地点的文本检索系统,包括:

35、第一获取模块,用于获取素材文本;

36、标注模块,用于在所述素材文本上标注标签,所述标签包括所述素材文本中事件发生地点的多粒度层级的表示;

37、第一构建模块,用于将标注后的素材文本构建数据库,所述数据库中的素材文本分划分为训练集、验证集和测试集;

38、第一编码模块,用于输入所述素材文本至语言处理模型中,对所述素材文本进行字符向量编码;

39、第二构建模块,用于构建提取网络模型,用于提取所述字符向量编码中的地点特征向量,所述地点特征向量包括多粒度层级的地点特征向量;

40、第一优化模块,用于利用度量学习,优化所述提取网络模型;

41、第一生成模块,用于获取待检索地点,匹配所述待检索地点和所述地点特征向量,生成检索文本列表。

42、基于同样的专利技术构思,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行上述任一所述的基于地点的文本检索方法。

43、基于同样的专利技术构思,本公开还提供了一种电子设备,包括:处理器和存储器;所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述任一所述基于地点的文本检索方法的步骤。

44、相对于现有技术,本专利技术的技术效果在于:本公开利用具有多粒度层级的地点的素材文本训练提取网络模型,使得提取网络模型具有提取文本中地点的能力,还具有自动学习全球不同粒度地点间的关系的能力。根据待检索的地点,再通过提取网络模型的算法,可以准确全面的检索到与发生在该地点的事件,达到高精度的地点综述类报文素材推荐目标。

本文档来自技高网...

【技术保护点】

1.一种基于地点的文本检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于地点的文本检索方法,其特征在于,所述输入所述素材文本至语言处理模型中,对所述素材文本进行字符向量编码,包括:

3.根据权利要求1所述的基于地点的文本检索方法,其特征在于,所述标签包括所述素材文本中事件发生地点的多粒度层级的表示,包括:

4.根据权利要求1所述的基于地点的文本检索方法,其特征在于,所述利用度量学习,优化提取网络模型,包括:

5.根据权利要求4所述的基于地点的文本检索方法,其特征在于,

6.根据权利要求5所述的基于地点的文本检索方法,其特征在于,所述k=1,2,3,4;

7.根据权利要求1所述的基于地点的文本检索方法,其特征在于,所述获取待检索地点,匹配所述待检索地点和所述地点特征向量,生成检索文本列表,包括:

8.一种基于地点的文本检索系统,其特征在于,所述系统包括:

9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1至7任一所述的基于地点的文本检索方法。

10.一种电子设备,其特征在于,包括:处理器和存储器;

...

【技术特征摘要】

1.一种基于地点的文本检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于地点的文本检索方法,其特征在于,所述输入所述素材文本至语言处理模型中,对所述素材文本进行字符向量编码,包括:

3.根据权利要求1所述的基于地点的文本检索方法,其特征在于,所述标签包括所述素材文本中事件发生地点的多粒度层级的表示,包括:

4.根据权利要求1所述的基于地点的文本检索方法,其特征在于,所述利用度量学习,优化提取网络模型,包括:

5.根据权利要求4所述的基于地点的文本检索方法,其特征在于,

6.根...

【专利技术属性】
技术研发人员:朱秀翠曲直
申请(专利权)人:中科世通亨奇北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1