文本地域识别方法、装置、计算机可读介质及电子设备制造方法及图纸

技术编号:37481322 阅读:17 留言:0更新日期:2023-05-07 09:21
本申请属于计算机技术领域,具体涉及一种文本地域识别方法、装置、计算机可读介质及电子设备。该方法包括:对待处理文本进行命名实体识别,获取待处理文本中的一个或多个命名实体;根据命名实体查询预设知识库,获取命名实体从属于的地域词;对待处理文本进行分词处理,得到待处理文本中包括的多个分词;根据分词对应的命名实体从属于的地域词,获取各个分词对应的地域嵌入编码;将待处理文本中各个分词对应的地域嵌入编码输入到预训练的机器学习模型中,得到与待处理文本对应的地域分类标签。本申请可以应用于智慧交通等相关领域,基于本申请能够使得待处理文本的编码能够具有更强的地域性质,从而提高对待处理文本的地域识别的准确性。识别的准确性。识别的准确性。

【技术实现步骤摘要】
文本地域识别方法、装置、计算机可读介质及电子设备


[0001]本申请属于计算机
,具体涉及一种文本地域识别方法、装置、计算机可读介质及电子设备。

技术介绍

[0002]在个性化信息流推荐等智能推荐中,很多文章都具备一定的地域属性。地域属性通常使得这些文章仅适合在某一个地域范围内的用户阅读,或者更适合在某一个地域范围内的用户阅读。因此,如何实现对于文本的地域属性的准确识别是亟待解决的问题。
[0003]由于信息流文章中很多文章为旅游推荐、商圈推荐、学校信息、行政公告、停水停电通知的文章,这类文章中通常包含很多细粒度的小范围地名,如景点、商圈、街道、乡镇、学校等。相关技术中,对于具有细粒度地名的文本,其中细粒度地名的地域信息难以识别,导致无法准确的识别到文章的地域信息。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本申请的目的在于提供一种文本地域识别方法、装置、计算机可读介质及电子设备。至少在一定程度上克服相关技术中如何准确识别文章的地域信息的技术问题。
[0006]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0007]根据本申请实施例的一个方面,提供一种文本地域识别方法。所述文本地域识别方法包括:
[0008]对待处理文本进行命名实体识别,获取所述待处理文本中的一个或多个命名实体;/>[0009]根据所述命名实体查询预设知识库,获取所述命名实体从属于的地域词,所述预设知识库中包括所述命名实体与地域词的从属关系;
[0010]对所述待处理文本进行分词处理,得到所述待处理文本中包括的多个分词,所述分词包括一个或多个字符;
[0011]根据所述分词对应的命名实体从属于的地域词,获取各个所述分词对应的地域嵌入编码;
[0012]将所述待处理文本中各个分词对应的地域嵌入编码输入到预训练的机器学习模型中,得到与所述待处理文本对应的地域分类标签,所述地域分类标签包括地域文本标签和非地域文本标签。
[0013]根据本申请实施例的一个方面,提供一种文本地域识别装置。所述文本地域识别装置包括:
[0014]命名实体识别模块,被配置为对待处理文本进行命名实体识别,获取所述待处理
文本中的一个或多个命名实体;
[0015]地域词查询模块,被配置为根据所述命名实体查询预设知识库,获取所述命名实体从属于的地域词,所述预设知识库中包括所述命名实体与地域词的从属关系;
[0016]分词模块,被配置为对所述待处理文本进行分词处理,得到所述待处理文本中包括的多个分词,所述分词包括一个或多个字符;
[0017]地域嵌入编码模块,被配置为根据所述分词对应的命名实体从属于的地域词,获取各个所述分词对应的地域嵌入编码;
[0018]地域分类模块,被配置为将所述待处理文本中各个分词对应的地域嵌入编码输入到预训练的机器学习模型中,得到与所述待处理文本对应的地域分类标签,所述地域分类标签包括地域文本标签和非地域文本标签。
[0019]在本申请的一些实施例中,基于以上技术方案,所述地域嵌入编码模块包括:
[0020]地域嵌入编码第一获取单元,被配置为当所述分词具有对应的命名实体,并且所述分词对应的命名实体具有从属于的地域词时,根据所述分词对应的命名实体从属于的地域词,查询预设的第一词表,获取所述分词对应的地域嵌入编码;
[0021]地域嵌入编码第二获取单元,被配置为当所述分词不具有对应的命名实体,或者所述分词对应的命名实体不具有从属于的地域词时,将预设编码作为所述分词对应的地域嵌入编码。
[0022]在本申请的一些实施例中,基于以上技术方案,所述地域嵌入编码第一获取单元包括:
[0023]地域嵌入编码第一获取子单元,被配置为当所述分词对应于一个命名实体时,根据所述分词对应的命名实体从属于的地域词,查询所述第一词表,获取所述分词对应的地域嵌入编码;
[0024]地域嵌入编码第二获取子单元,被配置为当所述分词对应于多个命名实体时,从所述多个命名实体中选取一个命名实体作为所述分词对应的命名实体,并根据所述分词对应的命名实体从属于的地域词,查询所述第一词表,获取所述分词对应的地域嵌入编码。
[0025]在本申请的一些实施例中,基于以上技术方案,所述地域嵌入编码第二获取子单元包括:
[0026]相关度计算子单元,被配置为计算所述分词在所述待处理文本的上下文位置的命名实体分别与所述分词对应的多个命名实体的相关度,并将与所述分词的上下文位置的命名实体相关度最高的命名实体作为所述分词对应的命名实体;或
[0027]出现频谱获取子单元,被配置为分别获取所述分词对应的多个命名实体在历史处理文本中的出现频率,并将在历史处理文本中出现频率最高的命名实体作为所述分词对应的命名实体。
[0028]在本申请的一些实施例中,基于以上技术方案,所述文本地域识别装置还包括:
[0029]预设地域实体库获取单元,被配置为获取预设地域实体库,所述预设地域实体库包括多个具有地域属性的命名实体;
[0030]命名实体剔除单元,被配置为根据所述命名实体查询所述预设地域实体库,并将不包括在所述预设地域实体库中的命名实体剔除。
[0031]在本申请的一些实施例中,基于以上技术方案,所述命名实体识别模块包括:
[0032]预设地域实体库获取单元,被配置为获取预设地域实体库,所述预设地域实体库包括多个具有地域属性的命名实体;
[0033]全词匹配单元,被配置为根据所述预设地域实体库中的命名实体对所述待处理文本进行全词匹配,获取所述待处理文本中的一个或多个命名实体。
[0034]在本申请的一些实施例中,基于以上技术方案,所述预设地域实体库中所包括的命名实体均包括在所述预设知识库中。
[0035]在本申请的一些实施例中,基于以上技术方案,所述文本地域识别装置包括:
[0036]特征嵌入编码获取单元,被配置为根据所述分词,查询预设的第二词表,获取所述分词对应的特征嵌入编码;
[0037]位置嵌入编码获取单元,被配置为根据所述分词在对应句子中的位置,查询预设的第三词表,获取所述分词对应的位置嵌入编码;
[0038]句类型嵌入编码获取单元,被配置为根据所述分词所在的句子在所述待处理文本中的位置,查询预设的第四词表,获取所述分词对应的句类型嵌入编码;
[0039]编码输入单元,被配置为将所述待处理文本中各个所述分词对应的特征嵌入编码、位置嵌入编码和句类型嵌入编码输入到预训练的机器学习模型中。
[0040]在本申请的一些实施例中,基于以上技术方案,所述地域分类模块包括:
[0041]编码相加单元,被配置为将所述待处理文本中各个所述分词对应的地域嵌入编码与特征嵌入编码、位置本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本地域识别方法,其特征在于,包括:对待处理文本进行命名实体识别,获取所述待处理文本中的一个或多个命名实体;根据所述命名实体查询预设知识库,获取所述命名实体从属于的地域词,所述预设知识库中包括所述命名实体与地域词的从属关系;对所述待处理文本进行分词处理,得到所述待处理文本中包括的多个分词,所述分词包括一个或多个字符;根据所述分词对应的命名实体从属于的地域词,获取各个所述分词对应的地域嵌入编码;将所述待处理文本中各个分词对应的地域嵌入编码输入到预训练的机器学习模型中,得到与所述待处理文本对应的地域分类标签,所述地域分类标签包括地域文本标签和非地域文本标签。2.根据权利要求1所述的方法,其特征在于,所述根据所述分词对应的命名实体从属于的地域词,获取各个所述分词对应的地域嵌入编码,包括:当所述分词具有对应的命名实体,并且所述分词对应的命名实体具有从属于的地域词时,根据所述分词对应的命名实体从属于的地域词,查询预设的第一词表,获取所述分词对应的地域嵌入编码;当所述分词不具有对应的命名实体,或者所述分词对应的命名实体不具有从属于的地域词时,将预设编码作为所述分词对应的地域嵌入编码。3.根据权利要求2所述的方法,其特征在于,所述当所述分词具有对应的命名实体,并且所述分词对应的命名实体具有从属于的地域词时,根据所述分词对应的命名实体从属于的地域词,查询预设的第一词表,获取所述分词对应的地域嵌入编码,包括:当所述分词对应于一个命名实体时,根据所述分词对应的命名实体从属于的地域词,查询所述第一词表,获取所述分词对应的地域嵌入编码;当所述分词对应于多个命名实体时,从所述多个命名实体中选取一个命名实体作为所述分词对应的命名实体,并根据所述分词对应的命名实体从属于的地域词,查询所述第一词表,获取所述分词对应的地域嵌入编码。4.根据权利要求3所述的方法,其特征在于,所述从所述多个命名实体中选取一个命名实体作为所述分词对应的命名实体,包括:计算所述分词在所述待处理文本的上下文位置的命名实体分别与所述分词对应的多个命名实体的相关度,并将与所述分词的上下文位置的命名实体相关度最高的命名实体作为所述分词对应的命名实体;或分别获取所述分词对应的多个命名实体在历史处理文本中的出现频率,并将在历史处理文本中出现频率最高的命名实体作为所述分词对应的命名实体。5.根据权利要求1所述的方法,其特征在于,在所述根据所述命名实体查询预设知识库之前,所述方法还包括:获取预设地域实体库,所述预设地域实体库包括多个具有地域属性的命名实体;根据所述命名实体查询所述预设地域实体库,并将不包括在所述预设地域实体库中的命名实体剔除。6.根据权利要求1所述的方法,其特征在于,所述对待处理文本进行命名实体识别,获
取所述待处理文本中的一个或多个命名实体包括:获取预设地域实体库,所述预设地域实体库包括多个具有地域属性的命名实体;根据所述预设地域实体库中的命名实体对所述待处理文本进行全词匹配,获取所述待处理文本中的一个或多个命名实体。7.根据权利要求1所述的方法,其特征在于,在所述将所述待处理文本中各个分词对应的地域嵌入编码输入到预训练的机器学习模型中,得到与所述待处理文本对应的地域分类标签之前,所述方法还包括:根据所述分词,查询预设的第二词表,获取所述分词对应的特征嵌入编码;根据所述分词在对应句子中的位置,查询预设的第三词表,获取所述分词对应的位置嵌入编码;根据所述分词所在的句子在所述待处理...

【专利技术属性】
技术研发人员:邓文超
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1