【技术实现步骤摘要】
实体识别方法、装置、计算机设备及计算机可读存储介质
本专利技术涉及实体识别
,具体涉及一种实体识别方法、装置、计算机设备及计算机可读存储介质。
技术介绍
通常,在对英文文本进行实体识别时,需要对英文文本进行预处理。在对英文文本进行预处理,得到目标英文文本的过程中,目标英文文本中的词语的位置相对于英文文本中的词语的位置发生改变。导致对目标英文文本进行实体识别时,根据识别出的实体位置不能得到对应的实体,降低了根据预处理后的目标英文文本进行实体识别的准确性。
技术实现思路
鉴于以上内容,有必要提出一种实体识别方法、装置、计算机设备及计算机可读存储介质,其可以对英文文本进行预处理,提升了根据预处理得到的目标英文文本和所述映射关系进行实体识别的准确率。本申请的第一方面提供一种实体识别方法,所述实体识别方法包括:获取英文文本;对所述英文文本进行分词,得到多个第一词语;计算所述多个第一词语的第一位置;对所述多个第一词语进行词根转化,得到与所述多个第一词语一一对应的多 ...
【技术保护点】
1.一种实体识别方法,其特征在于,所述实体识别方法包括:/n获取英文文本;/n对所述英文文本进行分词,得到多个第一词语;/n计算所述多个第一词语的第一位置;/n对所述多个第一词语进行词根转化,得到与所述多个第一词语一一对应的多个第二词语;/n将所述多个第二词语组合成目标英文文本;/n基于所述目标英文文本计算所述多个第二词语的第二位置;/n生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系;/n根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体。/n
【技术特征摘要】
1.一种实体识别方法,其特征在于,所述实体识别方法包括:
获取英文文本;
对所述英文文本进行分词,得到多个第一词语;
计算所述多个第一词语的第一位置;
对所述多个第一词语进行词根转化,得到与所述多个第一词语一一对应的多个第二词语;
将所述多个第二词语组合成目标英文文本;
基于所述目标英文文本计算所述多个第二词语的第二位置;
生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系;
根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体。
2.如权利要求1所述的实体识别方法,其特征在于,所述计算所述多个第一词语的第一位置包括:
依所述英文文本的字符顺序生成所述英文文本中每个字符的序号;
对于每个第一词语,在所述英文文本中确定所述第一词语的对应词语;
将所述对应词语的首字符的序号和所述对应词语的尾字符的序号确定为所述第一词语的第一位置。
3.如权利要求1所述的实体识别方法,其特征在于,所述对所述多个第一词语进行词根转化包括:
对所述多个第一词语进行大小写转化;
对所述大小写转化后的第一词语进行词根转化,得到与所述第一词语对应的第二词语。
4.如权利要求3所述的实体识别方法,其特征在于,所述对所述多个第一词语进行大小写转化包括:
对于每个第一词语,判断所述第一词语的首字符是否为大写字符;
当所述第一词语的首字符是大写字符时,判断所述第一词语中是否存在小写字符;
当所述第一词语中存在小写字符时,将所述第一词语中的大写字符转化为小写字符,得到大小写转化后的第一词语。
5.如权利要求1所述的实体识别方法,其特征在于,所述基于所述目标英文文本计算所述多个第二词语的第二位置包括:
根据所述英文文本中的第一个第一词语的第一位置计算词间空白字符数量;
获取每个第二词语的字符长度;
根据所述词间空白字符数量和所述目标英文文本中的第一个第二词语的字符长度,计算所述第一个第二词语的第二位置;
从所述目标英文文本中的第二个第二词语起,依次确定当前第二词语,根据所述词间空白字符数量和所述当前第二词语的前一个第二词语的第二位置计算所述当前第二词语...
【专利技术属性】
技术研发人员:顾大中,张圣,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。