【技术实现步骤摘要】
文本中实体识别方法、以及装置
本专利技术涉及人工智能领域的自然语言处理技术,尤其涉及一种文本中实体识别方法、装置、电子设备及计算机可读存储介质。
技术介绍
人工智能(AI,ArtificialIntelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。自然语言处理(NLP,NatureLanguageProcessing)是人工智能中的一个重要方向,主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。实体识别是自然语言处理的一个分支,是指识别文本中具有特定意义的实体,例如歌名、人名及地名等。在相关技术提供的方案中,通常是通过人工对待识别的文本构造特征,然后通过机器学习模型对该特征进行标签类别标注,最后根据标注的标签类别实现实体识别,而人工构造特征导致实体识别效率低。
技术实现思路
本专利技术实施例提供一种文本中实体识别方法、装置、电子设备及计算机可读存储介质,能够提高实体识别的效率 ...
【技术保护点】
1.一种文本中实体识别方法,其特征在于,所述方法包括:/n对文本进行特征抽取处理,以获得所述文本中每个文字对应的字特征向量;/n根据对应所述文本的实体字典,确定所述文本中每个文字对应的字典向量;/n对所述文本进行分词处理,以获得所述文本中每个文字对应的词语,并确定对应每个所述词语的词向量;/n将每个文字对应的所述字特征向量、所述字典向量以及所述词向量进行拼接处理,以获得所述每个文字对应的拼接向量;/n根据所述每个文字对应的拼接向量确定所述每个文字对应的标签,并/n根据所述每个文字对应的标签确定所述文本中的实体和所述实体的类型。/n
【技术特征摘要】
1.一种文本中实体识别方法,其特征在于,所述方法包括:
对文本进行特征抽取处理,以获得所述文本中每个文字对应的字特征向量;
根据对应所述文本的实体字典,确定所述文本中每个文字对应的字典向量;
对所述文本进行分词处理,以获得所述文本中每个文字对应的词语,并确定对应每个所述词语的词向量;
将每个文字对应的所述字特征向量、所述字典向量以及所述词向量进行拼接处理,以获得所述每个文字对应的拼接向量;
根据所述每个文字对应的拼接向量确定所述每个文字对应的标签,并
根据所述每个文字对应的标签确定所述文本中的实体和所述实体的类型。
2.根据权利要求1所述的方法,其特征在于,所述对文本进行特征抽取处理,以获得所述文本中每个文字对应的字特征向量,包括:
在映射字典中查询所述文本中每个文字对应的数字标识;
将所述每个文字对应的数字标识转换为向量的形式,以获得所述每个文字对应的字特征向量。
3.根据权利要求1所述的方法,其特征在于,所述根据对应所述文本的实体字典,确定所述文本中每个文字对应的字典向量,包括:
确定所述文本所属的类型;
确定对应所述文本所属的类型的实体字典;
在所述实体字典中,查询对应所述文本中每个文字的字典向量。
4.根据权利要求1所述的方法,其特征在于,所述对所述文本进行分词处理,以获得所述文本中每个文字对应的词语,并确定对应每个所述词语的词向量,包括:
在所述文本中截取字数长度为预设值的多个词语;
将截取的每个所述词语进行编码,以获得一一对应的多个编码序列;
将对应每个所述词语的编码序列映射为对应所述词语的词向量。
5.根据权利要求1所述的方法,其特征在于,所述将每个文字对应的所述字特征向量、所述字典向量以及所述词向量进行拼接处理,以获得所述每个文字对应的拼接向量,包括:
确定对应同一个文字的字特征向量、字典向量以及词向量;
将所述字特征向量、所述字典向量以及所述词向量所包含的每个维度进行叠加,并在叠加后的维度中填充对应所述维度的标量,以获得对应所述文字的拼接向量。
6.根据权利要求1所述的方法,其特征在于,所述根据所述每个文字对应的拼接向量确定所述每个文字对应的标签,包括:
将每个文字对应的拼接向量映射为分别属于不同候选标签的概率;
其中,所述候选标签用于指示所述文字所属的实体的类型以及所述文字在所属实体中的...
【专利技术属性】
技术研发人员:王明,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。