【技术实现步骤摘要】
实体词识别方法、装置、设备、存储介质及程序产品
[0001]本申请实施例涉及机器学习领域,特别涉及一种实体词识别方法、装置、设备、存储介质及程序产品。
技术介绍
[0002]实体词识别又称为实体抽取,是指从语句中识别出实体对应的属性结果,其中,待识别的语句通常为包含实体词的语句,如:来一首忘情水,则该语句中包含的实体为忘情水,属性结果为歌曲,通过对语句进行实体词识别来确定文本中的有效信息。
[0003]相关技术中,实体词识别主要基于人工特征工程,依靠经历多次试验并手工提取的特征来确定语句中的实体词。通过构建实体词识别模型对输入的文本信息进行实体抽取并分析,最终得到实体词识别结果。
[0004]然而相关技术中的方案,通常会存在特征工程标注耗时长,浪费人力物体的问题。且依靠人工提取的实体词特征数量有限,模型性能较差,实体词识别结果准确度较低。
技术实现思路
[0005]本申请实施例提供了一种实体词识别方法、装置、设备、存储介质及程序产品,能够提高目标文本内容的实体词识别准确率。所述技术方案如下。< ...
【技术保护点】
【技术特征摘要】
1.一种实体词识别方法,其特征在于,所述方法包括:获取目标文本内容,所述目标文本内容为待进行实体词识别的内容,所述目标文本内容中包括按序排列的字符;将所述目标文本内容中的字符与实体库进行匹配,得到所述实体库中与所述字符具有关联关系的候选实体词,其中,所述实体库中包括预先设定的实体词的集合;将所述字符与所述候选实体词进行混合编码,得到至少两个编码特征;从所述至少两个编码特征中确定出与所述目标文本内容的文本长度对应的候选编码特征;对所述候选编码特征进行实体词预测,得到所述目标文本内容的实体词识别结果。2.根据权利要求1所述的方法,其特征在于,所述将所述目标文本内容中的字符与实体库进行匹配,得到所述实体库中与所述字符具有关联关系的候选实体词,包括:将所述目标文本内容中的字符输入实体匹配模型,所述实体匹配模型中包括所述实体库;通过所述实体匹配模型对所述字符和所述实体库进行匹配,得到与所述字符具有关联关系的所述候选实体词。3.根据权利要求2所述的方法,其特征在于,所述实体匹配模型中包括Trie树结构,所述Trie树结构为用于对所述实体库进行实体词检索的字典树结构;所述通过所述实体匹配模型对所述字符和所述实体库进行匹配,得到与所述字符具有关联关系的所述候选实体词,包括:使用Trie树结构对所述字符和所述实体库进行匹配,得到与所述字符具有关联关系的所述候选实体词。4.根据权利要求3所述的方法,其特征在于,所述使用Trie树结构对所述字符和所述实体库进行匹配,得到与所述字符具有关联关系的所述候选实体词,包括:使用Trie树结构对所述字符和所述实体库中的实体词进行关联度分析,得到所述字符与所述实体词之间的关联度分析结果;基于所述关联度分析结果确定所述实体库中符合关联条件的所述候选实体词。5.根据权利要求1至4任一所述的方法,其特征在于,所述将所述字符与所述候选实体词进行混合编码,得到至少两个编码特征之前,还包括:将至少两个相邻的字符进行组合,得到组合字符;所述将所述字符与所述候选实体词进行混合编码,得到至少两个编码特征,包括:将所述字符、所述组合字符和所述候选实体词进行混合编码,得到至少两个编码特征。6.根据权利要求5所述的方法,其特征在于,所述将所述字符、所述组合字符和所述候选实体词进行混合编码,得到至少两个编码特征,包括:确定所述字符在所述目标文本内容中的第一位置标签,所述第一位置标签用于指示所述字符在所述目标文本内容中的位置;确定所述候选实体词在所述目标文本内容中的第二位置标签,所述第二位置标签用于指示所述候选实体词对应所述目标文本内容中的序列起始位置和序列终止位置;对所述字符、所述组合字符和所述第一位置标签的第一关联序列,以及所述候选实体词和所述第二位置标签的第二关联序列进行混合编码,得到至少两个编码特征。
7.根据权利要求6所述的方法,其特征在于,所述对所述字符、所述组合字符和所述第一位置标签的第一关联序列,以及所述候选实体词和所述第二位置标签的第二关联序列进行混合编码,得到至少两个编码特征,包括:确定所述第一关联序列对应的第一序...
【专利技术属性】
技术研发人员:王明,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。