【技术实现步骤摘要】
书籍人物姓名识别模型的训练方法、电子设备及存储介质
本专利技术涉及信息处理
,具体涉及一种书籍人物姓名识别模型的训练方法、电子设备及存储介质。
技术介绍
人们在利用互联网技术进行书籍搜索的过程中,有些用户可能不记得书籍的名称,而只记得书籍人物的姓名,那么在这种情况下,用户会将书籍人物的姓名作为搜索关键词进行搜索,那么从书籍中准确地识别出书籍人物的姓名是基于书籍人物的姓名提供搜索服务的基础和前提。然而,现有的命名实体识别技术并没有充分考虑书籍人物的姓名的特征,那么利用现有的命名实体识别技术去识别书籍人物的姓名,存在着识别准确率较低的问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的书籍人物姓名识别模型的训练方法、电子设备及存储介质。根据本专利技术的一个方面,提供了一种书籍人物姓名识别模型的训练方法,该方法包括:从书籍集合中提取书籍人物的姓名字典;针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每 ...
【技术保护点】
1.一种书籍人物姓名识别模型的训练方法,包括:从书籍集合中提取书籍人物的姓名字典;针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记;对该语句样本中的每个字进行特征提取,得到每个字的特征;其中所述特征包含n‑gram通用特征以及停用词特征;根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。
【技术特征摘要】
1.一种书籍人物姓名识别模型的训练方法,包括:从书籍集合中提取书籍人物的姓名字典;针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记;对该语句样本中的每个字进行特征提取,得到每个字的特征;其中所述特征包含n-gram通用特征以及停用词特征;根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。2.根据权利要求1所述的方法,所述对该语句样本中的每个字进行特征提取,得到每个字的特征进一步包括:对于该语句样本中的任一个字,判断位于该字之前的n-1个字、以及位于该字之前的n-1个字的组合词是否包含停用词;根据判断结果,确定该字的停用词特征。3.根据权利要求1所述的方法,所述特征还包含:复姓词特征;所述对该语句样本中的每个字进行特征提取,得到每个字的特征进一步包括:对于该语句样本中的任一个字,判断该字与位于该字之前或之后的一个字的组合词是否为复姓词;根据判断结果,确定该字的复姓词特征。4.根据权利要求1-3任一项所述的方法,所述从书籍集合中提取书籍人物的姓名字典进一步包括:针对书籍集合中的每本书籍,提取出现频次超过预设频次的书籍人物的姓名,得到该书籍对应的姓名子集;对书籍集合中的所有书籍对应的姓名子集进行汇总,得到书籍人物的姓名字典。5.根据权利要求1-4任一项所述的方法,在所述针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合之后,所述方法还包括:获取扩充姓名字典;利用所述扩充姓名字典中的各个姓名,对语句样本集合中的每个语句样本中包含的姓名进行替换处理,以得到扩充后的语句样本集合。6.根据权利要求1-5任一项所述的方法,所述对该语句样本中的每个字进行序列标注,得到每个字的序列标记进一步包括:利用不同标记符号分别对每个语句样本中位于姓名起始...
【专利技术属性】
技术研发人员:柳燕煌,成湘均,张凌云,
申请(专利权)人:掌阅科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。