书籍人物姓名识别模型的训练方法、电子设备及存储介质技术

技术编号:22076138 阅读:390 留言:0更新日期:2019-09-12 14:16
本发明专利技术公开了一种书籍人物姓名识别模型的训练方法、电子设备及存储介质,其中,该方法包括:从书籍集合中提取书籍人物的姓名字典;针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记;对该语句样本中的每个字进行特征提取,得到每个字的特征;其中特征包含n‑gram通用特征以及停用词特征;根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。利用该方案训练得到的书籍人物姓名识别模型能够准确地对书籍人物姓名进行识别,有效地提高了识别准确率。

Training Method, Electronic Equipment and Storage Media of Book Person Name Recognition Model

【技术实现步骤摘要】
书籍人物姓名识别模型的训练方法、电子设备及存储介质
本专利技术涉及信息处理
,具体涉及一种书籍人物姓名识别模型的训练方法、电子设备及存储介质。
技术介绍
人们在利用互联网技术进行书籍搜索的过程中,有些用户可能不记得书籍的名称,而只记得书籍人物的姓名,那么在这种情况下,用户会将书籍人物的姓名作为搜索关键词进行搜索,那么从书籍中准确地识别出书籍人物的姓名是基于书籍人物的姓名提供搜索服务的基础和前提。然而,现有的命名实体识别技术并没有充分考虑书籍人物的姓名的特征,那么利用现有的命名实体识别技术去识别书籍人物的姓名,存在着识别准确率较低的问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的书籍人物姓名识别模型的训练方法、电子设备及存储介质。根据本专利技术的一个方面,提供了一种书籍人物姓名识别模型的训练方法,该方法包括:从书籍集合中提取书籍人物的姓名字典;针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记;对该语句样本中的每个字进行特征提取,得到每个字的特征;其中特征包含n-gram通用特征以及停用词特征;根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。根据本专利技术的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:从书籍集合中提取书籍人物的姓名字典;针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记;对该语句样本中的每个字进行特征提取,得到每个字的特征;其中特征包含n-gram通用特征以及停用词特征;根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。根据本专利技术的又一方面,提供了一种存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:从书籍集合中提取书籍人物的姓名字典;针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记;对该语句样本中的每个字进行特征提取,得到每个字的特征;其中特征包含n-gram通用特征以及停用词特征;根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。根据本专利技术提供的技术方案,通过将姓名字典中的每个姓名与书籍集合中每本书籍的所有语句进行匹配,能够便捷、自动地产生包含有大量语句样本的语句样本集合,无需人工对语句中出现的姓名进行标注,减少了所投入的人工成本和时间成本,极大地提高了语句样本处理效率;并且,在特征提取过程中,除了提取每个字的n-gram通用特征,还充分结合了姓名在语句中的位置分布特点,提取了每个字的停用词特征,根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的n-gram通用特征和停用词特征进行训练,使得训练得到书籍人物姓名识别模型能够准确地对书籍人物姓名进行识别,有效地提高了识别准确率,优化了姓名识别方式。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术实施例一的一种书籍人物姓名识别模型的训练方法的流程示意图;图2示出了根据本专利技术实施例二的一种书籍人物姓名识别模型的训练方法的流程示意图;图3示出了根据本专利技术实施例四的一种电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。实施例一图1示出了根据本专利技术实施例一的一种书籍人物姓名识别模型的训练方法的流程示意图,如图1所示,该方法包括如下步骤:步骤S101,从书籍集合中提取书籍人物的姓名字典。其中,书籍集合中包含有多本书籍,对于多本书籍的具体数量以及书籍类型,本领域技术人员可根据实际需要进行设置。例如,可从书籍库中选择100本书籍类型为小说的书籍,由这100本书籍构成书籍集合。每本书籍的书籍内容会涉及到一个或多个书籍人物,那么可提取每本书籍所包含的书籍人物的姓名,汇总所有的提取得到的书籍人物的姓名,得到书籍人物的姓名字典。步骤S102,针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合。将姓名字典中的每个姓名与书籍集合中的每本书籍的所有语句进行自动匹配,将包含有姓名字典中的姓名的语句作为语句样本,对所有的语句样本进行汇总,从而得到包含姓名的语句样本集合。步骤S103,针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记,并对该语句样本中的每个字进行特征提取,得到每个字的特征。在得到了语句样本集合之后,可基于CRF(条件随机场,Conditionalrandomfield)模型,对语句样本集合中每个语句样本中的每个字进行序列标注,并对该语句样本中的每个字进行特征提取。具体地,可利用不同标记符号分别对每个语句样本中位于姓名起始的字、位于姓名中间的字、位于姓名结尾的字以及除姓名之外的其他字进行标注,得到每个字对应的序列标记。其中,每个字的特征包含n-gram通用特征。考虑到中文中的姓名一般由2至4个字组成,可将n设置为4,那么针对语句样本中的每个字,该字的n-gram通用特征可包括:该字的单字特征、位于该字之前的三个字的单字特征、位于该字之后的三个字的单字特征、该字与位于该字之前的三个字的组合词特征以及该字与位于该字之后的三个字的组合词特征。假设某个语句样本由9个字组成,该语句样本为“w1w2w3w4w5w6w7w8w9”,w1表示该语句样本中的第一个字,w2表示该语句样本中的第二个字,以此类推。由于w1为该语句样本中的第一个字,在w1之前不存在其他字,那么w1的n-gram通用特征包括:“w1”、“w2”、“w3”、“w4”、“w1w2”、“w1w2w3”以及“w1w2w3w4”,其中,w1的n-gram通用特征中的“w1”为w1的单字特征,“w2”、“w3”和“w4”为位于w1之后的三个字的单字特征,“w1w2”、“w1w2w3”和“w1w2w3w4”为w1与位于w1之后的三个字的组合词特征。w本文档来自技高网...

【技术保护点】
1.一种书籍人物姓名识别模型的训练方法,包括:从书籍集合中提取书籍人物的姓名字典;针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记;对该语句样本中的每个字进行特征提取,得到每个字的特征;其中所述特征包含n‑gram通用特征以及停用词特征;根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。

【技术特征摘要】
1.一种书籍人物姓名识别模型的训练方法,包括:从书籍集合中提取书籍人物的姓名字典;针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记;对该语句样本中的每个字进行特征提取,得到每个字的特征;其中所述特征包含n-gram通用特征以及停用词特征;根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。2.根据权利要求1所述的方法,所述对该语句样本中的每个字进行特征提取,得到每个字的特征进一步包括:对于该语句样本中的任一个字,判断位于该字之前的n-1个字、以及位于该字之前的n-1个字的组合词是否包含停用词;根据判断结果,确定该字的停用词特征。3.根据权利要求1所述的方法,所述特征还包含:复姓词特征;所述对该语句样本中的每个字进行特征提取,得到每个字的特征进一步包括:对于该语句样本中的任一个字,判断该字与位于该字之前或之后的一个字的组合词是否为复姓词;根据判断结果,确定该字的复姓词特征。4.根据权利要求1-3任一项所述的方法,所述从书籍集合中提取书籍人物的姓名字典进一步包括:针对书籍集合中的每本书籍,提取出现频次超过预设频次的书籍人物的姓名,得到该书籍对应的姓名子集;对书籍集合中的所有书籍对应的姓名子集进行汇总,得到书籍人物的姓名字典。5.根据权利要求1-4任一项所述的方法,在所述针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合之后,所述方法还包括:获取扩充姓名字典;利用所述扩充姓名字典中的各个姓名,对语句样本集合中的每个语句样本中包含的姓名进行替换处理,以得到扩充后的语句样本集合。6.根据权利要求1-5任一项所述的方法,所述对该语句样本中的每个字进行序列标注,得到每个字的序列标记进一步包括:利用不同标记符号分别对每个语句样本中位于姓名起始...

【专利技术属性】
技术研发人员:柳燕煌成湘均张凌云
申请(专利权)人:掌阅科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1