新词分类方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:37564753 阅读:15 留言:0更新日期:2023-05-15 07:45
本申请提供了一种新词分类方法、装置、电子设备以及存储介质,其中,该方法包括:获取待分类的新词和第一预设数量个包含新词的目标语句;根据新词和第一数据库,得到新词对应的定义文本;将新词和定义文本输入预设模型,得到新词的语义向量;将语义向量与第二预设数量个类别特征向量进行匹配,得到第三预设数量个推荐类别;接收类别确认指令,并响应类别确认指令,确定新词的目标类别,其中,类别确认指令为根据目标语句、定义文本以及推荐类别得到的。通过本申请,解决了相关技术中存在无法在保持高效率对新词进行分类的同时,确保分类的准确率的问题。准确率的问题。准确率的问题。

【技术实现步骤摘要】
新词分类方法、装置、电子设备以及存储介质


[0001]本专利技术涉及知识图谱
,尤其涉及一种新词分类方法、装置、电子设备以及存储介质。

技术介绍

[0002]在构建专业领域知识图谱过程中,需要对词语进行实体、关系归类。例如:在电影知识图谱中,将“《GFXM》”、“《WSLRJ》”这几个实体归入“电影”类,将“张三”这个实体归入“演员”类;在家电领域知识图谱中,将“空调”、“风扇”这几个实体归入“设备”类;将“制冷模式”这个实体归入“模式”类。在学科领域知识图谱中,将“计算机技术”、“计算机应用”这几个实体归入“计算机专业”类;把“物理学”、“仪器学”这几个实体归入“光电专业”类等。为了不断丰富知识图谱,需要从大规模语料抽取新词,对新词进行实体分类,从而将新的知识融入到现有实体词表中。
[0003]现有的新词的分类方法包括人工方法和自动化方法。人工方法为通过标注人员查找新词所在的上下文,网络查找新词的定义、概念,并结合上下文判断新的实体词属于哪个类别。虽然准确率高,但消耗时间成本较大,需要标注人员熟悉知识图谱领域知识,难以应对大规模数据分析。自动化方法为通过相似词计算进行类别分析,步骤包括:新词特征提取、已有实体词特征提取、实体类特征提取、新词与实体类的相似度计算。自动化方法虽然通过语言模型自动计算词语和实体类的相似度,节约成本,但其准确率较低,无法保证新词归类的质量。
[0004]因此,现有技术存在无法在保持高效率对新词进行分类的同时,确保分类的准确率的问题。

技术实现思路

[0005]本申请提供了一种新词分类方法、装置、电子设备以及存储介质,以至少解决相关技术中存在无法在保持高效率对新词进行分类的同时,确保分类的准确率的问题。
[0006]根据本申请实施例的一个方面,提供了一种新词分类方法,该方法包括:
[0007]获取待分类的新词和第一预设数量个包含所述新词的目标语句;
[0008]根据所述新词和第一数据库,得到所述新词对应的定义文本;
[0009]将所述新词和所述定义文本输入预设模型,得到所述新词的语义向量;
[0010]将所述语义向量与第二预设数量个类别特征向量进行匹配,得到第三预设数量个推荐类别;
[0011]接收类别确认指令,并响应所述类别确认指令,确定所述新词的目标类别,其中,所述类别确认指令为根据所述目标语句、所述定义文本以及所述推荐类别得到的。
[0012]根据本申请实施例的另一个方面,还提供了一种新词分类装置,该装置包括:
[0013]第一获取模块,用于获取待分类的新词和第一预设数量个包含所述新词的目标语句;
[0014]第一得到模块,用于根据所述新词和第一数据库,得到所述新词对应的定义文本;
[0015]第二得到模块,用于将所述新词和所述定义文本输入预设模型,得到所述新词的语义向量;
[0016]第三得到模块,用于将所述语义向量与第二预设数量个类别特征向量进行匹配,得到第三预设数量个推荐类别;
[0017]确定模块,用于接收类别确认指令,并响应所述类别确认指令,确定所述新词的目标类别,其中,所述类别确认指令为根据所述目标语句、所述定义文本以及所述推荐类别得到的。
[0018]可选地,第一获取模块包括:
[0019]第一得到单元,用于根据预设算法和第二数据库,得到所述新词;
[0020]第二得到单元,用于根据所述新词和所述第二数据库,得到第四预设数量个包含所述新词的中间语句;
[0021]第三得到单元,用于根据所述中间语句的长度,对所述中间语句进行分类,得到第五预设数量个语句类别;
[0022]第四得到单元,用于从每个所述语句类别中选取第六预设数量个所述中间语句,得到所述目标语句。
[0023]可选地,第二得到模块包括:
[0024]第五得到单元,用于根据所述新词、所述定义文本以及所述预设模型,得到新词特征和定义文本特征;
[0025]拼接单元,用于拼接所述新词特征和所述定义文本特征,得到所述语义向量。
[0026]可选地,该装置还包括:
[0027]第二获取模块,用于获取实体词表中所有预设类别、每个所述预设类别下的实体词、所述实体词的定义文本以及所述实体词的词频;
[0028]排序模块,用于根据所述词频和预设顺序,对每个所述预设类别下的所述实体词进行排序;
[0029]选取模块,用于分别选取每个所述预设类别下的前第七预设数量个所述实体词,作为所述预设类别的代表词;
[0030]第四得到模块,用于根据所述代表词、所述定义文本以及所述预设模型,得到代表词特征和定义特征;
[0031]拼接模块,用于拼接所述代表词特征和所述定义特征,得到代表词语义向量;
[0032]作为模块,用于分别将每个所述类别对应的代表词语义向量的平均值,作为所述预设类别的所述类别特征向量。
[0033]第一判断模块,用于判断所述目标类别是否属于所述预设类别;
[0034]第五得到模块,用于如果所述目标类别属于所述预设类别,则根据所述中间语句,得到所述新词的新词词频;
[0035]第六得到模块,用于基于所述目标类别,将所述新词、所述新词词频以及所述定义文本存储进所述实体词表,得到更新后的实体词表;
[0036]第一更新模块,用于根据所述更新后的实体词表和所述预设模型,更新所述类别特征向量。
[0037]第二判断模块,用于判断所述目标类别是否属于所述预设类别;
[0038]第一存储模块,用于如果所述目标类别不属于所述预设类别,将所述目标类别存储进实体词表;
[0039]第三获取模块,用于获取与所述目标类别对应的扩充实体词、所述扩充实体词的扩充定义文本以及所述扩充实体词的扩充词频;
[0040]第七得到模块,用于根据所述中间语句,得到所述新词的新词词频;
[0041]第二存储模块,用于基于所述目标类别,将所述新词、所述新词词频

所述定义文本、所述扩充实体词、所述扩充定义文本以及所述扩充词频存储进所述实体词表,得到更新后的实体词表;
[0042]第二更新模块,用于根据所述更新后的实体词表和所述预设模型,更新所述类别特征向量。
[0043]可选地,第三得到模块包括:
[0044]计算单元,用于计算所述语义向量与每个所述类别特征向量的相似度;
[0045]排序单元,用于将所述类别特征向量对应的所述类别根据所述相似度进行降序排序;
[0046]第一作为单元,用于将前第三预设数量个所述类别作为候选类别;
[0047]第二作为单元,用于将所述相似度大于预设阈值的所述候选类别作为所述推荐类别。
[0048]根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新词分类方法,其特征在于,所述方法包括:获取待分类的新词和第一预设数量个包含所述新词的目标语句;根据所述新词和第一数据库,得到所述新词对应的定义文本;将所述新词和所述定义文本输入预设模型,得到所述新词的语义向量;将所述语义向量与第二预设数量个类别特征向量进行匹配,得到第三预设数量个推荐类别;接收类别确认指令,并响应所述类别确认指令,确定所述新词的目标类别,其中,所述类别确认指令为根据所述目标语句、所述定义文本以及所述推荐类别得到的。2.根据权利要求1所述的方法,其特征在于,所述获取待分类的新词和第一预设数量个包含所述新词的目标语句,包括:根据预设算法和第二数据库,得到所述新词;根据所述新词和所述第二数据库,得到第四预设数量个包含所述新词的中间语句;根据所述中间语句的长度,对所述中间语句进行分类,得到第五预设数量个语句类别;从每个所述语句类别中选取第六预设数量个所述中间语句,得到所述目标语句。3.根据权利要求1所述的方法,其特征在于,所述将所述新词和所述定义文本输入预设模型,得到所述新词的语义向量,包括:根据所述新词、所述定义文本以及所述预设模型,得到新词特征和定义文本特征;拼接所述新词特征和所述定义文本特征,得到所述语义向量。4.根据权利要求2所述的方法,其特征在于,在所述将所述语义向量与第二预设数量个类别特征向量进行匹配之前,所述方法还包括:获取实体词表中所有预设类别、每个所述预设类别下的实体词、所述实体词的定义文本以及所述实体词的词频;根据所述词频和预设顺序,对每个所述预设类别下的所述实体词进行排序;分别选取每个所述预设类别下的前第七预设数量个所述实体词,作为所述预设类别的代表词;根据所述代表词、所述定义文本以及所述预设模型,得到代表词特征和定义特征;拼接所述代表词特征和所述定义特征,得到代表词语义向量;分别将每个所述预设类别对应的代表词语义向量的平均值,作为所述预设类别的所述类别特征向量。5.根据权利要求4所述的方法,其特征在于,所述将所述语义向量与第二预设数量个类别特征向量进行匹配,得到第三预设数量个推荐类别,包括:计算所述语义向量与每个所述类别特征向量的相似度;将所述类别特征向量对应的所述类别根据所述相似度进行降序排序;将前第三预设数量个所述类别作为候选类别;将所述相似度大于预设阈值的所述候选类别作为所述推荐类别。6.根据权利要求4所述的...

【专利技术属性】
技术研发人员:弓箭
申请(专利权)人:北京探境科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1