新类别标签的挖掘方法及电子设备、计算机可读介质技术

技术编号:24683779 阅读:27 留言:0更新日期:2020-06-27 08:04
本公开提供了一种新类别标签的挖掘方法,涉及知识图谱技术领域,包括:获取当前预设时间段内的多个搜索文本;针对每个所述搜索文本,利用预先训练好的序列标注模型,对该搜索文本进行类别标签的标注,以从该搜索文本中提取出该搜索文本当前对应的类别标签;去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签。本公开还提供了新类别标签的挖掘装置、电子设备及计算机可读介质。

Mining method of new category labels and electronic equipment, computer readable media

【技术实现步骤摘要】
新类别标签的挖掘方法及电子设备、计算机可读介质
本公开实施例涉及知识图谱
,特别涉及新类别标签的挖掘方法及装置、电子设备、计算机可读介质。
技术介绍
随着互联网的广泛使用,在搜索领域和场景中的搜索文本(Query)中,涌现出了越来越多的新的类别词,所谓类别词,是指表示一类人、事、物等实体的词,例如,博物馆、图书馆、蛋糕、花、草、树等;所谓新的类别词,即指未被现有的类别词库收录的类别词。因此,从用户在搜索场景下输入的搜索文本(Query)中,识别和挖掘新的类别词,能够有效帮助搜索引擎理解用户搜索的真实意图和行为,对提高搜索结果的准确度而言非常重要。
技术实现思路
本公开实施例提供一种新类别标签的挖掘方法及装置、电子设备、计算机可读介质。第一方面,本公开实施例提供一种新类别标签的挖掘方法,该新类别标签的挖掘方法包括:获取当前预设时间段内的多个搜索文本;针对每个所述搜索文本,利用预先训练好的序列标注模型,对该搜索文本进行类别标签的标注,以从该搜索文本中提取出该搜索文本当前对应的类别标签;去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签。在一些实施例中,所述挖掘方法还包括:获取多个预先标注有类别标签的搜索文本样本;将所述搜索文本样本作为预设神经网络模型的输入,将所述搜索文本样本的类别标签作为预设神经网络模型的输出,对所述预设神经网络模型进行模型训练,得到序列标注模型;其中,预设神经网络模型包括第一语义表示模型、与第一语义表示模型连接的第二语义表示模型、与第二语义表示模型连接的第一双向GRU层、与第一双向GRU层连接的第二双向GRU层、与第二双向GRU层连接的条件随机场、以及与条件随机场连接的条件随机场解析层。在一些实施例中,所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签之前,还包括:针对每个搜索文本当前对应的每个类别标签,当该类别标签已存在于预设的当前类别标签库中时,从该搜索文本中提取出位于该类别标签之前且相邻的词,以作为当前待检测词;检测当前待检测词的词性是否为预设词性,所述预设词性为名词、形容词、名形词中的任一者;当检测出当前待检测词的词性为预设词性时,从该搜索文本中提取出当前待检测词之前且相邻的词,以作为当前待检测词;重复执行所述检测当前待检测词的词性是否为预设词性的步骤,直至检测出词性为非预设词性的当前待检测词为止;将该类别标签和检测出的所有词性为预设词性的待检测词,按照在该搜索文本中的顺序进行组合,将组合结果作为该搜索文本当前对应的类别标签。在一些实施例中,所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签之前,还包括:针对当前预设时间段内每个搜索文本当前对应的每个类别标签,判断该类别标签是否以当前类别标签库中已存在的类别标签为结尾;当判断出该类别标签以当前类别标签库中已存在的类别标签为结尾时,保留该搜索文本当前对应的该类别标签;当判断出该类别标签不以当前类别标签库中已存在的类别标签为结尾时,则去除该类别标签。在一些实施例中,所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签之前,还包括:针对每个搜索文本当前对应的每个类别标签,利用预设的语句通顺度模型检测该类别标签的语句是否通顺;当检测出该类别标签的语句通顺时,则保留该搜索文本当前对应的该类别标签;当检测出该搜索文本当前对应的类别标签的语句不通顺时,则去除该类别标签。在一些实施例中,所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签之前,还包括:针对每个搜索文本当前对应的每个类别标签,检测该类别标签在所有搜索文本对应的类别标签中出现的频次;当该频次大于或等于预设频次阈值时,则保留该搜索文本当前对应的该类别标签;当该频次小于预设频次阈值时,则去除该类别标签。在一些实施例中,所述获取多个预先标注有类别标签的搜索文本样本,包括:获取多个历史搜索文本和多个设定的类别标签;利用远程监督方法,从所有所述历史搜索文本中筛选出所有包含所述设定的类别标签的历史搜索文本;从所有包含所述设定的类别标签的历史搜索文本中确定出多个所述搜索文本样本。第二方面,本公开实施例提供一种新类别标签的挖掘装置,包括:获取单元,用于获取当前预设时间段内的多个搜索文本;标注单元,用于针对每个所述搜索文本,利用预先训练好的序列标注模型,对该搜索文本进行类别标签的标注,以从该搜索文本中提取出该搜索文本当前对应的类别标签;挖掘单元,用于去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签。在一些实施例中,还包括模型训练单元;所述获取单元还用于获取多个预先标注有类别标签的搜索文本样本;所述模型训练单元用于将所述搜索文本样本作为预设神经网络模型的输入,将所述搜索文本样本的类别标签作为预设神经网络模型的输出,对所述预设神经网络模型进行模型训练,得到序列标注模型;其中,预设神经网络模型包括第一语义表示模型、与第一语义表示模型连接的第二语义表示模型、与第二语义表示模型连接的第一双向GRU层、与第一双向GRU层连接的第二双向GRU层、与第二双向GRU层连接的条件随机场、以及与条件随机场连接的条件随机场解析层。在一些实施例中,还包括词提取单元、词性检测单元和词扩展单元;所述词提取单元用于针对每个搜索文本当前对应的每个类别标签,当该类别标签已存在于预设的当前类别标签库中时,从该搜索文本中提取出位于该类别标签之前且相邻的词,以作为当前待检测词;所述词性检测单元用于检测当前待检测词的词性是否为预设词性,所述预设词性为名词、形容词、名形词中的任一者;所述词提取单元还用于在所述词性检测单元检测出当前待检测词的词性为预设词性时,从该搜索文本中提取出当前待检测词之前且相邻的词,以作为当前待检测词,并触发所述词性检测单元重复执行检测当前待检测词的词性是否为预设词性的步骤,直至所述词性检测单元检测出词性为非预设词性的当前待检测词为止;所述词扩展单元用于将该类别标签和检测出的所有词性为预设词性的待检测词,按照在该搜索文本中的顺序进行组合,将组合结果作为该搜索文本当前对应的类别标签。在一些实施例中,还包括筛选单元,所述筛选单元用于针对当前预设时间段内每个搜索文本当前对应的每个类别标签,判断该类别标签是否以当前类别标签库中已存在的类别标签为结尾;当判断出该类别标签以当前类别标签库中已存在的类别标签本文档来自技高网...

【技术保护点】
1.一种新类别标签的挖掘方法,包括:/n获取当前预设时间段内的多个搜索文本;/n针对每个所述搜索文本,利用预先训练好的序列标注模型,对该搜索文本进行类别标签的标注,以从该搜索文本中提取出该搜索文本当前对应的类别标签;/n去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签。/n

【技术特征摘要】
1.一种新类别标签的挖掘方法,包括:
获取当前预设时间段内的多个搜索文本;
针对每个所述搜索文本,利用预先训练好的序列标注模型,对该搜索文本进行类别标签的标注,以从该搜索文本中提取出该搜索文本当前对应的类别标签;
去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签。


2.根据权利要求1所述的挖掘方法,其中所述挖掘方法还包括:
获取多个预先标注有类别标签的搜索文本样本;
将所述搜索文本样本作为预设神经网络模型的输入,将所述搜索文本样本的类别标签作为预设神经网络模型的输出,对所述预设神经网络模型进行模型训练,得到序列标注模型;其中,预设神经网络模型包括第一语义表示模型、与第一语义表示模型连接的第二语义表示模型、与第二语义表示模型连接的第一双向GRU层、与第一双向GRU层连接的第二双向GRU层、与第二双向GRU层连接的条件随机场、以及与条件随机场连接的条件随机场解析层。


3.根据权利要求1所述的挖掘方法,其中所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签之前,还包括:
针对每个搜索文本当前对应的每个类别标签,当该类别标签已存在于预设的当前类别标签库中时,从该搜索文本中提取出位于该类别标签之前且相邻的词,以作为当前待检测词;
检测当前待检测词的词性是否为预设词性,所述预设词性为名词、形容词、名形词中的任一者;
当检测出当前待检测词的词性为预设词性时,从该搜索文本中提取出当前待检测词之前且相邻的词,以作为当前待检测词;
重复执行所述检测当前待检测词的词性是否为预设词性的步骤,直至检测出词性为非预设词性的当前待检测词为止;
将该类别标签和检测出的所有词性为预设词性的待检测词,按照在该搜索文本中的顺序进行组合,将组合结果作为该搜索文本当前对应的类别标签。


4.根据权利要求1所述的挖掘方法,其中所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签之前,还包括:
针对当前预设时间段内每个搜索文本当前对应的每个类别标签,判断该类别标签是否以当前类别标签库中已存在的类别标签为结尾;
当判断出该类别标签以当前类别标签库中已存在的类别标签为结尾时,保留该搜索文本当前对应的该类别标签;
当判断出该类别标签不以当前类别标签库中已存在的类别标签为结尾时,则去除该类别标签。


5.根据权利要求1-4中任一所述的挖掘方法,其中,所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签之前,还包括:
针对每个搜索文本当前对应的每个类别标签,利用预设的语句通顺度模型检测该类别标签的语句是否通顺;
当检测出该类别标签的语句通顺时,则保留该搜索文本当前对应的该类别标签;
当检测出该搜索文本当前对应的类别标签的语句不通顺时,则去除该类别标签。


6.根据权利要求1-4中任一所述的挖掘方法,其中,所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签之前,还包括:
针对每个搜索文本当前对应的每个类别标签,检测该类别标签在所有搜索文本对应的类别标签中出现的频次;
当该频次大于或等于预设频次阈值时,则保留该搜索文本当前对应的该类别标签;
当该频次小于预设频次阈值时,则去除该类别标签。


7.根据权利要求2所述的挖掘方法,其中所述获取多个预先标注有类别标签的搜索文本样本,包括:
获取多个历史搜索文本和多个设定的类别标签;
利用远程监督方法,从所有所述历史搜索文本中筛选出所有包含所述设定的类别标签的历史搜索文本;
从所有包含所述设定的类别标签的历史搜索文本中确定出多个所述搜索文本样本。


8.一种新类别标签的挖掘装置,包括:
获取单元,用于获取当前预设时间段内的多个搜索文本;
标注单元,用于针对每个所述搜索文本...

【专利技术属性】
技术研发人员:李千史亚冰蒋烨柴春光朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1