【技术实现步骤摘要】
提取实体全称对应简称的方法和装置,电子设备
[0001]本专利技术涉及人工智能
,特别是涉及一种提取实体全称对应简称的方法和装置,电子设备。
技术介绍
[0002]智能客服系统中,在编辑实体和意图的时候,实体一般是一个产品名、一个事件或者公司等。在编写实体的时候,实体名称较长时,在实际交互过程中一般客户都直接说其简称,例如实体为“中国华夏银行信用卡中心”,可能实际交互时用户就只是称其为“卡中心”,或者“华夏卡中心”等。此时NLU(Natural Language Understanding,自然语言理解)引擎无法将其作为实体提取,因此需要人工构建实体全称的简称列表。
[0003]人工创建实体全称的简称列表,由于需要人工对历史语料进行分析,因此需要消耗大量的人力资源且耗时长。
技术实现思路
[0004]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种提取实体全称对应简称的方法及装置,电子设备及存储介质。
[0005]第一方面,本专利技术实施例公开 ...
【技术保护点】
【技术特征摘要】
1.一种提取实体全称对应简称的方法,其特征在于,所述方法包括:按照第一预设规则,将各历史文本转换为第一句子向量;按照所述第一预设规则,将目标实体全称转换为第二句子向量;依据所述第二句子向量与各所述第一句子向量的相似度,从各所述第一句子向量中提取满足预设条件的第一数量的目标句子向量;分别从各所述目标句子向量对应的目标历史文本中,提取所述目标实体全称对应的简称。2.根据权利要求1所述的方法,其特征在于,针对任一所述历史文本,按照第一预设规则,将所述历史文本转换为第一句子向量的步骤,包括:对所述历史文本进行预处理,确定所述历史文本中包含的各分词;其中,所述预测处理包括:分词、词性标注以及停用词过滤处理;针对各所述分词和所述分词在各所述历史文本中的出现频率,确定所述分词对应的文档频率和词频;依据所述文档频率和词频,确定所述分词对应的TF
‑
IDF值;基于所述历史文本中包含的各分词、以及各所述分词对应的TF
‑
IDF值,生成所述历史文本转换后的第一句子向量。3.根据权利要求1所述的方法,其特征在于,依据所述第二句子向量与各所述第一句子向量的相似度,从各所述第一句子向量中提取满足预设条件的第一数量的目标句子向量的步骤,包括:分别计算所述第二句子向量与各所述第二句子向量的余弦相似度;将各所述第二句子向量对应的余弦相似度由高至低进行排序;提取排序在前的第一数量的余弦相似度对应的第二句子向量,作为目标句子向量。4.根据权利要求1所述的方法,其特征在于,分别从各所述目标句子向量对应的历史文本中,提取所述目标实体全称对应的简称的步骤,包括:针对每个所述目标历史文本,将所述目标历史文本和所述目标实体全称输入神经网络序列预测模型中,其中,所述神经网络序列预测模型用于预测所述目标实体全称在所述目标历史文本中的位置;依据所述神经网络序列预测模型输出的所述位置,从所述目标历史文本中提取所述目标实体全称对应的简称。5.根据权利要求1所述的方法,其特征在于,在所述分别从各所述目标句子向量对应的目标历史文本中,提取所述目标实体全称对应的简称的步骤之后,所述方法还包括:将所述目标实体全称与提取出的各所述简称,对应添加至实体简称列表中。6.一种提取实体全称对应...
【专利技术属性】
技术研发人员:胡洪兵,李健,陈明,武卫东,
申请(专利权)人:北京捷通华声科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。