基于企业微信的信息提取方法、装置、电子设备和存储介质制造方法及图纸

技术编号:34823533 阅读:63 留言:0更新日期:2022-09-03 20:35
本申请提供一种基于企业微信的信息提取方法、装置、电子设备和存储介质,其中,基于企业微信的信息提取方法,包括:获取第一用户与第二用户之间的企业微信对话文本;基于第一预设模型识别所述企业微信对话文本,并得到所述企业微信对话文本中的至少一个目标待办事项;获取所述目标待办事项所在的对话文本;基于所述目标待办事项所在的对话文本,提取第一预选时间文本;基于第二预设模型识别和所述第一预选时间文本所在的短句,识别所述第一预选时间文本是否为所述目标待办事项对应的目标待办时间,若是,则将所述第一预选时间文本确定为所述目标待办时间。本申请能够精确提取企业微信中的目标待办事项和目标待办时间。信中的目标待办事项和目标待办时间。信中的目标待办事项和目标待办时间。

【技术实现步骤摘要】
基于企业微信的信息提取方法、装置、电子设备和存储介质


[0001]本申请涉及计算机
,具体而言,涉及一种基于企业微信的信息提取方法、装置、电子设备和存储介质。

技术介绍

[0002]信息化时代下,企业微信是银行理财经理与客户沟通交流的一个重要手段,可以有效地开展服务和营销。在银行理财经理与客户的企业微信中经常会提到一些理财经理需要在之后某个时间为客户办理的事项,比如第二天要为客户查看资产余额、周末要为客户上门赠送礼品等。现在业界有不少开源的文本分类和时间信息提取工具,但这些开源工具不适用于企业微信场景,比如会把对话中非邀约对话的时间识别出来、会把非时点时间的时间段识别出来等问题。

技术实现思路

[0003]本申请实施例的目的在于提供一种基于企业微信的信息提取方法、装置、电子设备和存储介质,用以精确提取企业微信中的目标待办事项和目标待办时间。
[0004]第一方面,本申请实施例提供一种基于企业微信的信息提取方法,所述方法包括:
[0005]获取第一用户与第二用户之间的企业微信对话文本;
[0006]基于第一预设模型识别所述企业微信对话文本,并得到所述企业微信对话文本中的至少一个目标待办事项;
[0007]获取所述目标待办事项所在的对话文本;
[0008]基于所述目标待办事项所在的对话文本,提取第一预选时间文本;
[0009]基于第二预设模型识别和所述第一预选时间文本所在的短句,识别所述第一预选时间文本是否为所述目标待办事项对应的目标待办时间,若是,则将所述第一预选时间文本确定为所述目标待办时间。
[0010]在本申请中,通过获取第一用户与第二用户之间的企业微信对话文本,进而能够基于第一预设模型识别所述企业微信对话文本,并得到所述企业微信对话文本中的至少一个目标待办事项,进而通过获取所述目标待办事项所在的对话文本,能够基于所述目标待办事项所在的对话文本,提取第一预选时间文本,进而能够基于第二预设模型识别和所述第一预选时间文本所在的短句,识别所述第一预选时间文本是否为所述目标待办事项对应的目标待办时间,若是,则将所述第一预选时间文本确定为所述目标待办时间。
[0011]与现有技术相比,本申请在提取出目标待办事项之后,能够基于第二预设模型识别和所述第一预选时间文本所在的短句,识别所述第一预选时间文本是否为所述目标待办事项对应的目标待办时间,这样一来,就能够提取出只与目标待办事有关的待办时间,最终避免提取与目标待办事无关的待办时间,从而提高待办时间提取精确度。
[0012]在可选的实施方式中,所述方法还包括:
[0013]当所述第一预选时间文本有两个或两个以上,且两个或两个以上的所述第一预选
时间文本在相同短句中时,则将所述相同短句拆分成两个子短句,以基于所述第二预设模型识别和两个所述子短句分别识别两个所述第一预选时间文本是否为所述目标待办事项对应的目标待办时间。
[0014]在本可选的实施方式中,当所述第一预选时间文本有两个或两个以上,且两个或两个以上的所述第一预选时间文本在相同短句中时,通过将所述相同短句拆分成两个子短句,进而能够基于所述第二预设模型识别和两个所述子短句分别识别两个所述第一预选时间文本是否为所述目标待办事项对应的目标待办时间,这样一来,就能够更加精确地识别一个第一预选时间文本是否为目标待办事项对应的目标待办时间。
[0015]在可选的实施方式中,所述基于所述目标待办事项所在的对话文本,提取第一预选时间文本,包括:
[0016]基于LAC对所述目标待办事项所在的对话文本进行语句分词,以确定所述目标待办事项所在的对话文本中每个词的词性;
[0017]基于所述目标待办事项所在的对话文本中每个词的词性,提取词性为TIME的词,并得到所述第一预选时间文本。
[0018]在本可选的实施方式中,基于LAC对所述目标待办事项所在的对话文本进行语句分词,进而能够确定所述目标待办事项所在的对话文本中每个词的词性,进而基于所述目标待办事项所在的对话文本中每个词的词性,能够提取词性为TIME的词,并得到所述第一预选时间文本。
[0019]在可选的实施方式中,在所述基于所述目标待办事项所在的对话文本,提取第一预选时间文本之后,所述基于第二预设模型识别和所述第一预选时间文本所在的短句,识别所述第一预选时间文本是否为所述目标待办事项对应的目标待办时间之前,所述方法还包括:
[0020]基于第一预设正则表达式判断所述第一预选时间文本是否为预设时间段信息或节日信息;
[0021]当所述第一预选时间文本为所述预设时间段信息,或所述第一预选时间文本为所述节日信息时,将所述第一预选时间文本排除。
[0022]本可选的实施方式中,当所述第一预选时间文本为所述预设时间段信息,或所述第一预选时间文本为所述节日信息时,通过将所述第一预选时间文本排除,能够避免节日信息和时间段信息不属于具体时间点的时间文本被排除,从而进一步提高目标待办时间的提取精确度。
[0023]在可选的实施方式中,所述基于所述目标待办事项所在的对话文本,提取第一预选时间文本之后,所述基于第二预设模型识别和所述第一预选时间文本所在的短句,识别所述第一预选时间文本是否为所述目标待办事项对应的目标待办时间之前,所述方法还包括:
[0024]基于第二预设正则表达式,确定所述第一预选时间文本的时间维度;
[0025]当存在两个或两个以上的所述第一预选时间文本时,将属于相同时间维度、且通过第一预设文本符号连接的两个所述第一预选时间文本进行拼接;
[0026]以及,将两个属于不同时间维度、且通过第二预设文本符号连接的两个所述第一预选时间文本进行拼接。
[0027]在本可选的实施方式中,当存在两个或两个以上的所述第一预选时间文本时,通过将属于相同时间维度、且通过第一预设文本符号连接的两个所述第一预选时间文本进行拼接,能够进一步提高目标待办时间的提取精确度。另一方面,通过将两个属于不同时间维度、且通过第二预设文本符号连接的两个所述第一预选时间文本进行拼接,也能够进一步提高目标待办时间的提取精确度。
[0028]在可选的实施方式中,所述方法还包括:
[0029]获取带有标注数据的对话文本和未带有标注数据的对话文本;
[0030]基于所述带有标注数据的对话文本和所述未带有标注数据的对话文本,生成每个事项类别的训练集和每个事项类别的测试集;
[0031]基于每个所述事项类别的训练集和每个所述事项类别的测试集,训练所述第一预设模型。
[0032]在本可选的实施方式中,通过获取带有标注数据的对话文本和未带有标注数据的对话文本,进而能够基于所述带有标注数据的对话文本和所述未带有标注数据的对话文本,生成每个事项类别的训练集和每个事项类别的测试集,进而能够基于每个所述事项类别的训练集和每个所述事项类别的测试集,训练所述第一预设模型。
[0033]在可选的实施方式中,所述方法还包括:...

【技术保护点】

【技术特征摘要】
1.一种基于企业微信的信息提取方法,其特征在于,所述方法包括:获取第一用户与第二用户之间的企业微信对话文本;基于第一预设模型识别所述企业微信对话文本,并得到所述企业微信对话文本中的至少一个目标待办事项;获取所述目标待办事项所在的对话文本;基于所述目标待办事项所在的对话文本,提取第一预选时间文本;基于第二预设模型识别和所述第一预选时间文本所在的短句,识别所述第一预选时间文本是否为所述目标待办事项对应的目标待办时间,若是,则将所述第一预选时间文本确定为所述目标待办时间。2.如权利要求1所述的方法,其特征在于,所述方法还包括:当所述第一预选时间文本有两个或两个以上,且两个或两个以上的所述第一预选时间文本在相同短句中时,则将所述相同短句拆分成两个子短句,以基于所述第二预设模型识别和两个所述子短句分别识别两个所述第一预选时间文本是否为所述目标待办事项对应的目标待办时间。3.如权利要求1所述的方法,其特征在于,所述基于所述目标待办事项所在的对话文本,提取第一预选时间文本,包括:基于LAC对所述目标待办事项所在的对话文本进行语句分词,以确定所述目标待办事项所在的对话文本中每个词的词性;基于所述目标待办事项所在的对话文本中每个词的词性,提取词性为TIME的词,并得到所述第一预选时间文本。4.如权利要求3所述的方法,其特征在于,在所述基于所述目标待办事项所在的对话文本,提取第一预选时间文本之后,所述基于第二预设模型识别和所述第一预选时间文本所在的短句,识别所述第一预选时间文本是否为所述目标待办事项对应的目标待办时间之前,所述方法还包括:基于第一预设正则表达式判断所述第一预选时间文本是否为预设时间段信息或节日信息;当所述第一预选时间文本为所述预设时间段信息,或所述第一预选时间文本为所述节日信息时,将所述第一预选时间文本排除。5.如权利要求3所述的方法,其特征在于,所述基于所述目标待办事项所在的对话文本,提取第一预选时间文本之后,所述基于第二预设模型识别和所述第一预选时间文本所在的短句,识别所述第一预选时间文本是否为所述目标待办事项对应的目标待办时间之前,所述方法还包括:基于第二预设正...

【专利技术属性】
技术研发人员:李珊
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1