【技术实现步骤摘要】
文本数据处理的方法和装置、电子设备和存储介质
本申请涉及机器学习领域,尤其涉及一种文本数据处理的方法和装置、电子设备和存储介质。
技术介绍
随着互联网的发展,网络社交工具(如微信、企业微信等)已经在人们的日常生活和工作中的普及度越来越高,同时也为人们的生活和工作带来了极大的便利。同时,伴随着大量信息的流转,对于信息的有效过滤,以及信息的整理,已经成为目前社会高度关注的话题。尤其在日常的工作的过程中,不可避免的会加入到很多的群聊之中,或者与许多有联系的人进行交流,因此每天都会收到大量关于工作的信息,同时在许多工作的过程中不可避免的需要整理工作总结,对大量的聊天数据进行过滤归纳,然后整理成工作总结本身是一件很花费时间的事情,并且很容易遗漏很多关键的节点和细节。因此,相关技术中存在人工整理工作总结文本数据所花费的时间较多,经常出现遗漏工作内容的问题。
技术实现思路
本申请提供了一种文本数据处理的方法和装置、存储介质和电子设备,以至少解决相关技术中存在人工整理工作总结文本数据所花费的时间较多,经常出现遗漏工作内容的问题。根据本申请实施例的一个方面,提供了一种文本数据处理的方法,该方法包括:获取交互软件中存储的聊天记录,其中,所述交互软件用于记录目标帐号的通讯信息,所述目标帐号为在所述交互软件中使用的帐号;利用目标模型对所述聊天记录中的词组进行实体的提取以及所述实体之间关系词的提取,得到多个关键词组,其中,所述关键词组内包括所述实体和所述关系词;利用目标方案对多个所述关键词组进行分类,得到多 ...
【技术保护点】
1.一种文本数据处理的方法,其特征在于,所述方法包括:/n获取交互软件中存储的聊天记录,其中,所述交互软件用于记录目标帐号的通讯信息,所述目标帐号为在所述交互软件中使用的帐号;/n利用目标模型对所述聊天记录中的词组进行实体的提取以及所述实体之间关系词的提取,得到多个关键词组,其中,所述关键词组内包括所述实体和所述关系词;/n利用目标方案对多个所述关键词组进行分类,得到多个分类后的目标词组集合,其中,所述目标词组集合中的各个词组之间的关联度大于预设阈值;/n对所述目标词组集合内的各个词组进行编码,得到满足目标风格的文本数据,其中,所述目标风格为多个预设样式风格中与所述目标帐号匹配的风格。/n
【技术特征摘要】
1.一种文本数据处理的方法,其特征在于,所述方法包括:
获取交互软件中存储的聊天记录,其中,所述交互软件用于记录目标帐号的通讯信息,所述目标帐号为在所述交互软件中使用的帐号;
利用目标模型对所述聊天记录中的词组进行实体的提取以及所述实体之间关系词的提取,得到多个关键词组,其中,所述关键词组内包括所述实体和所述关系词;
利用目标方案对多个所述关键词组进行分类,得到多个分类后的目标词组集合,其中,所述目标词组集合中的各个词组之间的关联度大于预设阈值;
对所述目标词组集合内的各个词组进行编码,得到满足目标风格的文本数据,其中,所述目标风格为多个预设样式风格中与所述目标帐号匹配的风格。
2.根据权利要求1所述的方法,其特征在于,所述利用目标方案对多个所述关键词组进行分类,得到多个分类后的目标词组集合包括:
获取所述聊天记录对应的时间信息;
确定对所述时间信息进行划分的预设步长,其中,所述预设步长为一固定数值;
利用所述预设步长对所述时间信息进行划分,得到多个所述目标词组集合。
3.根据权利要求2所述的方法,其特征在于,所述获取所述聊天记录对应的时间信息包括:
获取所述聊天记录的数量信息;
对所述数量信息进行平均计算,得到均值信息;
将所述均值信息作为所述预设步长。
4.根据权利要求2所述的方法,其特征在于,所述利用目标方案对多个所述关键词组进行分类,得到多个分类后的目标词组集合包括:
将所述时间信息按照时间先后顺序进行排序,得到排序结果;
将所述排序结果中的相邻两个时间信息之间的时间差小于或者等于预设差值的第一聊天记录划分到第一目标词组集合,除了所述第一聊天记录以外的第二聊天记录划分到第二目标词组集合,其中,所述第一目标词组集合和所述第二目标词组集合均为所述目标词组集合的子集。
5.根据权利要求4所述的方法,其特征在于,所述将所述排序结果中的相邻两个时间信息之间的时间差小于或者等于预设差值的第一聊天记录划分到第一目标词组集合,除了所述第一聊天记录以外的第二聊天记录划分到第二目标词组集合之前,所述方法还包括:
在确定所述第二聊天记录中的实体与第一聊天记录中的实体之间的所述关联度大于或者等于所述预设阈值的情况下,将所述第二聊天记录划分到所述第一目标词组集合中;
在确定所述第二聊天记录中的实体与第一聊天记录中的实体之间的所述关联度小于所述预设阈值的情况下,将所述第二聊天记录划分到所述第二目标词组集合中。
6.根据权利要求1所述的方法,其特征在于,所述利用目标方案对多个所述关键词组进行分类,得到多个分类后的目标词组集合还包括:
利用字节匹配方案,将所述关键词组中的所述实体与预设项目字...
【专利技术属性】
技术研发人员:杨康,徐凯波,孙泽懿,徐成国,王硕,
申请(专利权)人:上海明略人工智能集团有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。