文本数据处理的方法和装置、电子设备和存储介质制造方法及图纸

技术编号:29758828 阅读:13 留言:0更新日期:2021-08-20 21:12
本申请提供了一种文本数据处理的方法和装置、存储介质和电子设备,该方法包括:获取交互软件中存储的聊天记录,其中,交互软件用于记录目标帐号的通讯信息;利用目标模型对聊天记录中的词组进行实体的提取以及实体之间关系词的提取,得到多个关键词组,其中,关键词组内包括实体和关系词;利用目标方案对多个关键词组进行分类,得到多个分类后的目标词组集合,其中,目标词组集合中的各个词组之间的关联度大于预设阈值;对目标词组集合内的各个词组进行编码,得到满足目标风格的文本数据,其中,目标风格为多个预设样式风格中与目标帐号匹配的风格。本申请解决了相关技术中存在的人工整理工作总结文本数据所花费的时间较多的问题。

【技术实现步骤摘要】
文本数据处理的方法和装置、电子设备和存储介质
本申请涉及机器学习领域,尤其涉及一种文本数据处理的方法和装置、电子设备和存储介质。
技术介绍
随着互联网的发展,网络社交工具(如微信、企业微信等)已经在人们的日常生活和工作中的普及度越来越高,同时也为人们的生活和工作带来了极大的便利。同时,伴随着大量信息的流转,对于信息的有效过滤,以及信息的整理,已经成为目前社会高度关注的话题。尤其在日常的工作的过程中,不可避免的会加入到很多的群聊之中,或者与许多有联系的人进行交流,因此每天都会收到大量关于工作的信息,同时在许多工作的过程中不可避免的需要整理工作总结,对大量的聊天数据进行过滤归纳,然后整理成工作总结本身是一件很花费时间的事情,并且很容易遗漏很多关键的节点和细节。因此,相关技术中存在人工整理工作总结文本数据所花费的时间较多,经常出现遗漏工作内容的问题。
技术实现思路
本申请提供了一种文本数据处理的方法和装置、存储介质和电子设备,以至少解决相关技术中存在人工整理工作总结文本数据所花费的时间较多,经常出现遗漏工作内容的问题。根据本申请实施例的一个方面,提供了一种文本数据处理的方法,该方法包括:获取交互软件中存储的聊天记录,其中,所述交互软件用于记录目标帐号的通讯信息,所述目标帐号为在所述交互软件中使用的帐号;利用目标模型对所述聊天记录中的词组进行实体的提取以及所述实体之间关系词的提取,得到多个关键词组,其中,所述关键词组内包括所述实体和所述关系词;利用目标方案对多个所述关键词组进行分类,得到多个分类后的目标词组集合,其中,所述目标词组集合中的各个词组之间的关联度大于预设阈值;对所述目标词组集合内的各个词组进行编码,得到满足目标风格的文本数据,其中,所述目标风格为多个预设样式风格中与所述目标帐号匹配的风格。根据本申请实施例的另一个方面,还提供了一种文本数据处理的装置,该装置包括:获取单元,用于获取交互软件中存储的聊天记录,其中,所述交互软件用于记录目标帐号的通讯信息,所述目标帐号为在所述交互软件中使用的帐号;提取单元,用于利用目标模型对所述聊天记录中的词组进行实体的提取以及所述实体之间关系词的提取,得到多个关键词组,其中,所述关键词组内包括所述实体和所述关系词;分类单元,用于利用目标方案对多个所述关键词组进行分类,得到多个分类后的目标词组集合,其中,所述目标词组集合中的各个词组之间的关联度大于预设阈值;编码单元,用于对所述目标词组集合内的各个词组进行编码,得到满足目标风格的文本数据,其中,所述目标风格为多个预设样式风格中与所述目标帐号匹配的风格。可选地,分类单元包括:获取模块,用于获取所述聊天记录对应的时间信息;第一确定模块,用于确定对所述时间信息进行划分的预设步长,其中,所述预设步长为一固定数值;第一划分模块,用于利用所述预设步长对所述时间信息进行划分,得到多个所述目标词组集合。可选地,获取模块包括:获取子单元,用于获取所述聊天记录的数量信息;计算子单元,用于对所述数量信息进行平均计算,得到均值信息;设置子单元,用于将所述均值信息作为所述预设步长。可选地,分类单元包括:排序模块,用于将所述时间信息按照时间先后顺序进行排序,得到排序结果;第二划分模块,用于将所述排序结果中的相邻两个时间信息之间的时间差小于或者等于预设差值的第一聊天记录划分到第一目标词组集合,除了所述第一聊天记录以外的第二聊天记录划分到第二目标词组集合,其中,所述第一目标词组集合和所述第二目标词组集合均为所述目标词组集合的子集。可选地,该装置还包括:第一划分单元,用于在确定所述第二聊天记录中的实体与第一聊天记录中的实体之间的所述关联度大于或者等于所述预设阈值的情况下,将所述第二聊天记录划分到所述第一目标词组集合中;第二划分单元,用于在确定所述第二聊天记录中的实体与第一聊天记录中的实体之间的所述关联度小于所述预设阈值的情况下,将所述第二聊天记录划分到所述第二目标词组集合中。可选地,分类单元包括:匹配模块,用于利用字节匹配方案,将所述关键词组中的所述实体与预设项目字节进行匹配,其中,所述预设项目字节用于指示所述实体所属的项目;归属模块,用于在所述预设项目字节中存在目标项目字节与所述实体之间的匹配结果大于预设匹配阈值的情况下,将所述实体归属到所述目标项目字节对应的目标项目内,得到所述目标词组集合,其中,一个所述目标词组集合中的所述实体归属于同一个项目,所述目标项目字节为所述预设项目字节中的任意一个项目字节。可选地,分类单元还包括:第二确定模块,用于根据所述聊天记录确定所述目标帐号内第一用户和第二用户之间存在工作关系;提取模块,用于从所述工作关系中提取工作关键词,其中,所述工作关键词用于表征用户之间的工作关系;分类模块,用于利用所述工作关键词对多个所述关键词组进行分类,得到多个分类后的目标词组集合。可选地,编码单元包括:编码模块,用于对所述目标词组集合内的各个词组进行词向量编码,得到编码数据;解码模块,用于利用多任务解码器对所述编码数据进行解码,得到满足所述目标风格的文本数据,其中,所述多任务解码器用于根据所述预设样式风格对所述编码数据进行解码,所述预设样式风格的数量为至少一个,所述文本数据表达的语义与各个词组表达的语义相同。根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的文本数据处理的方法步骤。根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的文本数据处理的方法步骤。本申请可以应用于在深度学习
进行自然语言处理,在本申请实施例中,采用获取工作交互软件的聊天记录数据,对其进行处理和整合的方式,通过获取交互软件中存储的聊天记录,其中,交互软件用于记录目标帐号的通讯信息,目标帐号为在交互软件中使用的帐号;利用目标模型对聊天记录中的词组进行实体的提取以及实体之间关系词的提取,得到多个关键词组,其中,关键词组内包括实体和关系词;利用目标方案对多个关键词组进行分类,得到多个分类后的目标词组集合,其中,目标词组集合中的各个词组之间的关联度大于预设阈值;对目标词组集合内的各个词组进行编码,得到满足目标风格的文本数据,其中,目标风格为多个预设样式风格中与目标帐号匹配的风格。由于本申请通过对数据的搜集、过滤、整理,筛选到有用的数据,并对有用的数据进行精细化的整理和分类,最终对分类后的多个目标词组集合进行编码,生成符合目标帐号的目标风格文本数据,这样,实现了对数据的高效整合,一定程度的实现了数据的高效利用,节约用户的时间的技术效果,进而解决了相关技术中存在的人工整理工作总结文本数据所花费的时间较多,经常出现遗漏工作内容的问题。附图说明此处的附图被并入说明书中并构成本本文档来自技高网
...

【技术保护点】
1.一种文本数据处理的方法,其特征在于,所述方法包括:/n获取交互软件中存储的聊天记录,其中,所述交互软件用于记录目标帐号的通讯信息,所述目标帐号为在所述交互软件中使用的帐号;/n利用目标模型对所述聊天记录中的词组进行实体的提取以及所述实体之间关系词的提取,得到多个关键词组,其中,所述关键词组内包括所述实体和所述关系词;/n利用目标方案对多个所述关键词组进行分类,得到多个分类后的目标词组集合,其中,所述目标词组集合中的各个词组之间的关联度大于预设阈值;/n对所述目标词组集合内的各个词组进行编码,得到满足目标风格的文本数据,其中,所述目标风格为多个预设样式风格中与所述目标帐号匹配的风格。/n

【技术特征摘要】
1.一种文本数据处理的方法,其特征在于,所述方法包括:
获取交互软件中存储的聊天记录,其中,所述交互软件用于记录目标帐号的通讯信息,所述目标帐号为在所述交互软件中使用的帐号;
利用目标模型对所述聊天记录中的词组进行实体的提取以及所述实体之间关系词的提取,得到多个关键词组,其中,所述关键词组内包括所述实体和所述关系词;
利用目标方案对多个所述关键词组进行分类,得到多个分类后的目标词组集合,其中,所述目标词组集合中的各个词组之间的关联度大于预设阈值;
对所述目标词组集合内的各个词组进行编码,得到满足目标风格的文本数据,其中,所述目标风格为多个预设样式风格中与所述目标帐号匹配的风格。


2.根据权利要求1所述的方法,其特征在于,所述利用目标方案对多个所述关键词组进行分类,得到多个分类后的目标词组集合包括:
获取所述聊天记录对应的时间信息;
确定对所述时间信息进行划分的预设步长,其中,所述预设步长为一固定数值;
利用所述预设步长对所述时间信息进行划分,得到多个所述目标词组集合。


3.根据权利要求2所述的方法,其特征在于,所述获取所述聊天记录对应的时间信息包括:
获取所述聊天记录的数量信息;
对所述数量信息进行平均计算,得到均值信息;
将所述均值信息作为所述预设步长。


4.根据权利要求2所述的方法,其特征在于,所述利用目标方案对多个所述关键词组进行分类,得到多个分类后的目标词组集合包括:
将所述时间信息按照时间先后顺序进行排序,得到排序结果;
将所述排序结果中的相邻两个时间信息之间的时间差小于或者等于预设差值的第一聊天记录划分到第一目标词组集合,除了所述第一聊天记录以外的第二聊天记录划分到第二目标词组集合,其中,所述第一目标词组集合和所述第二目标词组集合均为所述目标词组集合的子集。


5.根据权利要求4所述的方法,其特征在于,所述将所述排序结果中的相邻两个时间信息之间的时间差小于或者等于预设差值的第一聊天记录划分到第一目标词组集合,除了所述第一聊天记录以外的第二聊天记录划分到第二目标词组集合之前,所述方法还包括:
在确定所述第二聊天记录中的实体与第一聊天记录中的实体之间的所述关联度大于或者等于所述预设阈值的情况下,将所述第二聊天记录划分到所述第一目标词组集合中;
在确定所述第二聊天记录中的实体与第一聊天记录中的实体之间的所述关联度小于所述预设阈值的情况下,将所述第二聊天记录划分到所述第二目标词组集合中。


6.根据权利要求1所述的方法,其特征在于,所述利用目标方案对多个所述关键词组进行分类,得到多个分类后的目标词组集合还包括:
利用字节匹配方案,将所述关键词组中的所述实体与预设项目字...

【专利技术属性】
技术研发人员:杨康徐凯波孙泽懿徐成国王硕
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1