即时通信数据的处理方法及装置、计算机可读存储介质制造方法及图纸

技术编号:34019054 阅读:19 留言:0更新日期:2022-07-02 16:29
本发明专利技术公开了一种即时通信数据的处理方法及装置、计算机可读存储介质,所述即时通信数据的处理方法包括:获取所述即时通信数据并转换为待处理文本;根据业务字典解析所述待处理文本,得到所述待处理文本的标准分词集合;查找所述业务字典,确定所述标准分词集合中各个标准分词关联的标签,所述业务字典还存储有至少一个标签以及所述标准分词和标签的关联关系;存储所述待处理文本、所述标准分词集合及其关联的标签之间的关联关系。使用上述技术方案能够对信息传递中产生的即时通信数据进行整理,保存即时通信数据之间的关联关系,提高了即时通信数据筛查与调用的效率。高了即时通信数据筛查与调用的效率。高了即时通信数据筛查与调用的效率。

【技术实现步骤摘要】
即时通信数据的处理方法及装置、计算机可读存储介质


[0001]本专利技术涉及数据处理
,更具体地,其涉及一种即时通信数据的处理方法及装置、计算机可读存储介质。

技术介绍

[0002]随着互联网的发展,微信、钉钉等即时通信工具成为人们日常工作生活中进行信息传递的重要渠道,无线对讲设备与语音电话也同样在信息传递中发挥着重要的作用。在信息传递的同时,伴随生成了无数的信息,其中夹杂着有用与无用的信息,若不对即时通信工具中的信息加以整理、保存,将导致重要信息遗漏,进而影响到工作的正常进行。
[0003]现有技术在对信息传递中产生的信息进行处理时,通常是使用即时通信工具中自带的聊天记录功能进行数据的保存。
[0004]但是,现有技术在保存信息传递过程中产生的数据时,仅仅是直接保存聊天记录,并没有对其中的数据加以整理。人们在需要查找重要信息时,只能凭借记忆翻找聊天记录,查询效率低下。

技术实现思路

[0005]本专利技术解决的技术问题是如何对信息传递中产生的即时通信数据进行整理,确定即时通信数据之间的关联关系,以便于即时通信数据的筛查与调用。
[0006]为解决上述技术问题,本专利技术实施例提供一种即时通信数据的处理方法,所述即时通信数据的处理方法包括:获取所述即时通信数据并转换为待处理文本;根据业务字典解析所述待处理文本,得到所述待处理文本的标准分词集合,其中,所述业务字典存储有至少一个维度下,至少一个标准分词、至少一个原始分词以及所述标准分词和所述原始分词的关联关系,所述原始分词为提取自所述待处理文本的分词结果;查找所述业务字典,确定所述标准分词集合中各个标准分词关联的标签,所述业务字典还存储有至少一个标签以及所述标准分词和标签的关联关系;存储所述待处理文本、所述标准分词集合及其关联的标签之间的关联关系。
[0007]可选地,所述获取所述即时通信数据包括:从第一数据库中获取所述即时通信数据,其中,所述第一数据库存储数据捕捉机器人从至少一个信息传播系统捕捉得到的即时通信数据。
[0008]可选地,所述数据捕捉机器人部署于各个信息传播系统所属的服务器,或者,所述数据捕捉机器人与各个信息传播系统所属的服务器的接口连接。
[0009]可选地,所述根据业务字典解析所述待处理文本,得到所述待处理文本的标准分词集合包括:根据所述业务字典对所述待处理文本进行文本分词,得到原始分词集合;查找所述业务字典,将所述原始分词集合包括的各个原始分词校准为对应的标准分词,得到所述标准分词集合。
[0010]可选地,针对不同类型的即时通信数据采用不同的转换操作,以得到所述待处理
文本。
[0011]可选地,所述即时通信数据包括视频数据,所述获取所述即时通信数据并转换为待处理文本包括:接收所述视频数据;从所述视频数据中提取得到至少一个关键帧,所述关键帧是所述视频数据中与前一图像帧的图像差异比例大于预设比例的图像帧,所述图像差异比例用于表示相邻图像帧的图像差异程度;对于每一关键帧的图像数据,对所述图像数据进行图像识别以得到所述待处理文本。
[0012]可选地,所述即时通信数据包括图像数据,所述获取所述即时通信数据并转换为待处理文本包括:接收所述图像数据;对所述图像数据进行图像识别以得到所述待处理文本。
[0013]可选地,所述对所述图像数据进行图像识别以得到所述待处理文本包括:对所述图像数据进行图像分割,以得到表征至少一个维度的关键目标;对每一图像数据,基于图像识别将所述图像数据中的每一关键目标转换为描述文本,汇总所述图像数据中所有关键目标的描述文本得到所述待处理文本。
[0014]可选地,所述即时通信数据包括地理位置数据,所述获取所述即时通信数据并转换为待处理文本包括:获取所述地理位置数据对应的经纬度信息;将预设地图上所述经纬度信息对应的位置信息确定为所述待处理文本。
[0015]可选地,所述获取所述地理位置数据对应的经纬度信息包括:根据所述地理位置数据的生成时间、所述地理位置数据的生成端的预设行进路线以及根据所述生成端历史上报的历史地理位置数据确定的历史经纬度信息,确定所述地理位置数据对应的经纬度信息。
[0016]可选地,所述即时通信数据包括语音数据,所述获取所述即时通信数据并转换为待处理文本包括:接收所述语音数据;对所述语音数据进行语音识别以得到所述待处理文本。
[0017]可选地,所述业务字典存储的内容的维度包括:人物、地点、时间、事件。
[0018]可选地,所述存储所述待处理文本、所述标准分词集合及其关联的标签之间的关联关系包括:将所述关联关系存储至第二数据库,其中,所述第二数据库包括关系型数据库。
[0019]本专利技术实施例还公开一种即时通信数据的处理装置,所述即时通信数据的处理装置包括:即时通信数据获取模块,用于获取所述即时通信数据并转换为待处理文本;标准分词集合获取模块,用于根据业务字典解析所述待处理文本,得到所述待处理文本的标准分词集合,其中,所述业务字典存储有至少一个维度下,至少一个标准分词、至少一个原始分词以及所述标准分词和所述原始分词的关联关系,所述原始分词为提取自所述待处理文本的分词结果;标签确认模块,查找所述业务字典,确定所述标准分词集合中各个标准分词关联的标签,所述业务字典还存储有至少一个标签以及所述标准分词和标签的关联关系;存储模块,用于存储所述待处理文本、所述标准分词集合及其关联的标签之间的关联关系。
[0020]本专利技术实施例还公开另一种即时通信数据的处理装置,包括存储器和处理器,所述存储器上存储有可在处理器上运行的计算机程序,所述计算机程序被处理器运行时执行上述任一种所述即时通信数据的处理方法的步骤。
[0021]本专利技术实施例还公开一种计算机可读存储介质,其上存储有计算机程序,所述计
算机程序被处理器运行时执行上述任一种所述即时通信数据的处理方法的步骤。
[0022]与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:
[0023]本专利技术提出一种即时通信数据的处理方法,通过将即时通信数据转换为待处理文本,并使用业务字典解析待处理文本,将待处理文本中的原始分词转换为标准分词,以形成标准分词集合;通过形成标准分词集合,可以在用户的语言习惯不同的情况下对各个原始分词进行归一化处理,以便于即时通信数据的处理;并根据业务字典确定标准分词集合中各个标准分词关联的标签,以形成原始分词、标准分词及其标签的关联关系,并将此关联关系进行存储,在实际应用中即可根据关联关系对即时通信数据中的重要数据进行快速定位,并确定有关的即时通信数据作为辅助数据,极大地提升信息的筛选与查找效率。
[0024]进一步地,将视频数据、图像数据、地理位置数据以及语音数据转换为待处理文本,以统一待处理数据的格式,避免即时通信数据格式不同带来的数据处理问题,便于对即时通信数据进行后续处理。
[0025]进一步地,在确定地理位置数据对应的位置信息时,根据该地理位置数据的生成时间、地理位置数据的生成端的预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种即时通信数据的处理方法,其特征在于,包括:获取所述即时通信数据并转换为待处理文本;根据业务字典解析所述待处理文本,得到所述待处理文本的标准分词集合,其中,所述业务字典存储有至少一个维度下,至少一个标准分词、至少一个原始分词以及所述标准分词和所述原始分词的关联关系,所述原始分词为提取自所述待处理文本的分词结果;查找所述业务字典,确定所述标准分词集合中各个标准分词关联的标签,所述业务字典还存储有至少一个标签以及所述标准分词和标签的关联关系;存储所述待处理文本、所述标准分词集合及其关联的标签之间的关联关系。2.根据权利要求1所述的即时通信数据的处理方法,其特征在于,所述获取所述即时通信数据包括:从第一数据库中获取所述即时通信数据,其中,所述第一数据库存储数据捕捉机器人从至少一个信息传播系统捕捉得到的即时通信数据。3.根据权利要求2所述的即时通信数据的处理方法,其特征在于,所述数据捕捉机器人部署于各个信息传播系统所属的服务器,或者,所述数据捕捉机器人与各个信息传播系统所属的服务器的接口连接。4.根据权利要求1所述的即时通信数据的处理方法,其特征在于,所述根据业务字典解析所述待处理文本,得到所述待处理文本的标准分词集合包括:根据所述业务字典对所述待处理文本进行文本分词,得到原始分词集合;查找所述业务字典,将所述原始分词集合包括的各个原始分词校准为对应的标准分词,得到所述标准分词集合。5.根据权利要求1所述的即时通信数据的处理方法,其特征在于,针对不同类型的即时通信数据采用不同的转换操作,以得到所述待处理文本。6.根据权利要求5所述的即时通信数据的处理方法,其特征在于,所述即时通信数据包括视频数据,所述获取所述即时通信数据并转换为待处理文本包括:接收所述视频数据;从所述视频数据中提取得到至少一个关键帧,所述关键帧是所述视频数据中与前一图像帧的图像差异比例大于预设比例的图像帧,所述图像差异比例用于表示相邻图像帧的图像差异程度;对于每一关键帧的图像数据,对所述图像数据进行图像识别以得到所述待处理文本。7.根据权利要求5所述的即时通信数据的处理方法,其特征在于,所述即时通信数据包括图像数据,所述获取所述即时通信数据并转换为待处理文本包括:接收所述图像数据;对所述图像数据进行图像识别以得到所述待处理文本。8.根据权利要求6或7所述的即时通信数据的处理方法,其特征在于,所述对所述图像数据进行图像识别以得到所述待处理文本包括:对所述图像数据进行图像分割,以得到表征至少一个维度的关键目标;对每一图像数据,基于图像识别将所述图像数据中的每一关键目标转换为...

【专利技术属性】
技术研发人员:方福来张烁刘梅
申请(专利权)人:上海迎盾科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1