融合人工智能的文本大数据处理方法及系统技术方案

技术编号：34041347 阅读：28 留言：0更新日期：2022-07-06 13:33

本申请实施例公开了融合人工智能的文本大数据处理方法及系统，能够实现多社交活动成员的持续性定位处理，就算当前在线社交话题中存在多个社交活动成员，依靠整体的话题交互文本数据处理思路，能够减少多社交活动成员持续定位的耗时，且持续定位不会受到社交活动成员数量的影响，对于一些比较火爆的在线社交话题而言，即便这类在线社交话题包含较多的社交活动成员，采用上述思路同样能够基于用语习惯准确快速实现不同社交活动成员的定位和区分，进而提高针对社交活动成员的分析效率。而提高针对社交活动成员的分析效率。而提高针对社交活动成员的分析效率。

Text big data processing method and system integrated with artificial intelligence

全部详细技术资料下载

【技术实现步骤摘要】
融合人工智能的文本大数据处理方法及系统

[0001]本申请涉及人工智能
，尤其涉及一种融合人工智能的文本大数据处理方法及系统。

技术介绍

[0002]随着互联网的飞速发展，人们通过网络进行工作生活交流的占比越来越大，互联网场景下的工作生活社交话题的体量越来越庞大，这给相关的大数据分析带来了一定的挑战。经专利技术人研究和分析发现，相关技术针对话题成员的大数据分析还存在一定缺陷，比如现有技术CN112418525A虽然能够基于生成对抗网络提高社交话题群体行为预测的精度，但是针对多话题成员的高效精准定位分析而言却难以施展拳脚。

技术实现思路

[0003]本申请的一个目的是提供一种融合人工智能的文本大数据处理方法及系统。
[0004]本申请的技术方案是通过如下至少部分实施例实现的。
[0005]一种融合人工智能的文本大数据处理方法，该方法通过人工智能平台系统实施，该方法至少包括：采集匹配于相同在线社交话题的若干组话题交互文本数据；对所述若干组话题交互文本数据中的每组话题交互文本数据进行用语习惯识...

【技术保护点】

【技术特征摘要】
1.一种融合人工智能的文本大数据处理方法，其特征在于，该方法通过人工智能平台系统实施，该方法至少包括：采集匹配于相同在线社交话题的若干组话题交互文本数据；对所述若干组话题交互文本数据中的每组话题交互文本数据进行用语习惯识别操作以及指定文本段落捕捉，获得所述每组话题交互文本数据的用语习惯评价以及所述每组话题交互文本数据中的多个指定文本段落的捕捉窗口；确定所述每组话题交互文本数据的用语习惯评价中与所述多个指定文本段落的捕捉窗口分别匹配的目标用语习惯评价；经由得到的所述多个指定文本段落的捕捉窗口分别匹配的目标用语习惯评价，确定活跃于所述若干组话题交互文本数据中的多个具有同一虚拟标签的社交活动成员。2.根据权利要求1所述的方法，其特征在于，所述对所述若干组话题交互文本数据中的每组话题交互文本数据进行用语习惯识别操作以及指定文本段落捕捉，获得所述每组话题交互文本数据的用语习惯评价以及所述每组话题交互文本数据中的多个指定文本段落的捕捉窗口，包括：挖掘所述若干组话题交互文本数据中的每组话题交互文本数据的第一文本用语倾向集；在所述每组话题交互文本数据的第一文本用语倾向集中进行指定文本段落捕捉，获得所述每组话题交互文本数据中的多个指定文本段落的捕捉窗口；对所述每组话题交互文本数据的第一文本用语倾向集进行用语习惯识别操作，获得多语境的第二文本用语倾向集；所述确定所述每组话题交互文本数据的用语习惯评价中与所述多个指定文本段落的捕捉窗口分别匹配的目标用语习惯评价，包括：在所述多语境的第二文本用语倾向集中确定与所述多个指定文本段落的捕捉窗口分别匹配的目标用语习惯字符串。3.根据权利要求1所述的方法，其特征在于，所述经由得到的所述多个指定文本段落的捕捉窗口分别匹配的目标用语习惯评价，确定活跃于所述若干组话题交互文本数据中的多个具有同一虚拟标签的社交活动成员，包括：通过所述若干组话题交互文本数据中每两组邻居话题交互文本数据分别匹配的所述多个目标用语习惯评价，获得所述每两组邻居话题交互文本数据中各个指定文本段落之间的文本共性指数；依据所述每两组邻居话题交互文本数据中各个指定文本段落之间的文本共性指数，确定活跃于所述若干组话题交互文本数据中的多个具有同一虚拟标签的社交活动成员。4.根据权利要求3所述的方法，其特征在于，所述每两组邻居话题交互文本数据为第一话题交互文本数据和第二话题交互文本数据；所述通过所述若干组话题交互文本数据中每两组邻居话题交互文本数据分别匹配的所述多个目标用语习惯评价，获得所述每两组邻居话题交互文本数据中各个指定文本段落之间的文本共性指数，包括：确定第一话题交互文本数据中的U个目标用语习惯字符串分别与第二话题交互文本数据中的V个目标用语习惯字符串之间的文本共性指数；其中，U和V为不小于2的正整数；基于所述第一话题交互文本数据中的U个目标用语习惯字符串分别与所述第二话题交
互文本数据中的V个目标用语习惯字符串之间的所述文本共性指数，获得规模为U*V的文本共性指数分布，所述文本共性指数分布中其中一个分布单元的数据反映所述第一话题交互文本数据的其中一个第一指定文本段落与所述第二话题交互文本数据中的任意一个第二指定文本段落的文本共性指数。5.根据权利要求4所述的方法，其特征在于，所述依据所述每两组邻居话题交互文本数据中各个指定文本段落之间的文本共性指数，确定活跃于所述若干组话题交互文本数据中的多个具有同一虚拟标签的社交活动成员，包括：基于所述文本共性指数分布，在所述U个目标用语习惯字符串中的第一目标用语习惯字符串分别与所述V个目标用语习惯字符串之间的文本共性指数中，确定目标文本共性指数；若所述目标文本共性指数大于设定判定值，则在所述V个目标用语习惯字符串中确定所述目标文本共性指数对应的第二目标用语习惯字符串；将所述第一话题交互文本数...

【专利技术属性】
技术研发人员：徐兴伟，
申请(专利权)人：徐兴伟，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人