System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种非结构化文本数据可视化方法、装置及设备制造方法及图纸_技高网

一种非结构化文本数据可视化方法、装置及设备制造方法及图纸

技术编号:41008862 阅读:3 留言:0更新日期:2024-04-18 21:44
本发明专利技术公开了一种非结构化文本数据可视化方法、装置及设备,包括:通过语言模型对每个文本数据进行文本内容向量化,生成每个文本数据对应的高维向量数据;通过第一降维算法将每个高维向量数据降维成对应的第一低维向量数据,其维度为二维或三维;通过第二降维算法将每个高维向量数据降维成对应的第二低维向量数据,其维度高于第一低维向量;并通过聚类算法对所有第二低维向量数据进行聚类,获得每个文本数据所属的聚类簇;在前端页面上渲染每个文本数据对应的数据点,数据点的空间坐标根据文本数据对应的第一低维向量数据确定,数据点的颜色根据文本数据所属的聚类簇确定。本发明专利技术可以直观体现相似文本及数据分布,分析结果准确且泛化性好。

【技术实现步骤摘要】

本专利技术涉及数据分析,尤其是涉及一种非结构化文本数据可视化方法、装置及设备


技术介绍

1、社媒数据是营销洞察、用户画像等领域的主要数据来源,从而催生了各种各样的nlp(natural language processing,自然语言处理)方面的算法,如实体识别、情感分析、主题建模等;同时也出现了各种bi(business intelligence,商业智能)工具,用来帮助分析师洞察社媒数据中的趋势。而社媒数据一般都是非结构化文本数据,其通常由表示单词、句子甚至是文本的段落等文档组成。非结构化文本数据没有格式整齐的数据列,而且具有嘈杂的特性,使得机器学习方法很难直接处理原始的文本数据。

2、目前在分析非结构化文本数据时,主要是通过内容分词、关键词/过滤词打标签、实体识别等方式来识别出内容的文本特征,在这个过程中可能会因为数据分析师配置的关键词存在歧义、或者由于分词/实体识别的准确率问题,导致提取出了错误的特征,而且各个流程需要不断重复的数据清洗等工作,耗时较长。

3、而且由于非结构化文本数据具有较为复杂的结构,其分析结果也难以以一种直观的方式传达给用户,存在较高的理解门槛。


技术实现思路

1、为克服相关技术中存在的问题,本专利技术提供一种非结构化文本数据可视化方法、装置及设备,用以解决现有技术的非结构化文本数据分析结果不准确且理解门槛高的问题。

2、根据本专利技术的第一方面,提供一种非结构化文本数据可视化方法,所述方法包括:

3、通过预设的语言模型对每个文本数据进行文本内容向量化,生成每个所述文本数据对应的高维向量数据;

4、通过预设的第一降维算法将每个所述高维向量数据降维成对应的第一低维向量数据,所述第一低维向量数据的维度为二维或三维;

5、通过预设的第二降维算法将每个所述高维向量数据降维成对应的第二低维向量数据,所述第二低维向量数据的维度高于所述第一低维向量;并通过预设的聚类算法对所有所述第二低维向量数据进行聚类,获得每个所述文本数据所属的聚类簇;

6、在前端页面上渲染每个所述文本数据对应的数据点,其中,所述数据点的空间坐标根据所述文本数据对应的所述第一低维向量数据确定,所述数据点的颜色根据所述文本数据所属的聚类簇确定。

7、优选地,所述语言模型为bge模型。

8、优选地,在生成对应的高维向量数据后,所述方法还包括:

9、将所述高维向量数据进行持久化存储。

10、优选地,所述第一降维算法为umap降维算法,和/或,所述第二降维算法为umap降维算法。

11、优选地,所述第二低维向量数据包括五个维度。

12、优选地,所述聚类算法为hdbscan聚类算法。

13、优选地,所述方法还包括:

14、在任一所述数据点被点击时,在前端页面上展示所述数据点对应的所述文本数据的内容。

15、优选地,所述方法还包括:

16、通过tf-idf算法获取每个聚类簇中所包含的所有所述文本数据的主题,并通过预设的大语言模型总结每个聚类簇对应的主要观点。

17、根据本专利技术的第二方面,提供一种非结构化文本数据可视化装置,所述装置包括:

18、向量化模块,用于通过预设的语言模型对每个文本数据进行文本内容向量化,生成每个所述文本数据对应的高维向量数据;

19、降维模块,用于通过预设的第一降维算法将每个所述高维向量数据降维成对应的第一低维向量数据,所述第一低维向量数据的维度为二维或三维;

20、聚类模块,用于通过预设的第二降维算法将每个所述高维向量数据降维成对应的第二低维向量数据,所述第二低维向量数据的维度高于所述第一低维向量;并通过预设的聚类算法对所有所述第二低维向量数据进行聚类,获得每个所述文本数据所属的聚类簇;

21、渲染模块,用于在前端页面上渲染每个所述文本数据对应的数据点,其中,所述数据点的空间坐标根据所述文本数据对应的所述第一低维向量数据确定,所述数据点的颜色根据所述文本数据所属的聚类簇确定。

22、根据本专利技术的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本专利技术任一实施例所述的非结构化文本数据可视化方法。

23、本专利技术公开了一种非结构化文本数据可视化方法、装置及设备,通过对文本数据进行向量化、降维和聚类后,可以将文本数据划分为多个聚类簇,然后可以依据降维后获得的第一低维向量数据作为空间坐标,并对每个聚类簇使用不同的颜色在前端页面上进行渲染展示,本专利技术可直接使用原始的非结构化文本数据进行可视化展示,无需任何的预处理,直观的体现出相似的文本以及整个数据的分布;而且相比传统的分词、关键词提取分析流程,本专利技术的分析流程保留了更多的语义信息,在聚类步骤可以有效剔除噪声数据,使得分析的结论更准确;而且本专利技术的良好的泛化性,对于不同行业的社媒数据(如汽车、美妆行业),都能够得到比较准确的效果,不需要分析师反复做数据清洗的工作。

24、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。

本文档来自技高网...

【技术保护点】

1.一种非结构化文本数据可视化方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述语言模型为BGE模型。

3.根据权利要求1所述的方法,其特征在于,在生成对应的高维向量数据后,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述第一降维算法为UMAP降维算法,和/或,所述第二降维算法为UMAP降维算法。

5.根据权利要求1所述的方法,其特征在于,所述第二低维向量数据包括五个维度。

6.根据权利要求1所述的方法,其特征在于,所述聚类算法为HDBSCAN聚类算法。

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.根据权利要求1所述的方法,其特征在于,所述方法还包括:

9.一种非结构化文本数据可视化装置,其特征在于,所述装置包括:

10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-8任一所述的非结构化文本数据可视化方法。

【技术特征摘要】

1.一种非结构化文本数据可视化方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述语言模型为bge模型。

3.根据权利要求1所述的方法,其特征在于,在生成对应的高维向量数据后,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述第一降维算法为umap降维算法,和/或,所述第二降维算法为umap降维算法。

5.根据权利要求1所述的方法,其特征在于,所述第二低维向量数据包括五个维度。

6.根...

【专利技术属性】
技术研发人员:苏淦王大豪徐亚波李旭日
申请(专利权)人:广州数说故事信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1