一种文本元素的去重提取方法、装置及存储介质制造方法及图纸

技术编号:44384129 阅读:23 留言:0更新日期:2025-02-25 09:59
本发明专利技术涉及一种文本元素的去重提取方法,包括以下步骤:获取文本信息,对文本进行预处理,得到一个未去重的文本元素集合,将改集合输入到excel表的一个单元格中,利用excel中的分列功能,选择分隔符号分列,将分隔符选择为逗号,将文本集合划分为一行,复制该行数据,在excel中进行选择性粘贴,在选择性粘贴中勾选转置,将一行的文本转换为一列,选中该行数据,利用excel中的删除重复项功能进行去重,得到经过去重提取的文本元素。与现有技术相比,本发明专利技术具有降低了对专业软件的依赖,适用性强,简化了繁琐的手动处理过程,步骤明确,便于用户理解和操作,提升了去重提取的准确性和效率等优点。

【技术实现步骤摘要】

本专利技术属于文本处理,具体涉及一种文本元素的去重提取方法、装置及存储介质


技术介绍

1、随着时代的发展和科技的进步,互联网渗透到人们生活的各个方面,尤其是近些年新兴起来的娱乐方式--网络综艺节目也深受广大青年的喜爱,很多年轻人更是把追星作为生活的一部分,而大部分的青年人在平时也会经常使用微博这种即时通讯软件查看自己的关注的明星的信息。对于大多数80后而言,他们通常会关注体育赛事新闻来了解时事热点,而对于90后以及00后来说,他们的兴趣爱好更加广泛,更愿意通过浏览各种热门视频网站来获取信息。伴随着社会的高速发展与信息化时代的到来,年轻人的生活方式正朝着多元化方向快速前进。越来越多的年轻人习惯在网上发表自己感兴趣的话题,而在这样的交流过程中,会出现大量的网络热词,这些词汇往往就是当下最流行的词语或者短语。

2、但通过网络爬虫技术获取的网络热词列表会有重复,现有技术中对数据的去重一般是通过两种方式实现的,第一种是在数据库中使用sql语句实现去重;第二种是将多个数据文件合并成一个文档再进行去重操作。这两种方式都需要用到计算机程序语言来实现,一方面会本文档来自技高网...

【技术保护点】

1.一种文本元素的去重提取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种文本元素的去重提取方法,其特征在于,所述目标单元格包括excel表格中的单元格。

3.根据权利要求1所述的一种文本元素的去重提取方法,其特征在于,所述目标单元格中所有文本元素以第一预设符号分隔。

4.根据权利要求3所述的一种文本元素的去重提取方法,其特征在于,所述第一预设符号包括句号、逗号、问号、感叹号、冒号、顿号、引号、括号。

5.根据权利要求1所述的一种文本元素的去重提取方法,其特征在于,所述将文本中的每个文本元素划分为一行,具体为将文本中的所有文本...

【技术特征摘要】

1.一种文本元素的去重提取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种文本元素的去重提取方法,其特征在于,所述目标单元格包括excel表格中的单元格。

3.根据权利要求1所述的一种文本元素的去重提取方法,其特征在于,所述目标单元格中所有文本元素以第一预设符号分隔。

4.根据权利要求3所述的一种文本元素的去重提取方法,其特征在于,所述第一预设符号包括句号、逗号、问号、感叹号、冒号、顿号、引号、括号。

5.根据权利要求1所述的一种文本元素的去重提取方法,其特征在于,所述将文本中的每个文本元素划分为一行,具体为将文本中的所有文本元素,将每个元素划分到其对应的一个单...

【专利技术属性】
技术研发人员:王媚陆启宇张琪祁刘隰蒲钱程晨冉月赵锴李永赵涛杨小静周超安静
申请(专利权)人:国网上海市电力公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1