System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,具体涉及一种利用名称和形容词方式对评论进行分析的方法。
技术介绍
1、城市公园作为城市居民与自然生态系统互动的场所,为城市居民提供了户外休闲与活动的空间,并提供着重要的生态系统文化服务。城市公园的文化服务的价值实现在于城市居民对文化服务的感知,因此,基于景感生态原理对城市公园的文化服务进行评价与改进则尤为重要。目前收集用户对公园景观品质和体验的评价数据的方法包括问卷调查、访谈、实地观察等。
2、在中国申请号为202210710638.9,公布日为2022.9.23的专利文献公开了一种基于大数据的舆情监控与分析系统及方法,根据待监控主题,确定检索词,然后获取舆情数据并存储,其中,舆情数据包括舆情新闻及其评论,接下来基于舆情数据,提取舆情热词,并对舆情数据进行情感分类及量化分析,最后根据舆情热词及量化分析结果形成分析报告。
3、该分析方法通过提取舆情热词,对舆情热词;进行情感分析,只通过情绪信息进行判断,只能判断出舆情热词的极性结果;判断到当前的舆情热词产生力积极影响、中性影响还是消极影响;但是不能识别出舆情热词具体是对某一方面进行描述,从而无法获取准确的评论信息。
技术实现思路
1、本专利技术提供一种利用名称和形容词方式对评论进行分析的方法,通过对处理文本中是否同时具有名词和形容词,准确获取用户评价城市公园的描述,减少数据量的处理。
2、为达到上述目的,本专利技术的技术方案是:一种利用名称和形容词方式对评论进行分析的方法,包
3、s1、录入初始数据,对初始数据进行词频分析。
4、s2、提取初始数据中的词汇并生成词汇频率表。
5、s3、设置频率阈值k。
6、s4、将词汇频率表中频率大于频率阈值k的词汇设置为关键词。
7、s5、将关键词划分为第一关键词或第二关键词中一种,其中,第一关键词为名词,第二关键词为形容词。
8、s6、利用爬虫工具爬取评论页的评论信息。
9、s7、对评论信息进行预处理获得处理文本,预处理包括文本分词和去除停顿词。
10、s8、判断每个处理文本中是否包含一个以上的第一关键词和第二关键词;若否,则剔除当前处理文本,若是,则进行s9。
11、s9、记录当前处理文本对应的评论信息。
12、以上方法,通过录入对城市公园的满意度的评价的初始数据;当词汇的频率大于频率阈值k时,判断词汇为高频词汇;词汇在初始数据中的占比大,词汇与城市公园的满意度之间的关联性大;从而将高频词汇设为关键词;则能通过包含关键词的处理文本反映对城市公园描述。通过对处理文本中是否同时具有名词和形容词,准确获取用户评价城市公园的描述,减少数据量的处理,因为单独只是出现名词并不能判断出该评论是积极的还是消极的,通过形容词的方式可以判断出,然后通过名称可以进一步确定是对那个位置的评价,从而使得评价分析的更加可靠。
13、进一步的,文本分词采用jieba分词工具进行。
14、以上方法,通过jieba分词工具进行文本分词,方法简单。
15、进一步的,设置前缀字典,前缀字典中包括一个以上的前缀单字,以及每个前缀单字对应的一个以上的前缀词。
16、生成评论信息的有向无环图,判断评论信息中是否有前缀单字,当存在前缀单字,则在前缀字典中将当前缀单字对应的前缀词进行标注;获取评论信息中的前缀词,根据前缀词对评论信息进行切分。
17、以上方法,通过前缀单字对应的前缀词对评论信息进行分词,方法简单。
18、进一步的,若评论信息中出现一前缀单字对应的两个以上的前缀词,则按不同的前缀词分别对评论信息进行切分获取不同的分词路径;使用动态规划的方法寻找概率最大的分词路径。
19、以上方法,通过规划出概率最大的分词路径,分词的准确率高。
20、进一步的,去除停顿词,具体为:预设停顿词表,停顿词表中储存有一个以上的停顿词数据;去除评论信息中与停顿词数据一致的单词。
21、以上方法,通过去除停顿词,去除了停顿词对处理文本的干扰。
本文档来自技高网...【技术保护点】
1.一种利用名称和形容词方式对评论进行分析的方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种利用名称和形容词方式对评论进行分析的方法,其特征在于:文本分词采用jieba分词工具进行。
3.根据权利要求2所述的一种利用名称和形容词方式对评论进行分析的方法,其特征在于:文本分词,具体为:设置前缀字典,前缀字典中包括一个以上的前缀单字,以及每个前缀单字对应的一个以上的前缀词;
4.根据权利要求3所述的一种利用名称和形容词方式对评论进行分析的方法,其特征在于:若评论信息中出现一前缀单字对应的两个以上的前缀词,则按不同的前缀词分别对评论信息进行切分获取不同的分词路径;使用动态规划的方法寻找概率最大的分词路径。
5.根据权利要求1所述的一种利用名称和形容词方式对评论进行分析的方法,其特征在于:去除停顿词,具体为:预设停顿词表,停顿词表中储存有一个以上的停顿词数据;去除评论信息中与停顿词数据一致的单词。
【技术特征摘要】
1.一种利用名称和形容词方式对评论进行分析的方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种利用名称和形容词方式对评论进行分析的方法,其特征在于:文本分词采用jieba分词工具进行。
3.根据权利要求2所述的一种利用名称和形容词方式对评论进行分析的方法,其特征在于:文本分词,具体为:设置前缀字典,前缀字典中包括一个以上的前缀单字,以及每个前缀单字对应的一个以上的前缀词;
4.根据...
【专利技术属性】
技术研发人员:周超,郑英豪,黄科达,周劲,梁伟明,
申请(专利权)人:广州城市理工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。