当前位置: 首页 > 专利查询>五邑大学专利>正文

一种基于语义分析的水果电商产地适宜度评级方法技术

技术编号:19009690 阅读:121 留言:0更新日期:2018-09-22 09:29
本发明专利技术涉及水果电商产地适宜度评级技术领域,具体涉及一种基于语义分析的水果电商产地适宜度评级方法,通过在网络上获取具体水果品种的文本数据,进而利用语义分析、文本挖掘技术进行分析,获取该水果品种的各类产地,并划分核心产地和其他产地,继而通过对比其他产地中各类产地与核心产地的地理坐标距离,将距离在阈值内的确定为评级为优的一类产地,再通过对比其他产地中除评级为优外的各类产地与核心产地的气候信息,计算出剩余类产地的适宜度并确定评级。本发明专利技术能针对具体水果品种的不同产地进行系统分析,得出适宜度评级结果,帮助消费者有效区别不同产地的品种,了解核心产地的价值,为消费者购买水果提供参考依据。

A method based on semantic analysis to evaluate the suitability of fruit business

The invention relates to the technical field of suitability grading for fruit e-commerce producing areas, in particular to a method of suitability grading for fruit e-commerce producing areas based on semantic analysis, which obtains text data of specific fruit varieties on the network, and then uses semantic analysis and text mining technology to analyze and obtain various products of the fruit varieties. Then, by comparing the geographic coordinate distances between the different origins and the core origins in other origins, the distances within the thresholds are determined as the best origins, and the climatic information of the different origins and the core origins in other origins is calculated by comparing the climatic information of the different origins and the core origins. The suitability of the remaining categories of origin and determine the rating. The invention can systematically analyze the different producing areas of specific fruit varieties, obtain the result of suitability rating, help consumers effectively distinguish the varieties from different producing areas, understand the value of the core producing areas, and provide a reference basis for consumers to purchase fruits.

【技术实现步骤摘要】
一种基于语义分析的水果电商产地适宜度评级方法
本专利技术涉及水果电商产地适宜度评级
,更具体地,涉及一种基于语义分析的水果电商产地适宜度评级方法。
技术介绍
目前水果电商市场上的水果品种繁多,其产地相差甚远。不同产地所种植的水果产品,从其产品的质地、口感、形状、大小等各个方面也大相径庭,消费者在电商平台上做出购买决策时,需要获得具有实际意义的参考评价,来帮助消费者进行购买。而目前在电商市面上充斥着大量的水果评级,这些都来源于商家的主观评价,对水果研究的评价内容都较为单一,对购买决策无法提供合理的参考依据。同时作为核心产地标志性的农产品饱受劣币驱逐良币,甚至出现信任危机。尽管造成这种现象的原因很多,但如何做到消费者真真切切能够了解到,同样水果品种因产于核心产地的适宜度高低,而区别于其他产地的品质,是目前所需要解决的评级问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于语义分析的水果电商产地适宜度评级方法,能针对具体水果品种的不同产地进行系统分析,得出适宜度评级结果,帮助消费者有效区别不同产地的品种,了解核心产地的价值,为消费者购买水果提供参考依据。为解决上述技术问题,本专利技术采用的技术方案是:提供一种基于语义分析的水果电商产地适宜度评级方法,其特征在于,包括如下步骤:S1.根据水果品种在网络上进行搜索,获取与该水果品种有关的文本数据,以建立原始语料数据库;S2.对原始语料数据库内的数据进行语义分析,以建立地理信息语料数据库;S3.对地理信息语料数据库进行地理属性的文本挖掘,获取与该水果品种有关的产地名,应用主题模型对所有产地名进行分类,以将主题相关联的产地归为一类,得到地理属性数据库;从地理属性数据库中提取出各类产地的关键词,计算各类产地在文本数据中的出现频率,将出现频率最高的这类产地定义为核心产地,将其他类产地定义为其他产地;S4.进行产地适宜度评级,包括如下步骤:S41.在地理信息语料数据库中提取核心产地和其他产地中各类产地的地理经纬度信息及气候信息,根据经纬度信息计算其他产地中各类产地与核心产地两地之间的距离,若两地距离不大于阈值,将该类产地的适宜度评级为优,以完成地理位置评级,若两地距离大于阈值,则进入产地属性适宜度评级;S42.将核心产地的气候信息作为适宜度标准样本,将其他产地中除评级为优外的各类产地的气候信息作为变量,对标准样本和变量进行相似度对比得出该类产地的气候适宜度结果,以确定剩余类产地的适宜度评级,完成产地属性适宜度评级。上述方案中,通过在网络上获取具体水果品种的文本数据,进而利用语义分析、文本挖掘技术进行分析,获取该水果品种的各类产地,并划分核心产地和其他产地,继而通过对比其他产地中各类产地与核心产地的地理坐标距离,确定出评级为优的一类产地,再通过比对其他产地中除评级为优外的各类产地与核心产地的气候信息,确定剩余类产地的适宜度评级。本专利技术能针对具体水果品种的不同产地进行系统分析,得出适宜度评级结果,帮助消费者有效区别不同产地的品种,了解核心产地的价值,为消费者购买水果提供参考依据。优选地,气候信息包括温度、降水量及日照信息;步骤S42中,对标准样本和变量进行相似度对比得出该类产地的温度适宜度、降水适宜度及日照时数适宜度结果,并将对比结果加权得出最终分数,获取气候适宜度结果。温度、降水量及日照信息会直接影响水果品种的生长发育和最终的品质,因此对比这三项信息,可以提高评级的准确性。优选地,步骤S42中,其他产地中除评级为优外的各类产地的温度适宜度结果用公式(1)表示:S(T)=[(T-T1)(T2-T)B]/[(T0-T1)(T2-T0)B](1)B=(T2-T0)/(T0-T1)(2)其中,S(T)表示温度为T时为该水果品种的温度适宜度;T0为该水果品种核心产地的温度;T1为该水果品种发育的最低温度,低于这一温度,发育速率为0;T2为该水果品种发育的最高温度,超过这一温度,该水果品种发育停止。优选地,步骤S42中,其他产地中除评级为优外的各类产地的降水适宜度结果用公式(3)表示:其中,S(W)为降水适宜度;R0为在核心产地的每日该水果品种生理需水量,单位为mm;R为日可利用降水量,根据前50d的日降水量乘以相应权重系数得到;其中,Wi为权重;i为日序;Ri为日降水量;N为50。优选地,步骤S42中,其他产地中除评级为优外的各类产地的日照时数适宜度结果用公式(5)表示:其中,S(s)为日照时数适宜度;S为实际日照时数;S0为日照百分率为70%的日照时数,日照时数在临界点以上,水果品种对日照的反应达到适宜状态;b为常数,随着发育期的变化而变化。优选地,步骤S42中,气候适宜度结果用公式(6)表示:其中,S(T,W,S)为气候适宜度;S(T),S(W),S(S)分别为温度适宜度、降水适宜度、日照时数适宜度。优选地,步骤S1中使用BeautifulSoup网络数据挖掘工具在网络上进行搜索。BeautifulSoup可以从HTML或XML文件中提取数据的Python库,将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性。BeautifulSoup提供一些简单的Python的函数用来处理导航、搜索、修改分析树等功能,通过解析文档来提供需要抓取的数据,该工具灵活快速度地提供不同的解析策略能够为后面的语义分析提供有效的数据分析基础。优选地,步骤S2中对原始语料数据库内的数据进行词法分析、词向量表示、词义相似度、文本标签及主题模型的语义分析。词法分析向用户提供分词、词性标注、命名实体识别三个功能,使其能够识别出文本串中的基本词汇,对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体,多轮交互式搜索,通过地理专有名词识别定位多轮对话中的核心实体,自动判断后续文本中对该实体的进一步信息需求,实体数据库构建,通过挖掘实体之间、实体与关键词之间的关联,构建实体信息数据库。利用全网海量数据和深度神经网络技术,通过词语的向量化来实现文本的可计算,帮助快速完成语义挖掘、相似度计算等应用,词向量计算是一种通过训练的方法,将语言词表中的词映射成一个长度固定的向量,词表中所有的词向量构成一个向量空间,每一个词都是这个词向量空间中的一个点,利用这种方法,实现文本的可计算。通过词语向量化来计算两个词之间的相似度,本技术用于计算两个给定词语的语义相似度,基于自然语言中的分布假设,即越是经常共同出现的词之间的相似度越高。对所搜集的语料数据库进行核心关键词分析,为新相似文本聚合、文本内容分析等提供技术支持,文本标签服务对文本的标题和内容进行深度分析,输出能够反映文章关键信息的主题、话题、实体等多维度标签以及对应的置信度,对文本的文本聚合、内容检索等方面具有广泛的应用价值。对原数据中的文档数据做语义分析,文档中是否关联度密切往往不只决定于字面上的词语重复,还取决于文字背后的语义关联,对语义关联的挖掘,可以让我们的搜索更加智能化,由此引入主题模型,主题模型是一种将文字中隐含主题的建模方法,能够在海量互联网数据中自动寻找出文字间的语义主题。主题就是一个概念、一个方面,表现为一系列相关的词语。比如一个文章如果涉及到“冰糖橙”这个主题,那么与该品种产地相关的“湖南”、“黔阳”等词本文档来自技高网...
一种基于语义分析的水果电商产地适宜度评级方法

【技术保护点】
1.一种基于语义分析的水果电商产地适宜度评级方法,其特征在于,包括如下步骤:S1.根据水果品种在网络上进行搜索,获取与该水果品种有关的文本数据,以建立原始语料数据库;S2.对原始语料数据库内的数据进行语义分析,以建立地理信息语料数据库;S3.对地理信息语料数据库进行地理属性的文本挖掘,获取与该水果品种有关的产地名,应用主题模型对所有产地名进行分类,以将主题相关联的产地归为一类,得到地理属性数据库;从地理属性数据库中提取出各类产地的关键词,计算各类产地在文本数据中的出现频率,将出现频率最高的这类产地定义为核心产地,将其他类产地定义为其他产地;S4.进行产地适宜度评级,包括如下步骤:S41.在地理信息语料数据库中提取核心产地和其他产地中各类产地的地理经纬度信息及气候信息,根据经纬度信息计算其他产地中各类产地与核心产地两地之间的距离,若两地距离不大于阈值,将该类产地的适宜度评级为优,以完成地理位置评级,若两地距离大于阈值,则进入产地属性适宜度评级;S42.将核心产地的气候信息作为适宜度标准样本,将其他产地中除评级为优外的各类产地的气候信息作为变量,对标准样本和变量进行相似度对比得出该类产地的气候适宜度结果,以确定剩余类产地的适宜度评级,完成产地属性适宜度评级。...

【技术特征摘要】
1.一种基于语义分析的水果电商产地适宜度评级方法,其特征在于,包括如下步骤:S1.根据水果品种在网络上进行搜索,获取与该水果品种有关的文本数据,以建立原始语料数据库;S2.对原始语料数据库内的数据进行语义分析,以建立地理信息语料数据库;S3.对地理信息语料数据库进行地理属性的文本挖掘,获取与该水果品种有关的产地名,应用主题模型对所有产地名进行分类,以将主题相关联的产地归为一类,得到地理属性数据库;从地理属性数据库中提取出各类产地的关键词,计算各类产地在文本数据中的出现频率,将出现频率最高的这类产地定义为核心产地,将其他类产地定义为其他产地;S4.进行产地适宜度评级,包括如下步骤:S41.在地理信息语料数据库中提取核心产地和其他产地中各类产地的地理经纬度信息及气候信息,根据经纬度信息计算其他产地中各类产地与核心产地两地之间的距离,若两地距离不大于阈值,将该类产地的适宜度评级为优,以完成地理位置评级,若两地距离大于阈值,则进入产地属性适宜度评级;S42.将核心产地的气候信息作为适宜度标准样本,将其他产地中除评级为优外的各类产地的气候信息作为变量,对标准样本和变量进行相似度对比得出该类产地的气候适宜度结果,以确定剩余类产地的适宜度评级,完成产地属性适宜度评级。2.根据权利要求1所述的一种基于语义分析的水果电商产地适宜度评级方法,其特征在于,气候信息包括温度、降水量及日照信息;步骤S42中,对标准样本和变量进行相似度对比得出该类产地的温度适宜度、降水适宜度及日照时数适宜度结果,并将对比结果加权得出最终分数,获取气候适宜度结果。3.根据权利要求2所述的一种基于语义分析的水果电商产地适宜度评级方法,其特征在于,步骤S42中,其他产地中除评级为优外的各类产地的温度适宜度结果用公式(1)表示:S(T)=[(T-T1)(T2-T)B]/[(T0-T1)(T2-T0)B](1)B=(T2-T0)/(T0-T1)(2)其中,S(T)表示温度为T时...

【专利技术属性】
技术研发人员:彭敏晶张朕轩
申请(专利权)人:五邑大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1