一种基于位置序统计的电商在线评论文本词语分析方法技术

技术编号:18621267 阅读:153 留言:0更新日期:2018-08-08 00:23
本发明专利技术属于信息处理技术领域,具体涉及一种基于位置序统计的电商在线评论文本词语分析方法。本发明专利技术所要解决的技术问题是提出一种基于位置序统计的电商在线评论文本词语分析方法,通过分析词语在文本中出现顺序和其代表的意义,解决电商在线评论文本分析中忽略词语位置序的问题,本发明专利技术具有帮助电商企业和顾客重新审视话题词语的重要性的效果。

A method of word analysis of online reviews based on location order statistics

The invention belongs to the field of information processing technology, in particular to a position order statistics based on online comment text word analysis method for e-commerce. The technical problem to be solved in this invention is to propose an online comment text word analysis method based on position order statistics. By analyzing the order of the words in the text and the meaning of its representative, the problem of ignoring the word position in the text analysis of online commentaries is solved. The invention has the help of e-commerce enterprises and customers. Customers reexamine the importance of topic words.

【技术实现步骤摘要】
一种基于位置序统计的电商在线评论文本词语分析方法
本专利技术属于信息处理
,具体涉及一种基于位置序统计的电商在线评论文本词语分析方法。
技术介绍
电商在线评论是一种文本数据,文本分词统计后能够获得一定的信息资源,为电商企业经营决策和顾客购买决策提供数据支持。现有电商在线评论文本分词统计后,仅根据词频数量考虑词语重要性,忽略词语在文本中出现顺序和其代表的意义。这一忽略造成电商在线评论文本分析中话题重要性信息的丢失,也易造成决策失误。因此,专利技术一种基于位置序统计的电商在线评论文本词语分析方法,是当前电商领域急需解决的问题。
技术实现思路
根据以上现有技术的不足,本专利技术所要解决的技术问题是提出一种基于位置序统计的电商在线评论文本词语分析方法,通过分析词语在文本中出现顺序和其代表的意义,解决了电商在线评论文本分析中忽略词语位置序的问题,具有帮助电商企业和顾客重新审视话题词语的重要性的效果。为了解决上述技术问题,本专利技术采用的技术方案为:一种基于位置序统计的电商在线评论文本词语分析方法,包括如下步骤:步骤S1:电商在线评论文本分词,并对词语频数进行统计筛选,从中选择出目标词语集;步骤S2:计算机获取目标词语集中每个目标词语的位置记录数字,并统计文本总字数;其中多次出现该目标词语的按照第一个出现位置进行记录,没有出现该词语的计记录0;步骤S3:建立统计模型,计算目标词语位置序presult值,所述位置序是指目标词语在文本中出现的位置顺序;步骤S4:文本词语判断与决策,根据目标词语的位置序结果presult值,比较目标词语位置;步骤S5:文本词语分析与判断,结合研究需要或者经营管理方法进行判断与决策。优选的,所述位置序presult值采用公示计算,其中presult为特定表达,即position与result的结合;同时xi为目标词语在每一个文本中的位置记录首数字,如果目标词语在某个文本中多次出现仅以第一个出现的位置记录首数字为结果;在计算时,n为文本句总数,利用文本总数n作为分母。由于目标词语来自文本分词后词语筛选,故presult值为非0值。优选的,所述presult值采用百分数,按照四舍五入保留两位小数。本专利技术有益效果是:本专利技术解决了电商在线评论文本分析中忽略词语位置序的问题,能够发现词语排序和影响力因素,在大量电商在线评论文本数据分析中有很好的模式发现和信息挖掘特点,能够有效帮助电商企业和顾客重新审视话题词语的重要性,从而提升企业经营管理能力和顾客购买决策能力。附图说明下面对本说明书附图所表达的内容及图中的标记作简要说明:图1是本专利技术的具体实施方式的方法流程图。具体实施方式下面通过对实施例的描述,本专利技术的具体实施方式如所涉及的各构件的形状、构造、各部分之间的相互位置及连接关系、各部分的作用及工作原理、制造工艺及操作使用方法等,作进一步详细的说明,以帮助本领域技术人员对本专利技术的专利技术构思、技术方案有更完整、准确和深入的理解。一种基于位置序统计的电商在线评论文本词语分析方法,如图1所示,包括:步骤S1:电商在线评论文本分词,并对词语频数进行统计筛选,从中选择出目标词语集。步骤S2:计算机获取目标词语集中每个目标词语的位置记录数字,并统计文本总字数。其中多次出现该目标词语的按照第一个出现位置进行记录,没有出现该词语的计记录0。步骤S3:建立统计模型,计算目标词语位置序presult值。位置序是指目标词语在文本中出现的位置顺序。位置序presult值采用公示计算,其中presult为特定表达,即position与result的结合;同时xi为目标词语在每一个文本中的位置记录首数字,如果目标词语在某个文本中多次出现仅以第一个出现的位置记录首数字为结果。在计算时,n为文本句总数,利用文本总数n作为分母,主要是考虑消除每个目标词语词频不同以及对总体的影响,因而不用目标词语词频作为分母;由于目标词语来自文本分词后词语筛选,故presult值为非0值;presult值采用百分数,按照四舍五入保留两位小数。步骤S4:文本词语判断与决策,根据目标词语的位置序结果presult值,比较目标词语位置。步骤S5:文本词语分析与判断,结合研究需要或者经营管理方法进行判断与决策。下述五条电商在线评论文本为本方法的实施事例,例句1:包装不错,但这芒果没什么芒果味,就包装好。例句2:宝贝包装很好,物流也很给力。好像比之前买的量少了,不过味道还是很赞!例句3:不错,快递也很给力,老板态度也很好有需要再来。例句4:吃了两袋,碧根果味道好极了,我表妹也说味道好极了!包装也很好。例句5:吃着不错哦!步骤S1:电商在线评论文本分词,并对词语频数进行统计筛选,从中选择出目标词语集。中文分词(仅保留词语,例如“吃”等单个字去除)结果如下:例句1:包装/不错/芒果/没什么/芒果/包装例句2:宝贝/包装/物流/好像/之前/不过/味道/还是/很赞/例句3:不错/快递/老板/态度/需要/例句4:两袋/碧根果/味道/好极了/表妹/味道/好极了/包装/例句5:不错/示例的词语词频统计结果如下:词语出现次数包装4不错3味道3芒果2好极了2不过1快递1还是1需要1只有1物流1态度1老板1没什么1碧根果1表妹1很赞1两袋1好像1之前1宝贝1甜味1选择出目标词语集{包装,味道}步骤S2:计算机获取目标词语集中每个目标词语的位置记录数字,并统计文本总字数。其中多次出现该目标词语的按照第一个出现位置进行记录,没有出现该词语的计记录0。示例的目标词语集在例句中的位置记录数字和文本总字数:例句1:包装:1(“包”字的位置),2(“装”字的位置);味道:0,0;总字数:18例句2:包装:3,4;味道:25,26;总字数:30例句3:包装:0,0;味道:0,0;总字数:30例句4:包装:23,24;味道:8,9;总字数:27例句5:包装:0,0;味道:0,0;总字数:5步骤S3:建立统计模型,计算目标词语位置序presult值。位置序是指目标词语在文本中出现的位置顺序。位置序presult值采用公示计算,其中presult为特定表达,即position与result的结合;同时xi为目标词语在每一个文本中的位置记录首数字,如果目标词语在某个文本中多次出现仅以第一个出现的位置记录首数字为结果,例如上述例句1中“包装”的x1=1。在计算时,n为文本句总数,利用文本总数n作为分母,主要是考虑消除每个目标词语词频不同以及对总体的影响,因而不用目标词语词频作为分母;由于目标词语来自文本分词后词语筛选,故presult值为非0值;presult值采用百分数,按照四舍五入保留两位小数。例如目标词语集的presult值计算如下“包装”的位置序同理计算目标词语“味道”的位置序presult=22.59%步骤S5:文本词语分析与判断,结合研究需要或者经营管理方法进行判断与决策。按照文本话题“先被提及优先重要”的原则,对目标词语集中“包装”和“味道”而言,presult值越小越“先被提及”,因此认为“包装”的位置序更靠前,在电商在线评论中更被关心。上面对本专利技术进行了示例性描述,显然本专利技术具体实现并不受上述方式的限制,只要采用了本专利技术的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本专利技术的构思本文档来自技高网...

【技术保护点】
1.一种基于位置序统计的电商在线评论文本词语分析方法,其特征在于,包括如下步骤:步骤S1:电商在线评论文本分词,并对词语频数进行统计筛选,从中选择出目标词语集;步骤S2:计算机获取目标词语集中每个目标词语的位置记录数字,并统计文本总字数;其中多次出现该目标词语的按照第一个出现位置进行记录,没有出现该词语的计记录0;步骤S3:建立统计模型,计算目标词语位置序presult值,所述位置序是指目标词语在文本中出现的位置顺序;步骤S4:文本词语判断与决策,根据目标词语的位置序结果presult值,比较目标词语位置;步骤S5:文本词语分析与判断,结合研究需要或者经营管理方法进行判断与决策。

【技术特征摘要】
1.一种基于位置序统计的电商在线评论文本词语分析方法,其特征在于,包括如下步骤:步骤S1:电商在线评论文本分词,并对词语频数进行统计筛选,从中选择出目标词语集;步骤S2:计算机获取目标词语集中每个目标词语的位置记录数字,并统计文本总字数;其中多次出现该目标词语的按照第一个出现位置进行记录,没有出现该词语的计记录0;步骤S3:建立统计模型,计算目标词语位置序presult值,所述位置序是指目标词语在文本中出现的位置顺序;步骤S4:文本词语判断与决策,根据目标词语的位置序结果presult值,比较目标词语位置;步骤S5:文本词语分析与判断,结合研究需要或者经营管理方法进行判断...

【专利技术属性】
技术研发人员:刘玉林王召义
申请(专利权)人:安徽商贸职业技术学院
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1