一种基于数据分析的智能路况信息检索方法技术

技术编号:17304450 阅读:106 留言:0更新日期:2018-02-18 22:29
本发明专利技术提出的一种基于数据分析的智能路况信息检索方法,包括如下的步骤:S1:输入检索信息;S2:若输入检索信息中各关键词之间以空格隔开则为多关键词路况信息检索,执行S4;否则为地名信息检索,执行S3;S3:采用智能垂直地名信息模糊检索方法进行地名信息的检索,若检索信息中包含路名,则用该路名信息针对不同查询内容返回不同路况信息;否则将检索信息拆分为多个关键词后执行S4;S4:采用智能垂直信息关键词组合检索方法,通过检索信息的每个关键词具有最大匹配率的路况信息特征,得到查询结果并进行路况信息的展示。本发明专利技术对索引过程进行优化处理,加快了运算速度,提高了信息检索的效率与质量。

An intelligent road condition information retrieval method based on data analysis

The invention provides a kind of intelligent traffic information retrieval method based on data analysis, including the following steps: S1: input: if the input information retrieval; S2 retrieval information between keywords separated by spaces for multi keyword traffic information retrieval, S4; otherwise, geographic information retrieval, S3; S3: fuzzy retrieval geographic information retrieval method is using intelligent information retrieval includes vertical names, if the road information, the road information is used for different queries return different traffic information; otherwise it will retrieve information into multiple key words after the implementation of S4; S4: using intelligent information retrieval method of vertical keyword combination, through each keyword retrieve information with traffic information features of the maximum matching rate, get the query result and traffic information display. The invention optimizes the indexing process, speeds up the operation speed and improves the efficiency and quality of information retrieval.

【技术实现步骤摘要】
一种基于数据分析的智能路况信息检索方法
本专利技术涉及智慧交通与信息检索领域,特别是涉及一种在交通电台采编播系统中的智能路况管理信息检索方法。
技术介绍
随着网络通信日益发展和大数据时代的到来,网络提供的数据呈现指数级增长趋势。在交通播报平台系统中,在如此海量的信息中得到各自需要的路况信息,在现在科技手段中,最常用的方法就是利用信息检索技术把相关结果呈现给相关的用户(热心听众、出租车司机、私家车司机、微信用户等)。在交通电台播报系统中,由于路况编辑的浏览界面是呈现信息的其中一种方法,则如何在路况编辑员界面中进行信息检索成为目前交通电台采编播系统中需要解决的难题。现有的交通电台采编播系统中进行信息索引时,一般是直接在当前页面进行信息检索,数据量大,遍历数据多且没有模糊匹配功能,有可能因输入错误而不能检索到用户所需的信息,导致检索操作复杂,且没有路况折线图等可视化信息,导致检索效率低等问题。信息检索顾名思义是指信息按照一定的方式组合起来,并根据信息用户的需要找出与用户关键词相关的信息的过程和技术。在通常情况下信息检索的全称为信息储存与检索,指将信息按照某种特定的方式精心组织后并加以储存的过程。其中,信息检索有如下的评价指标:检索效率:通过最快速度处理用户查询的请求并及时反馈检索结果。主要衡量指标是用户每提交一次关键字查询请求到用户获取结果所经历的时间加上每次处理的查询数目。查准率和查全率:对于每个用户的查询,应该根据查询要求查询到精准合理的查询结果并最大量的检索出查询结果。在信息检索的过程中,如何提升检索质量和检索效率,并将最相似用户查询要求的查询结果排在前面,是近几年该技术开发者的重要研究方向。
技术实现思路
为了解决现有的交通电台采编播系统中路况信息检索效率低和检索质量低的问题,本专利技术的目的在于提出了一种基于数据分析的智能路况信息检索方法,加快了运算速度,有效的提高路况信息检索质量和检索效率。本专利技术提出的一种基于数据分析的智能路况信息检索方法,包括如下的步骤:步骤S1:输入检索信息;步骤S2:若输入检索信息中各关键词之间以空格隔开则为多关键词路况信息检索,执行步骤S4;否则为地名信息检索,执行步骤S3,步骤S3:采用智能垂直地名信息模糊检索方法进行地名信息的检索,若检索信息中包含路名,则用该路名信息针对不同查询内容返回不同路况信息;否则将检索信息拆分为多个关键词后执行步骤S4;步骤S4:采用智能垂直信息关键词组合检索方法,通过检索信息的每个关键词具有最大匹配率的路况信息特征,得到查询结果并进行路况信息的展示。其中,步骤S3中采用智能垂直地名信息模糊检索方法进行地名信息的检索的方法包括以下步骤:步骤S31:获取检索信息;步骤S32:使用斯坦福大学分词系统对检索信息进行分词和词性标注,并且提取名词及名词短语作为候选词;步骤S33:将步骤S32中提取的候选词与标准路名词库进行模糊匹配,选取各候选词最优的匹配率;步骤S34:利用设定的语法规则库中的语法规则,对步骤S32的分词结果进行拆分或者合并,生成新的候选词,并将新的候选词与标准路名词库进行模糊匹配,选取各候选词最优的匹配率;步骤S35:对步骤S33和步骤S34得到的各匹配率进行排序,对不同拆分状态下的所有候选词进行加权平均处理,得到各拆分状态的匹配率,并选取匹配率最高的拆分状态对应的匹配结果;步骤S36:若所选取的最高的匹配率大于设定阈值,则判断为检索信息中包含路名,该匹配率下的拆分状态对应的匹配结果作为准确的路名匹配结果;否则判断为检索信息中不包含路名。其中,步骤S4中采用智能垂直信息关键词组合检索的方法包括如下的步骤:步骤S41:获取以空格隔开的关键词作为候选词;步骤S42:确定输入的每个关键词具有最大匹配率的路况信息特征;所述路况信息特征分为信息来源、信息类型、创建时间、分区方向;步骤S43:通过加权平均方法得到该条查询的查询结果;步骤S44:将超过设定阈值的查询结果展示给查询用户。其中,步骤S33中进行模糊匹配并选取各候选词最优的匹配率的方法包括如下步骤:步骤S331:遍历候选词和标准路名词库;步骤S332:计算匹配率,公式如下:其中,C为候选词,D为标准路名词库中的词典词,count(AinB)表示A的每个字符出现在B中的总的次数;Num(A)表示A的字符数;步骤AS333:对步骤S332中计算的每个候选词的匹配率使用快速排序法排序,选取匹配率最大的作为最优匹配率。其中,步骤S34所述语法规则为名词结构的合并和拆分,具体规则为:“识别地名,识别地名”重新生成为“识别地名,识别地名”;“识别地名,方向词,识别地名”重新生成为“识别地名,识别地名”;“简称略语,名词”重新生成为“识别地名”;“其他专名,名词,方向词”重新生成为“识别地名,方向词”;“识别地名”拆分为“名词,方向词”。其中,步骤S35所述加权平均处理的方法为:采用等权重平均方法计算总排序分数,基本公式如下所示:其中n为一个拆分状态下的所有候选词的个数,S为检索信息。其中,步骤S42中确定输入的每个关键词具有最大匹配率的路况信息特征的方法为:步骤S421:采用步骤S332的方法计算匹配率,其中各关键词为候选词;步骤S422:选取匹配率最大的路况信息特征作为该关键词指示的信息特征。其中,步骤S43所述加权平均方法具体表现为如下公式:其中n为步骤S31中获取的候选词的个数,S为由各关键词构成的查询语句,αj为权重系数。其中权重系数αj的计算公式为其中ti为关键词对应最大匹配率的路况信息特征;Tj为特征词类别,包括开始时间、结束时间、创建用户、描述内容、路况信息来源、路况信息性质。本专利技术加快了运算速度,并且可以有效的提高路况信息检索质量和检索效率,且具有很强的可操作性。附图说明图1为传统的信息检索服务框架图;图2是本专利技术总体系统的框架流程图;图3是智能垂直地名信息模糊检索方法流程框图;图4是智能垂直信息关键词组合检索方法流程框图。具体实施方式为了使得本专利技术的优点、技术方案、专利技术目的更加明白清楚,下面结合实例和附图,对本专利技术进行更进一步分详尽说明。其中,此处所用的具体实施实例仅仅用于解释本专利技术,并不用于限定本专利技术。在日常生活中,信息检索时所涉及到的信息资源有很多类,以交通广播电台的播报系统为例,通常会涉及如下的资源:网络设备、关系型数据库、本地文件等,且用户的一次检索,很可能会从多个信息中查找数据,目前所使用的典型信息检索服务架构示意图如图1所示:接收信息检索指令,该信息检索指令中包括信息检索关键词;根据信息检索指令,遍历所有的浏览器中打开的页面,从中查找与检索关键词匹配的页面,生成检索结果;输出检索结果本专利技术提出的一种基于数据分析的智能路况信息检索方法,如图2所示包括如下步骤:步骤S1:输入检索信息;步骤S2:若输入检索信息中各关键词之间以空格隔开则为多关键词路况信息检索,执行步骤S4;否则为地名信息检索,执行步骤S3,步骤S3:采用智能垂直地名信息模糊检索方法进行地名信息的检索,若检索信息中包含路名,则用该路名信息针对不同查询内容返回不同路况信息;否则将检索信息拆分为多个关键词后执行步骤S4;步骤S4:采用智能垂直信息关键词组合检索方法,通过检索信息的每个关键词具有最大匹配率的路况信本文档来自技高网
...
一种基于数据分析的智能路况信息检索方法

【技术保护点】
一种基于数据分析的智能路况信息检索方法,其特征在于,所述方法包括如下的步骤:步骤S1:输入检索信息;步骤S2:若输入检索信息中各关键词之间以空格隔开则为多关键词路况信息检索,执行步骤S4;否则为地名信息检索,执行步骤S3;步骤S3:采用智能垂直地名信息模糊检索方法进行地名信息的检索,若检索信息中包含路名,则用该路名信息针对不同查询内容返回不同路况信息;否则将检索信息拆分为多个关键词后执行步骤S4;步骤S4:采用智能垂直信息关键词组合检索方法,通过检索信息的每个关键词具有最大匹配率的路况信息特征,得到查询结果并进行路况信息的展示。

【技术特征摘要】
1.一种基于数据分析的智能路况信息检索方法,其特征在于,所述方法包括如下的步骤:步骤S1:输入检索信息;步骤S2:若输入检索信息中各关键词之间以空格隔开则为多关键词路况信息检索,执行步骤S4;否则为地名信息检索,执行步骤S3;步骤S3:采用智能垂直地名信息模糊检索方法进行地名信息的检索,若检索信息中包含路名,则用该路名信息针对不同查询内容返回不同路况信息;否则将检索信息拆分为多个关键词后执行步骤S4;步骤S4:采用智能垂直信息关键词组合检索方法,通过检索信息的每个关键词具有最大匹配率的路况信息特征,得到查询结果并进行路况信息的展示。2.如权利要求1所述的方法,其特征在于,步骤S3中采用智能垂直地名信息模糊检索方法进行地名信息的检索的方法包括以下步骤:步骤S31:获取检索信息;步骤S32:使用斯坦福大学分词系统对检索信息进行分词和词性标注,并且提取名词及名词短语作为候选词;步骤S33:将步骤S32中提取的候选词与标准路名词库进行模糊匹配,选取各候选词最优的匹配率;步骤S34:利用设定的语法规则库中的语法规则,对步骤S32的分词结果进行拆分或者合并,生成新的候选词,并将新的候选词与标准路名词库进行模糊匹配,选取各候选词最优的匹配率;步骤S35:对步骤S33和步骤S34得到的各匹配率进行排序,对不同拆分状态下的所有候选词进行加权平均处理,得到各拆分状态的匹配率,并选取匹配率最高的拆分状态对应的匹配结果;步骤S36:若所选取的最高的匹配率大于设定阈值,则判断为检索信息中包含路名,该匹配率下的拆分状态对应的匹配结果作为准确的路名匹配结果;否则判断为检索信息中不包含路名。3.如权利要求1所述的方法,其特征在于,步骤S4中采用智能垂直信息关键词组合检索的方法包括如下的步骤:步骤S41:获取以空格隔开的关键词作为候选词;步骤S42:确定输入的每个关键词具有最大匹配率的路况信息特征;所述路况信息特征分为信息来源、信息类型、创建时间、分区方向;步骤S43:通过加权平均方法得到该条查询的查询结果;步骤S44:将超过设定阈值的查询结果展示给查询用户。4.如权利要求2所述的方法,其特征在于,步骤S33中进行模糊匹配并选取各候选词最优的匹配率的方法包括如下步骤:步骤S331:遍历候选词和标准路名词库;步骤S332:计算匹配率,公式如...

【专利技术属性】
技术研发人员:胡文鹏郑楠戴汝为
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1