判断文本中POI数据的方法及装置制造方法及图纸

技术编号:18899750 阅读:26 留言:0更新日期:2018-09-11 22:40
本发明专利技术提供了一种判断文本中POI数据的方法及装置。该方法包括:提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个或多个目标分词,将所述一个或多个目标分词与POI数据条目进行匹配;当存在一个或多个匹配的POI数据条目时,读取匹配的POI数据条目对应的字符长度的字段值;基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段;从所述疑似POI名字片段中确定POI数据。本发明专利技术实施例解决了现有技术中需要将切词后的相邻字符组成的字符子串去POI名字集合建立的词典中查找,导致查找效率较低的问题。

Method and device for judging POI data in text

The invention provides a method and device for judging POI data in text. The method includes: extracting the text string to be judged, cutting the text string to be judged, generating one or more target segmentation, matching the one or more target segmentation with POI data entry, and reading the corresponding POI data entry when there is one or more matching POI data entry. A field value of character length; based on the target word segmentation and the field value, a suspected POI name fragment is judged in the text string to be judged; and POI data is determined from the suspected POI name fragment. The embodiment of the invention solves the problem that the character substring composed of adjacent characters after word cutting needs to be searched in the dictionary established by POI name set in the prior art, resulting in low search efficiency.

【技术实现步骤摘要】
判断文本中POI数据的方法及装置
本专利技术涉及互联网应用
,特别涉及一种判断文本中POI数据的方法及装置。
技术介绍
POI是“PointofInterest”的缩写,中文可以翻译为“兴趣点”。在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等,每个POI数据可以包括名称、地址、附近的酒店饭店商铺等信息。传统的POI数据采集方法需要技术人员采用精密的测绘仪器去获取每个POI的经纬度信息,然后标记下来,这种方法比较费时费力,导致采集得到的POI数据的数量很少。互联网上存在大量以文本形式存在的POI数据,如果从文本中提取这些POI数据供地理信息系统使用,则会节省人力和时间资源。相关技术中,在判断文本中是否包含POI名字集合中的某些POI名字时,首先把文本串按字符切分,把n个相邻字符组成的字符子串去POI名字集合建立的词典中查找,如果能够查找到,则认为文本串包含了一个POI名字。在查找之初需要加载词典,然而当POI名字数量很大或者单个POI名字过长时,由于词典由大量POI名字组成,则相当的词典的数据量也较大,那么加载这个词典时就需要消耗较大的内存,当内存有限制的时候这种方法便失效了。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的判断文本中POI数据的方法及相应的装置。依据本专利技术的一方面,提供了一种判断文本中POI数据的方法,包括:提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个或多个目标分词,将所述一个或多个目标分词与POI数据条目进行匹配;当存在一个或多个匹配的POI数据条目时,读取匹配的POI数据条目对应的字符长度的字段值;基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段;从所述疑似POI名字片段中确定POI数据。可选地,通过以下步骤生成所述POI数据条目:对POI名字集合中的各POI名字进行切词处理,将切词后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类;确定各类中POI名字的最长和/或最短字符长度;基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目。可选地,基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:计算所述各类中POI名字的所述指定位置上的分词的唯一标识符;以该分词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成所述各类的POI数据条目。可选地,将所述一个或多个目标分词与POI数据条目进行匹配,包括:计算所述一个或多个目标分词的唯一标识符;将该目标分词的唯一标识符与POI数据条目中作为键的分词的唯一标识符进行匹配。可选地,基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:确定所述各类中POI名字的所述指定位置上的分词的一个或多个相似词;基于该分词、该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目。可选地,确定所述各类中POI名字的所述指定位置上的分词的一个或多个相似词,包括:对该分词进行切分,将该分词切分为单字,在词库中查找该单字的同音字和/或相似字;基于查找到的该单字的同音字和/或相似字,确定该分词的一个或多个相似词。可选地,基于该分词、该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:计算该分词以及该分词的一个或多个相似词各自的唯一标识符;以该分词和/或该分词的一个或多个相似词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成所述各类的POI数据条目。可选地,将所述一个或多个目标分词与POI数据条目进行匹配,包括:计算所述一个或多个目标分词的唯一标识符;将该目标分词的唯一标识符与POI数据条目中作为键的分词和/或该分词的一个或多个相似词的唯一标识符进行匹配。可选地,所述对POI名字集合中的各POI名字进行切词处理,将切词后的指定位置上的分词的匹配度符合阈值的各POI名字聚为一类,包括:对POI名字集合中的各POI名字进行正向或逆向切词处理,得到切词后的多个分词;将切词后顺序的第一个分词的匹配度符合阈值的各POI名字聚为一类;或者,将切词后逆序的第一个分词的匹配度符合阈值的各POI名字聚为一类。可选地,所述将切词后顺序的第一个分词的匹配度符合阈值的各POI名字聚为一类,包括:将切词后顺序的第一个分词相同的各POI名字聚为一类。可选地,若所述该字段值包括最长和/或最短字符长度,所述基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段,包括:在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述最短字符长度的文本子串,作为疑似POI名字片段;或者,在所述待判断的文本串中,顺序判断从该目标分词开始的、长度小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段;或者,在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段。可选地,所述将切词后逆序的第一个分词的匹配度符合阈值的各POI名字聚为一类,包括:将切词后逆序的第一个分词相同的各POI名字聚为一类。可选地,若所述该字段值包括最长和/或最短字符长度,所述基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段,包括:在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述最短字符长度的文本子串,作为疑似POI名字片段;或者,在所述待判断的文本串中,逆序判断从该目标分词开始的、长度小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段;或者,在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段。可选地,所述方法还包括:将所述各类中的各POI名字插入对应的类的POI数据条目中。可选地,从所述疑似POI名字片段中确定POI数据,包括:从所述与该目标分词匹配的POI数据条目中,查找对应的类的各POI名字;将所述疑似POI名字片段与查找到的各POI名字进行匹配,将匹配的POI名字片段作为确定的POI名字。可选地,所述方法还包括:获取所述各类中的各POI名字对应的地理数据;将所述各类中的各POI名字对应的地理数据插入对应的类的POI数据条目中。可选地,所述方法还包括:从所述与该目标分词匹配的POI数据条目中,查找所述确定的POI名字对应的地理数据;根据所述确定的POI名字对应的地理数据,在电子地图界面上展示所述确定的POI。依据本专利技术的另一方面,还提供了一种判断文本中POI数据的装置,包括:切词模块,适于提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个或多个目标分词;匹配模块,适于将所述一个或多个目标分词与POI数据条目进行匹配;读取模块,适于当存在一个或多个匹配的POI数据本文档来自技高网...

【技术保护点】
1.一种判断文本中POI数据的方法,包括:提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个或多个目标分词,将所述一个或多个目标分词与POI数据条目进行匹配;当存在一个或多个匹配的POI数据条目时,读取匹配的POI数据条目对应的字符长度的字段值;基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段;从所述疑似POI名字片段中确定POI数据;其中,通过以下步骤生成所述POI数据条目:对POI名字集合中的各POI名字进行切词处理,将切词后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类;确定各类中POI名字的最长和/或最短字符长度;基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目;进一步基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:计算所述各类中POI名字的所述指定位置上的分词的唯一标识符;以该分词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成所述各类的POI数据条目。

【技术特征摘要】
1.一种判断文本中POI数据的方法,包括:提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个或多个目标分词,将所述一个或多个目标分词与POI数据条目进行匹配;当存在一个或多个匹配的POI数据条目时,读取匹配的POI数据条目对应的字符长度的字段值;基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段;从所述疑似POI名字片段中确定POI数据;其中,通过以下步骤生成所述POI数据条目:对POI名字集合中的各POI名字进行切词处理,将切词后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类;确定各类中POI名字的最长和/或最短字符长度;基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目;进一步基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:计算所述各类中POI名字的所述指定位置上的分词的唯一标识符;以该分词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成所述各类的POI数据条目。2.根据权利要求1所述的方法,其中,将所述一个或多个目标分词与POI数据条目进行匹配,包括:计算所述一个或多个目标分词的唯一标识符;将该目标分词的唯一标识符与POI数据条目中作为键的分词的唯一标识符进行匹配。3.根据权利要求1或2所述的方法,其中,基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:确定所述各类中POI名字的所述指定位置上的分词的一个或多个相似词;基于该分词、该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目。4.根据权利要求3所述的方法,其中,确定所述各类中POI名字的所述指定位置上的分词的一个或多个相似词,包括:对该分词进行切分,将该分词切分为单字,在词库中查找该单字的同音字和/或相似字;基于查找到的该单字的同音字和/或相似字,确定该分词的一个或多个相似词。5.根据权利要求3所述的方法,其中,基于该分词、该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:计算该分词以及该分词的一个或多个相似词各自的唯一标识符;以该分词和/或该分词的一个或多个相似词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成所述各类的POI数据条目。6.根据权利要求5所述的方法,其中,将所述一个或多个目标分词与POI数据条目进行匹配,包括:计算所述一个或多个目标分词的唯一标识符;将该目标分词的唯一标识符与POI数据条目中作为键的分词和/或该分词的一个或多个相似词的唯一标识符进行匹配。7.根据权利要求1所述的方法,其中,所述对POI名字集合中的各POI名字进行切词处理,将切词后的指定位置上的分词的匹配度符合阈值的各POI名字聚为一类,包括:对POI名字集合中的各POI名字进行正向或逆向切词处理,得到切词后的多个分词;将切词后顺序的第一个分词的匹配度符合阈值的各POI名字聚为一类;或者,将切词后逆序的第一个分词的匹配度符合阈值的各POI名字聚为一类。8.根据权利要求7所述的方法,其中,所述将切词后顺序的第一个分词的匹配度符合阈值的各POI名字聚为一类,包括:将切词后顺序的第一个分词相同的各POI名字聚为一类。9.根据权利要求7或8所述的方法,其中,若所述该字段值包括最长和/或最短字符长度,所述基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段,包括:在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述最短字符长度的文本子串,作为疑似POI名字片段;或者,在所述待判断的文本串中,顺序判断从该目标分词开始的、长度小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段;或者,在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段。10.根据权利要求7所述的方法,其中,所述将切词后逆序的第一个分词的匹配度符合阈值的各POI名字聚为一类,包括:将切词后逆序的第一个分词相同的各POI名字聚为一类。11.根据权利要求7或10所述的方法,其中,若所述该字段值包括最长和/或最短字符长度,所述基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段,包括:在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述最短字符长度的文本子串,作为疑似POI名字片段;或者,在所述待判断的文本串中,逆序判断从该目标分词开始的、长度小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段;或者,在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段。12.根据权利要求1所述的方法,其中,还包括:将所述各类中的各POI名字插入对应的类的POI数据条目中。13.根据权利要求12所述的方法,其中,从所述疑似POI名字片段中确定POI数据,包括:从所述与该目标分词匹配的POI数据条目中,查找对应的类的各POI名字;将所述疑似POI名字片段与查找到的各POI名字进行匹配,将匹配的POI名字片段作为确定的POI名字。14.根据权利要求1所述的方法,其中,还包括:获取所述各类中的各POI...

【专利技术属性】
技术研发人员:王智广
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1