游记数据自动提取的方法、电子设备和介质技术

技术编号:32970735 阅读:14 留言:0更新日期:2022-04-09 11:36
本发明专利技术公开了一种游记数据自动提取的方法、电子设备及介质,其中游记数据自动提取的方法包括S100、对待处理文本进行分词和命名体识别,得到多个分词和多个命名体;S200、基于目的地字典表从多个分词中筛选出候选目的地,和,基于语料库从多个命名体中筛选出候选目的地;S300、若所述候选目的地的数量大于预设值,对所有候选目的地进行聚类,得到多个聚类簇;S400、将聚类元素最多的聚类簇对应的候选目的地作为最终的目的地。本发明专利技术通过游记数据自动提取的方法,实现了对用户游记中提到的目的地和POI精准识别,提高游记关键词的识别精确性。提高游记关键词的识别精确性。提高游记关键词的识别精确性。

【技术实现步骤摘要】
游记数据自动提取的方法、电子设备和介质


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种游记数据自动提取的方法、电子设备和介质。

技术介绍

[0002]近些年来在行业发展的过程中,积累了一批由用户输出的优秀的UGC(User

generated Content,用户生产内容)游记、旅拍、点评等文本数据,这些数据多为非结构化的数据,如果不对其进行结构化处理提取关键信息点,就难以将其应用于多个复杂的文本提取POI(Point of Interest,兴趣点)类的后续场景,如旅拍笔记详情页挖掘和展示关键词、游记自动挂货、POI信息链接展示、增强SEO(Search Engine Optimization,搜索引擎优化)辅助、辅助人工审核、行程自动生成等。
[0003]通过自动提取UGC数据中涉及到的主目的地和POI,自动纠错模糊匹配识别,并自动链接到知识库中,显得十分必要。首先,如果不具有丰富的行业知识,对目的地、POI的名称了如指掌,就难以分辨出游记中提及的目的地和POI信息。其次,游记类文本中提及的目的地和POI丰富多样,数量众多,如果通过人工操作的方式提取目的地和POI,需要耗费巨大的人力物力时间财力,且对于数据库中数量众多的POI难以迅速准确的分辨清楚和所提取目的地和POI之间的关系,而且由于人工审核方式固有的特性,可能会因为疲劳或者粗心等情况,漏掉需要提取的信息,或者出错。

技术实现思路

[0004]本专利技术要解决的技术问题是为了克服现有技术中的人工操作提取目的地和POI的精确性有待提高的缺陷,提供一种游记数据自动提取的方法、电子设备和介质。
[0005]本专利技术是通过下述技术方案来解决上述技术问题:
[0006]一种游记数据自动提取的方法,所述方法包括以下步骤:
[0007]S100、对待处理文本进行分词和命名体识别,得到多个分词和多个命名体;
[0008]S200、基于目的地字典表从所述多个分词中筛选出候选目的地,和,基于语料库从所述多个命名体中筛选出候选目的地;
[0009]S300、若所述候选目的地的数量大于预设值,对所有所述候选目的地进行聚类,得到多个聚类簇;
[0010]S400、将聚类元素最多的聚类簇对应的候选目的地作为最终的目的地。
[0011]较佳地,步骤S300中,基于K

means聚类算法进行聚类。
[0012]较佳地,步骤S200之前还包括:
[0013]S101、根据常用中文停用词生成中文停用词字典,根据所述中文停用词字典对所述多个分词进行过滤处理。
[0014]较佳地,步骤S100具体包括:
[0015]基于马尔科夫链的Jieba工具包对所述待处理文本进行分词和命名体识别,得到
多个分词和多个命名体。
[0016]较佳地,步骤S100还包括:
[0017]对所述多个分词进行词性标注;
[0018]步骤S200具体包括:
[0019]S201、基于所述目的地字典表从词性标注为名词的分词中筛选出所述候选目的地。
[0020]较佳地,所述游记数据自动提取的方法还包括:
[0021]S500、构建POI字典表,所述POI字典表包括目的地字典表中的目的地目录下的所有POI;
[0022]S600、基于所述POI字典表从所述多个分词和所述多个命名体中匹配出候选POI。
[0023]较佳地,所述POI包括多个POI实体,POI实体包括名称、别名、英文名、坐标、类型、所在目的地、目的地路径、质量分;
[0024]步骤S600具体包括:
[0025]若多个所述候选POI对应同一个POI实体,则保留名称最长的所述POI实体。
[0026]较佳地,步骤S600具体包括:
[0027]基于所述POI字典表从所述多个分词和所述多个命名体中匹配出含有POI的分词和含有POI的命名体,根据所述POI的坐标和所述目的地的坐标匹配出所述候选POI。
[0028]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术的游记数据自动提取的方法。
[0029]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本专利技术的游记数据自动提取的方法的步骤。
[0030]本专利技术的积极进步效果在于:通过自动提取UGC游记文本数据中涉及的多个目的地和POI,自动纠错模糊匹配识别,过滤掉干扰信息,提高游记文本关键词的识别精确性;所提取的数据后续可以应用于旅拍笔记的详情页挖掘和展示关键词、游记自动挂货、POI信息链接展示、增强SEO辅助、辅助人工审核、行程自动生成。
附图说明
[0031]图1为本专利技术的实施例1的游记数据自动提取的方法的流程示意图。
[0032]图2为本专利技术的实施例1游记数据自动提取的方法的优选方案的流程示意图。
[0033]图3为本专利技术的实施例2的电子设备的模块示意图。
具体实施方式
[0034]下面通过实施例的方式进一步说明本专利技术,但并不因此将本专利技术限制在所述的实施例范围之中。
[0035]实施例1
[0036]本实施例提供一种游记数据自动提取的方法,如图1所示,数据自动提取方法包括:
[0037]S100、对待处理文本进行分词和命名体识别,得到多个分词和多个命名体;
[0038]具体地,此处采用基于马尔科夫链的Jieba工具包,对游记数据进行分词和命名体识别。Jieba工具包通过前缀字典可以实现高效词图扫描,生成输入文本中所有汉字可能的成词情况构成的有向无环图。采用动态规划算法对最大概率词语路径进行查找,寻找出基于词频的最大切分组合。在分词前还可以对游记文本进行预处理和数据清洗例如通过正则表达式匹配非中文、大小写、数字以外的其他字符,并替换为空格;通过正则表达式匹配各式括号,进行删除;通过匹配特殊字符字典、标点符号字典,对其进行删除;通过全角半角对照字典,将全角字符替换为半角;通过匹配英文字母字典,标志字符;通过匹配数字字典,替换为中文字符。
[0039]S200、基于目的地字典表从所述多个分词中筛选出候选目的地;目的地字典表里包含了目的地Id、目的地名称、目的地类型、目的地坐标、目的地所对应的城市级别;
[0040]S300、若所述候选目的地的数量大于预设值,对所有候选目的地进行聚类,得到多个聚类簇;
[0041]S400、将与聚类元素最多的聚类簇对应的候选目的地作为最终的目的地;过滤掉聚类元素少的簇对应的目的地。最终目的地的确定还可以根据候选目的地与用户挂载目的地的距离是否大于预设距离得出。通过最终确定的目的地,后续可以应用于旅拍笔记的详情页挖掘和展示关键词、游记自动挂货、POI信息链接展示、增强SEO辅助、辅助人工审核、行程自动生成等。
[0042]S本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种游记数据自动提取的方法,其特征在于,所述方法包括以下步骤:S100、对待处理文本进行分词和命名体识别,得到多个分词和多个命名体;S200、基于目的地字典表从所述多个分词中筛选出候选目的地,和,基于语料库从所述多个命名体中筛选出候选目的地;S300、若所述候选目的地的数量大于预设值,对所有所述候选目的地进行聚类,得到多个聚类簇;S400、将聚类元素最多的聚类簇对应的候选目的地作为最终的目的地。2.根据权利要求1中所述的游记数据自动提取的方法,其特征在于,步骤S300中,基于K

means聚类算法进行聚类。3.根据权利要求1中所述的游记数据自动提取的方法,其特征在于,步骤S200之前还包括:S101、根据常用中文停用词生成中文停用词字典,根据所述中文停用词字典对所述多个分词进行过滤处理。4.根据权利要求1中所述的游记数据自动提取的方法,其特征在于,步骤S100具体包括:基于马尔科夫链的Jieba工具包对所述待处理文本进行分词和命名体识别,得到多个分词和多个命名体。5.根据权利要求1中所述的游记数据自动提取的方法,其特征在于,步骤S100还包括:对所述多个分词进行词性标注;步骤S200具体包括:S201、基于所述目的地字典表从词性标注为名词的分词中筛选出所述候选目的...

【专利技术属性】
技术研发人员:刘桐桐陈剑明
申请(专利权)人:携程旅游网络技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1