基于旅游路线的信息匹配方法、系统、设备及存储介质技术方案

技术编号:39008147 阅读:12 留言:0更新日期:2023-10-07 10:39
本发明专利技术提供了基于旅游路线的信息匹配方法、系统、设备及存储介质,该方法包括:采集旅游路线的评价信息作为目标文本;基于目标文本中短词的一致性参数以及完整性参数获得候选词;基于候选词集合对目标文本进行分词;基于分词结果,采用TF

【技术实现步骤摘要】
基于旅游路线的信息匹配方法、系统、设备及存储介质


[0001]本专利技术涉及旅游相关自然语义处理领域,具体地说,涉及基于旅游路线的信息匹配方法、系统、设备及存储介质。

技术介绍

[0002]随着旅游领域网络化、数字化、智能化的发展,以及网络评论或点评的规范化、数据化、平台化的升级,旅游领域的点评以及相关描述帮助游客准确了解景点、旅游城市、旅游产品、旅游线路等基本信息与特色信息,根据相应的评论内容,做出合理的旅行消费选择;网络评论对于改善旅游生态、助力旅游业高质量、高效率、高水平发展起着关键作用。但是,网络评论具有数量规模大、内容覆盖广、标准差异化等特点,这对于筛选有效评价信息、科学分析评价内容、切实提高服务质量等工作极具挑战。此外,旅游线路中的模糊的导购信息,容易引起用的理解偏差,体验较差。需要利用自然语言处理技术从大量文本中挖掘有效的线路特色玩法信息,辅助用户理解,提升用户体验。
[0003]由于某条线路原来的游玩特征(如:“热门滇西北打卡”,“遇见中甸花海”),这种玩法描述比较抽象,看完让人感觉很模糊,不清楚具体是玩什么。
[0004]因此,本专利技术提供了一种基于旅游路线的信息匹配方法、系统、设备及存储介质。

技术实现思路

[0005]针对现有技术中的问题,本专利技术的目的在于提供基于旅游路线的信息匹配方法、系统、设备及存储介质,克服了现有技术的困难,能够基于文本挖掘的线路特色化分析方法,更好的辅助用户决策,帮助用户更快更准的理解线路信息,提升用户体验。
[0006]本专利技术的实施例提供一种基于旅游路线的信息匹配方法,包括以下步骤:
[0007]采集关于旅游线路对应的各旅游兴趣点的评价信息作为目标文本;
[0008]基于所述目标文本中短词的一致性参数以及完整性参数获得候选词,以建立候选词集合;
[0009]基于所述候选词集合对目标文本进行分词;
[0010]基于分词结果,采用TF

idf算法筛选权重最高的若干个特色词,以建立特色词集合;
[0011]基于各所述旅游兴趣点的特色词集合进行旅游路线聚合获得旅游路线群组;
[0012]在旅游路线群组内分别统计目标群体指数,根据出现于多个旅游路线群组的特色词集合,按照差异性得分最大原则进行去重;
[0013]对各旅游线路的特色词进行标注,构建标注数据集和线路特色排序特征;以及
[0014]基于所述标注数据集和线路特色排序特征输入神经网络模型进行训练,采用训练好的模型对目标路线进行特色词集合的预测。
[0015]优选地,所述采集关于旅游线路对应的各旅游兴趣点的评价信息作为目标文本,包括:
[0016]收集所述旅游线路对应的旅游城市、产品、线路相关的poi的描述文本数据和点评数据。(POI一般指兴趣点。POI是“Point ofInterest”的缩写,中文可以翻译为“兴趣点”。在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等);
[0017]根据点评数据得分、点评类型以及点评状态等进行数据筛选,将筛选后的与景点相关描述文本和点评文本作为基础数据源。
[0018]优选地,所述基于所述目标文本中短词的一致性参数以及完整性参数获得候选词,以建立候选词集合,包括:
[0019]统计每个短语出现的词频及概率p(x);
[0020]使用点互信息计算ngram短语的凝固度d;
[0021]使用左右熵计算短语的左邻熵E
l
(w)和右邻熵E
r
(w):
[0022][0023][0024]其中,E
l
表示左熵,E
r
表示右熵,w表示当前词,a∈A左边所有可能的词,b∈B表示右边所有可能的词;
[0025]计算短语得分score=(d+min(e
l
,e
r
))*p(x);
[0026]获得短语得分最高的若干个短语作为候选词,以建立候选词集合。
[0027]优选地,所述基于分词结果,采用TF

idf算法筛选权重最高的若干个特色词,以建立特色词集合,包括:
[0028]基于分词结果采用TF

idf算法获得词频:
[0029][0030]其中n
i,j
是分词在文件d
j
中出现的次数,分母则是文件d
j
中所有词汇出现的次数总和;
[0031]基于分词结果获得逆向文件频率IDF
i

[0032][0033]其中,|D|是语料库中的文件总数,|{j:t
i
∈d
j
}|表示包含词语t
i
的文件数目(即n
i,j
≠0的文件数目);
[0034]获得词频

逆向文件频率TF

IDF:
[0035]TF

IDF=TF
ij
*IDF
i
[0036]筛选权重最高的若干个特色词,以建立特色词集合。
[0037]优选地,所述基于各所述旅游兴趣点的特色词集合进行旅游路线聚合获得旅游路线群组,包括:
[0038]统计各所述旅游兴趣点的特色词集合中每个特色词的目标文本命中量、目标文本量、总体文本命中量、总体文本量;
[0039]根据所述特色词的目标文本命中量、目标文本量、总体文本命中量、总体文本量,获得所述旅游路线对所述兴趣点的权重;
[0040]根据所述特色词的目标文本命中量、目标文本量、总体文本命中量、总体文本量以及权重,对所述旅游路线中的目标群体指数进行聚合计算,以获得旅游路线群组。
[0041]优选地,所述在旅游路线群组内分别统计目标群体指数,根据出现于多个旅游路线群组的特色词集合,按照差异性得分最大原则进行去重,包括:
[0042]在旅游路线群组内分别统计目标群体指数TGI:
[0043][0044]对文本描述和点评数据分别得到的抽取结果进行多源合并,并对旅游路线的目标群体指数进行归一化;
[0045]根据所述旅游路线群组的目标群体指数获得差异性得分;
[0046]对出现于多个旅游旅游路线群组对的特色词集合进行去重,仅保留差异性得分最高的旅游路线群组。
[0047]优选地,所述对各旅游线路的特色词进行标注,构建标注数据集和线路特色排序特征,包括:
[0048]对各旅游线路的特色词进行标注,构建标注数据集,
[0049]构建线路特色排序特征,所述线路特色排序特征包括词频、TFidf、目标命中量、整体命中量、TGI、差异性得分。
[0050]本专利技术的实施例还提供一种基于旅游路线的信息匹配系统,用于实现上述的基于旅游路线的信息匹配方法,所述基于旅游路线的信息匹配系统包括:
[0051]目标文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于旅游路线的信息匹配方法,其特征在于,包括以下步骤:采集关于旅游线路对应的各旅游兴趣点的评价信息作为目标文本;基于所述目标文本中短词的一致性参数以及完整性参数获得候选词,以建立候选词集合;基于所述候选词集合对目标文本进行分词;基于分词结果,采用TF

idf算法筛选权重最高的若干个特色词,以建立特色词集合;基于各所述旅游兴趣点的特色词集合进行旅游路线聚合获得旅游路线群组;在旅游路线群组内分别统计目标群体指数,根据出现于多个旅游路线群组的特色词集合,按照差异性得分最大原则进行去重;对各旅游线路的特色词进行标注,构建标注数据集和线路特色排序特征;以及基于所述标注数据集和线路特色排序特征输入神经网络模型进行训练,采用训练好的模型对目标路线进行特色词集合的预测。2.如权利要求1所述的基于旅游路线的信息匹配方法,其特征在于,所述采集关于旅游线路对应的各旅游兴趣点的评价信息作为目标文本,包括:收集所述旅游线路对应的旅游城市、产品、线路相关的poi的描述文本数据和点评数据;根据点评数据得分、点评类型以及点评状态等进行数据筛选,将筛选后的与景点相关描述文本和点评文本作为基础数据源。3.如权利要求1所述的基于旅游路线的信息匹配方法,其特征在于,所述基于所述目标文本中短词的一致性参数以及完整性参数获得候选词,以建立候选词集合,包括:统计每个短语出现的词频及概率p(x);使用点互信息计算ngram短语的凝固度d;使用左右熵计算短语的左邻熵E
l
(w)和右邻熵E
r
(w):(w):其中,E
l
表示左熵,E
r
表示右熵,w表示当前词,a∈A左边所有可能的词,b∈B表示右边所有可能的词;计算短语得分score=(d+min(e1,e
r
))*p(x);获得短语得分最高的若干个短语作为候选词,以建立候选词集合。4.如权利要求1所述的基于旅游路线的信息匹配方法,其特征在于,所述基于分词结果,采用TF

idf算法筛选权重最高的若干个特色词,以建立特色词集合,包括:基于分词结果采用TF

idf算法获得词频:其中n
i,j
是分词在文件d
j
中出现的次数,分母则是文件d
j
中所有词汇出现的次数总和;
基于分词结果获得逆向文件频率IDF
i
:其中,|D|是语料库中的文件总数,|{j:t
i
∈d
j
}|表示包含词语t
i
的文件数目(即n
i,j
≠0的文件数目);获得词频

逆向文件频率TF

IDF:TF

IDF=TF
ij
...

【专利技术属性】
技术研发人员:汤才芳刘嘉伟鞠剑勋李健
申请(专利权)人:上海携旅信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1