信息识别方法、装置、设备、介质和程序产品制造方法及图纸

技术编号:34331314 阅读:76 留言:0更新日期:2022-07-31 02:08
本申请提供一种信息识别方法、装置、设备、介质和程序产品,涉及人工智能技术领域,该方法包括:获取待识别文本信息,提取待识别文本信息的词语特征,根据预设模型和词语特征,确定待识别文本信息所属的目标类别,根据待识别文本信息所属的目标类别,获取待识别文本信息的标签并与待识别文本信息关联。该技术方案中,通过提取待识别文本信息中的词语特征,根据预设模型和该词语特征可以自动确定出待识别文本信息所属的类别,能够快速实现对待识别文本信息进行分类并贴入对应的打标,提高待识别文本信息的标注效率。别文本信息的标注效率。别文本信息的标注效率。

Information identification methods, devices, equipment, media and program products

【技术实现步骤摘要】
信息识别方法、装置、设备、介质和程序产品


[0001]本申请涉及人工智能
,尤其涉及一种信息识别方法、装置、设备、介质和程序产品。

技术介绍

[0002]在一些旅行场景下,有很多的用户会发布旅游景点的攻略信息,例如当前旅行地的景点攻略、美食攻略、住宿攻略或者是包括了景点、美食和住宿的全方位攻略等。不同的攻略信息的类别不同,导致了浏览者可能需要花费大量时间才能查阅到其想要的攻略信息。
[0003]现有技术中,为了便于浏览者的查阅,通常会在浏览者进行查阅前,对攻略信息进行分类。具体地,采用人工的方式查阅攻略信息,确定不同的攻略信息的标签,然后根据标签对不同的攻略信息进行分类,如此浏览者根据所属类别就可以实现快速查找。
[0004]但是,现有技术这种人工打标的方式,由于攻略信息通常都是千万量级,而且每天都会有新的攻略信息产生,仅依靠人工打标效率很低。

技术实现思路

[0005]本申请提供一种信息识别方法、装置、设备、介质和程序产品,用于解决现有攻略信息人工标注效率低的问题。
[0006]第一方面,本申请实本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种信息识别方法,其特征在于,包括:获取待识别文本信息,提取所述待识别文本信息的词语特征;根据预设模型和所述词语特征,确定所述待识别文本信息所属的目标类别,所述目标类别为非攻略内容、多主题攻略内容、目标主题攻略内容中的任一种,所述预设模型包括攻略检测模型、攻略识别模型和主题攻略预测模型中的至少一种;根据所述待识别文本信息所属的目标类别,获取所述待识别文本信息的标签并与所述待识别文本信息关联。2.根据权利要求1所述的方法,其特征在于,所述预设模型为攻略检测模型或攻略识别模型或主题攻略预测模型;所述根据预设模型和所述词语特征,确定所述待识别文本信息所属的目标类别,包括:根据所述攻略检测模型和所述词语特征,确定所述待识别文本信息所属的目标类别;或者,根据所述攻略识别模型和所述词语特征,确定所述待识别文本信息所属的目标类别;或者,根据所述主题攻略预测模型和所述词语特征,确定所述待识别文本信息所属的目标类别。3.根据权利要求1所述的方法,其特征在于,所述根据预设模型和所述词语特征,确定所述待识别文本信息所属的目标类别,包括:根据所述攻略检测模型和所述词语特征,确定所述待识别文本信息所属的目标类别是否为所述非攻略内容;若所述待识别文本信息所属的目标类别不为所述非攻略内容,则根据所述攻略识别模型和所述词语特征,确定所述待识别文本信息所属的目标类别是否为多主题攻略内容;若所述待识别文本信息所属的目标类别不为所述多主题攻略内容,则根据所述主题攻略预测模型和所述词语特征,确定所述待识别文本信息所属的目标主题攻略内容。4.根据权利要求1

3中任一项所述的方法,其特征在于,若所述待识别文本信息所属的目标类别为所述多主题攻略内容,则所述根据所述待识别文本信息所属的目标类别,获取所述待识别文本信息的标签,包括:在所述待识别文本信息中获取至少两个攻略主题;获取每个攻略主题对应的标签,作为所述待识别文本信息的标签。5.根据权利要求3所述的方法,其特征在于,所述根据所述主题攻略预测模型和所述词语特征,确定所述待识别文本信息所属的目标主题攻略内容,包括:根据所述主题攻略预测模型和所述词语特征,确定所述待识别文本信息的目标主题;根据所述目标主题,确定所述待识别文本信息所属的目标主题攻略内容。6.根据权利要求5所述的方法,其特征在于,若所述待识别文本信息所属的目标类别为目标主题攻略内容,则所述根据所述待识别文本信息所属的目标类别,获取所述待识别文本信息的标签,包括:根据所述目标主题,确定所述待识别文本信息的标签。7.根据权利要求1

3中任一项所述的方法,其特征在于,所述提取所述待识别文本信息的词语特征,包括:
提取所述待识别文本信息中的标题和内容;对所述标题和内容分别进行分词,获取标题分词、内容分词和所述内容的分词词性;将标题分词、内容分词和所述内容分词的词性作为所述词语特征。8.根据权利要求1

3中任一项所述的方法,其特征在于,所述方法还包括:获取标注样本,所述标注样本包括非攻略内容标注样本、攻略内容标注样本、多主题...

【专利技术属性】
技术研发人员:侯亚希
申请(专利权)人:北京创鑫旅程网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1