用于从文档中提取嵌入式数据的深度学习技术制造技术

技术编号:41716261 阅读:22 留言:0更新日期:2024-06-19 12:43
公开了用于从文档中提取嵌入式数据的深度学习技术。在示例性技术中,接收非结构化文本数据的集合。通过处理该非结构化文本数据的集合来生成一个或多个文本分组。以用于输入至机器学习模型的格式基于一个或多个生成的文本分组来生成一个或多个文本分组嵌入。通过将一个或多个文本分组嵌入输入到机器学习模型中来生成一个或多个输出预测。一个或多个输出预测中的每个输出预测对应于一个或多个文本分组中的文本分组的预测方面。

【技术实现步骤摘要】
【国外来华专利技术】

本公开总体上涉及聊天机器人系统,并且更具体地涉及用于从数据中提取问题-答案对的深度学习技术。


技术介绍

1、即时消息传递功能和自动聊天平台是对现代客户服务问题的高效解决方案。组织可以利用这些做法为其客户提供及时且响应迅速的服务,而无需为单个用户的询问投入宝贵的人力资本。现代自动聊天平台可以利用“聊天机器人”来处置客户服务请求或与人类的其他交互。一些聊天机器人可以被设计和训练为处置特定请求,如回答人类提出的询问。

2、训练聊天机器人与人类进行有效交互是耗时和资源密集型的任务。在训练过程期间通常需要大量的训练数据,并且正在训练的聊天机器人模型可能被指定用于现有的训练数据集不适合的特定任务。获得足够的训练数据来训练这些聊天机器人通常需要用户手动创建训练数据或语法分析文档,以便以聊天机器人模型可以交互的方式提取和标记数据。这对人类来说是非常耗时和资源密集型的任务,并且会延误聊天机器人的部署。例如,为了训练聊天机器人回答人类提出的问题,聊天机器人可能需要语法分析数千个样本问题和对应答案的示例,这些示例必须由人类手动编写或修改。

3、可以通过数本文档来自技高网...

【技术保护点】

1.一种方法,包括:

2.如权利要求1所述的方法,其中,所述非结构化文本数据的集合是一个或多个便携式文档格式(PDF)文本文件。

3.如权利要求1所述的方法,其中:

4.如权利要求1所述的方法,其中,生成所述一个或多个文本分组嵌入包括基于所述非结构化文本数据的集合或所述一个或多个文本分组来生成多个子嵌入,并且基于所述多个子嵌入来生成所述一个或多个文本分组。

5.如权利要求4所述的方法,其中,所述多个子嵌入中的子嵌入是基于所述一个或多个文本分组的一个或多个语义方面而生成的文本子嵌入。

6.如权利要求4所述的方法,其中,所述多个子嵌...

【技术特征摘要】
【国外来华专利技术】

1.一种方法,包括:

2.如权利要求1所述的方法,其中,所述非结构化文本数据的集合是一个或多个便携式文档格式(pdf)文本文件。

3.如权利要求1所述的方法,其中:

4.如权利要求1所述的方法,其中,生成所述一个或多个文本分组嵌入包括基于所述非结构化文本数据的集合或所述一个或多个文本分组来生成多个子嵌入,并且基于所述多个子嵌入来生成所述一个或多个文本分组。

5.如权利要求4所述的方法,其中,所述多个子嵌入中的子嵌入是基于所述一个或多个文本分组的一个或多个语义方面而生成的文本子嵌入。

6.如权利要求4所述的方法,其中,所述多个子嵌入中的子嵌入是基于所述非结构化文本数据的集合中的字符的一个或多个提取的空间边界而生成的边界子嵌入。

7.如权利要求4所述的方法,其中,所述多个子嵌入中的子嵌入是基于所述非结构化文本数据的集合的一个或多个提取的基于图像的方面而生成的视觉子嵌入。

8.如权利要求4所述的方法,其中,所述多个子嵌入中的子嵌入是基于所述非结构化文本数据的集合中文本的一种或多种不同视觉字体而生成的相对字体子嵌入。

9.如权利要求1所述的方法,其中:

10.如权利要求9所述的方法,进一步包括:

11.如权利要求9所述的方法,进一步包括:...

【专利技术属性】
技术研发人员:钟旭Y·D·T·S·达摩西里T·L·杜翁M·E·约翰逊
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1