用于学习词和多词表达的特性的分类引擎制造技术

技术编号:28686882 阅读:33 留言:0更新日期:2021-06-02 03:07
用于训练和使用词的分类器的方法和装置。实施例包括接收包括与类别相关联的第一词的第一多个句子和包括不与该类别相关联的第二词的第二多个句子。实施例包括使用基于第一多个句子的类别的积极训练数据和基于第二多个句子的类别的消极训练数据来训练分类器。实施例包括通过使用包括第三词的句子作为对分类器的输入来确定第三词与类别之间的相关性的度量。实施例包括使用相关性度量来执行从以下列表中选择的动作:选择要提供给用户的内容;确定自动聊天响应;或过滤一组内容。

【技术实现步骤摘要】
【国外来华专利技术】用于学习词和多词表达的特性的分类引擎
技术介绍
本公开涉及对词和表达进行分类,并且更具体地涉及用于训练分类器以基于包括词或表达的句子来确定词或表达与类别之间的相似性的度量的技术。词的心理语言特性对认知过程的影响在近几十年来已经成为科学查询的主要主题。最多研究的心理语言学类别中是抽象度、具体性、熟悉性、影像性、以及平均采集年龄。例如,抽象度评估由表达式表示的概念是指人类感觉不能直接感知的实体的程度。确定词和表达的心理语言学类别在人工智能(AI)上下文中通常是有用的,诸如动态地响应于由用户(例如,通过聊天)输入的文本。此外,词和表达的心理语言类别在确定要提供给应用程序的用户的内容的类型时也是有用的。例如,“趣闻(anecdotal)”段落(例如,包含真实事件或人的短账户)通常包括可以被分类为具体而不是抽象的更多词或短语。照此,理解词是抽象的还是具体的可以在特定环境下为用户自动选择内容(诸如趣闻的内容)中是有用的。由于其固有成本,对心理语言特性或类别的手动确定通常导致创建有限大小的数据集,并且因此具有有限的实用性。照此,本领域中需要确定词和短语的心理语言特性或类别的改进方法。
技术实现思路
根据本专利技术的一个实施例,一种方法包括:接收包括与类别相关联的第一词的第一多个句子和包括不与该类别相关联的第二词的第二多个句子。在一些实施例中,该方法还包括使用基于第一多个句子的类别的积极(positive)训练数据和基于第二多个句子的类别的消极(negative)训练数据来训练分类器。在一些实施例中,该方法还包括通过使用包括第三词的句子作为对分类器的输入来确定第三词与类别之间的相关性的度量。在一些实施例中,该方法还包括使用相关性度量来执行从以下列表中选择的动作:选择要提供给用户的内容;确定自动聊天响应;或过滤一组内容。在某些实施例中,计算系统可被配置成执行本文描述的方法。在一些实施例中,非暂时性计算机可读介质可存储指令,所述指令在由一或多个处理器执行时致使所述一或多个处理器执行本文中所描述的方法。根据第一方面,提供了一种方法,该方法包括:接收包括与类别相关联的第一词的第一多个句子和包括不与该类别相关联的第二词的第二多个句子;使用基于所述第一多个句子的类别的积极训练数据和基于所述第二多个句子的类别的消极训练数据来训练分类器;通过使用包括第三词的句子作为对分类器的输入来确定第三词与类别之间的相关性的度量;以及使用所述相关性度量来执行从以下列表中选择的动作:选择要提供给用户的内容;确定自动聊天响应;或过滤一组内容。根据第二方面,提供了一种系统,包括:一个或多个处理器;以及存储指令的非暂时性计算机可读介质,所述指令在由所述一个或一个以上处理器执行时,使得所述一个或多个处理器执行一种方法,所述方法包括:接收包括与类别相关联的第一词的第一多个句子和包括不与所述类别相关联的第二词的第二多个句子;使用基于所述第一多个句子的类别的积极训练数据和基于所述第二多个句子的类别的消极训练数据来训练分类器;通过使用包括第三词的句子作为对分类器的输入来确定第三词与类别之间的相关性的度量;以及使用所述相关性度量来执行从以下列表中选择的动作:选择要提供给用户的内容;确定自动聊天响应;或过滤一组内容。根据第三方面,提供了一种计算机程序产品,该计算机程序产品包括:计算机可读存储介质,该计算机可读存储介质具有随其体现的计算机可读程序代码,所述计算机可读程序代码可由一个或多个计算机处理器执行以执行方法,所述方法包括:接收包括与类别相关联的第一词的第一多个句子和包括不与所述类别相关联的第二词的第二多个句子;使用基于所述第一多个句子的类别的积极训练数据和基于所述第二多个句子的类别的消极训练数据来训练分类器;通过使用包括第三词的句子作为对分类器的输入来确定第三词与类别之间的相关性的度量;以及使用所述相关性度量来执行从以下列表中选择的动作:选择要提供给用户的内容;确定自动聊天响应;或过滤一组内容。附图说明现在将参考附图仅通过举例来描述本专利技术的实施例,在附图中:图1描绘了可以实现本公开的实施例的计算环境。图2描绘了根据本公开的实施例的与训练分类器相关的组件之间的数据交换。图3描绘了根据本公开的实施例的与使用分类器来确定单词和类别之间的相似性的度量有关的组件之间的数据交换。图4描绘了根据本公开的实施例的用于训练分类器的示例操作。图5描绘了根据本公开的实施例的用于使用分类器来确定单词和类别之间的相似性的度量的示例操作。图6描绘了可以实现本公开的实施例的计算系统。具体实施方式现在将通过参照以下讨论和本申请的附图来更详细地描述本申请。应注意,本申请的附图仅出于说明性目的而提供,且因此,附图未按比例绘制。还应注意,相同和对应的元件由相同的附图标记表示。在以下描述中,阐述了众多具体细节,如具体结构、部件、材料、尺寸、处理步骤和技术,以便提供对本申请的不同实施例的理解。然而,本领域普通技术人员将认识到,可以在没有这些具体细节的情况下实践本申请的不同实施例。在其他实例中,为了避免模糊本申请,没有详细描述公知的结构或处理步骤。图1描绘了其中可以实现本公开的实施例的计算环境100。计算环境100包括经由网络110连接的服务器120和客户机140。网络110可包括允许在服务器120和客户端140之间交换数据的任何类型的连接,诸如局域网(LAN)、内联网、蜂窝数据网络、互联网等。服务器120通常表示计算设备,诸如物理或虚拟服务器、台式计算机或其他计算设备。服务器120包括分类引擎122和应用编程接口(API)124,分类引擎122通常执行与对词和短语进行分类有关的操作,应用编程接口(API)124通常用作用户(例如,客户端140的)通过其与由服务器120提供的服务(诸如分类引擎122)交互的接口。服务器120连接到数据存储130,数据存储130通常表示数据存储实体(例如,数据库、储存库等),数据存储实体存储诸如根据本公开的实施例在对词和短语进行分类中使用的文本(例如,包括句子)之类的内容。数据存储130中的内容可以是未标记数据,未标记数据意味着还没有被人审阅过,并且还没有与标签或其他元数据相关联。注意,虽然数据存储130被描绘为与服务器120分开,但是数据存储130可以可替代地被包括在服务器120内。客户端130通常表示计算设备,诸如移动电话、膝上型计算机、台式计算机、平板等。客户端130包括用户接口132,其允许用户提供输入和接收输出(例如,经由与客户端130相关联的显示器)。在一些实施例中,用户接口132允许用户通过API124(例如,经由API方法调用)与服务器120的分类引擎122进行交互。注意,虽然用户接口132被描绘为客户机140的组件,但用户接口132可替代地位于服务器120上。根据实施例,分类引擎122训练分类器以确定单词或短语与类别之间的相似性的度量。例如,分类器可被训练成基于包括作为输入被提供给分类器的单词或短语的一个或多个句子来输出指示单词或短语与抽象度类别本文档来自技高网...

【技术保护点】
1.一种方法,包括:/n接收包括与类别相关联的第一词的第一多个句子和包括不与所述类别相关联的第二词的第二多个句子;/n使用基于所述第一多个句子的所述类别的积极训练数据和基于所述第二多个句子的所述类别的消极训练数据来训练分类器;/n通过使用包括第三词的句子作为对所述分类器的输入来确定所述第三词与所述类别之间的相关性的度量;以及/n使用所述相关性度量来执行从以下列表中选择的动作:/n选择要提供给用户的内容;/n确定自动聊天响应;或/n过滤一组内容。/n

【技术特征摘要】
【国外来华专利技术】20181030 US 16/174,8191.一种方法,包括:
接收包括与类别相关联的第一词的第一多个句子和包括不与所述类别相关联的第二词的第二多个句子;
使用基于所述第一多个句子的所述类别的积极训练数据和基于所述第二多个句子的所述类别的消极训练数据来训练分类器;
通过使用包括第三词的句子作为对所述分类器的输入来确定所述第三词与所述类别之间的相关性的度量;以及
使用所述相关性度量来执行从以下列表中选择的动作:
选择要提供给用户的内容;
确定自动聊天响应;或
过滤一组内容。


2.如权利要求1所述的方法,其中,训练所述分类器包括识别所述第一多个句子中的所述第一词的上下文以及所述第二多个句子中的所述第二词的上下文。


3.如权利要求2的方法,其中,识别所述第一多个句子中的所述第一词的所述上下文和所述第二多个句子中的所述第二词的所述上下文包括:识别所述第一多个句子中的所述第一词附近的词,以及识别所述第二多个句子中的所述第二词附近的词。


4.如权利要求1所述的方法,其中,所述积极训练数据包括以下各项中的一项或多项:词、短语、前缀、或后缀。


5.如权利要求1所述的方法,其中,所述分类器包括以下各项之一:最近邻算法、或天然贝叶斯算法。


6.如权利要求1的方法,其中,选择要提供给所述用户的所述内容包括基于所述相关性度量来识别趣闻内容。


7.如权利要求1的方法,其中,确定所述自动聊天响应的步骤包括:
基于所述相关性的度量来确定问题的难度;以及
基于所述问题的所述难度来选择是否将所述问题升级到现场支持代理。


8.如权利要求1所述的方法,其中,所述类别包括被定义为抽象的词。


9.如权利要求1所述的方法,其中,训练所述分类器包括从所述第一多个句子和所述第二多个句子中滤除非字母词和特殊字符。


10.如权利要求1所述的方法,其中,训练所述分类器包括对所述第一多个句子中的所述第一词掩蔽并且对所述第二多个句子中的所述第二词掩蔽。


11.一种系统,包括:一个或多个处理器;以及存储指令的非暂态计算机可读介质,所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行方法,所述方法包括:
接收包括与类别相关联的第一词的第一多个句子和包括不与所述类别相关联的第二词的第二多个句子;
使用基于所述第一多个句子的所述类别的积极训练数据和基于所述第二多个句子的所述类别的消极训练数据来训练分类器;
通过使用包括第三词的句子作为对所述分类器的输入来确...

【专利技术属性】
技术研发人员:E拉比诺维奇B斯纳杰德A斯佩克特I什纳伊德曼R阿哈罗诺夫D科诺普尼基N斯洛尼姆
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1