奇书网

奇书网>人工智能训练师 > 第一节 分类问题及其评价(第1页)

第一节 分类问题及其评价(第1页)

第一节分类问题及其评价

分类是具有一定智力水平的动物在进化过程中普遍掌握的一项技能。例如,非洲草原上的狮子,可以在奔跑的猎物中辨别出其中体弱而不善于奔跑的,优先进行捕杀;天空自由翱翔的鸟儿回巢时可以在空中准确地区分出众多鸟巢中哪个是自己的家;作为万物之灵的人类,分类能力就更加强大,识别不同类的食物、选择不同的衣服、区分性格后和喜欢的人交友、工作中将各种事务分门别类进行处理等都是在进行分类。

尝试让计算机学习人类的“分类”能力,使得机器能够对特定数据实现分类,这就是分类问题。人工智能领域的大量问题最后都归结为某种形式的分类问题,所以分类问题是人工智能领域中最重要的一类问题。关于它的研究历史很长,在此过程中,各种基础的分类算法不断改进旧版本的不足,提升分类效率,演化出众多新的算法。本教材将着重介绍其中几种原理简单,但是依然很流行、很有效的基本分类算法。追本溯源,众多分类算法的核心思想其实并不复杂,掌握了其中的基本想法,今后学习基于此演化出的新算法也就不难了。

首先以电商客户数据为例,介绍描述分类问题需要的基本概念。

(1)特征属性

通常特征属性有很多个,也称为变量或者维度,每个特征属性相当于示例表格中的一列,特征属性的取值称为属性值,属性值可以是具体数字,也可以是描述性的文字。

(2)样本

样本相当于表格中的一行,包含很多属性值。

(3)类别标记

类别标记是对包含属性值的样本进行鉴别后给出的这个样本所属的类别。类别标记在表格中也是一列,表明各个样本属于哪一类。

(4)训练数据

通常分类问题是通过具有类别标记的数据来解决的,这样的数据称为训练数据。在训练数据中除了记录每个样本的属性值,还标明了每个样本所属的类别,训练数据是对未知数据进行分类的数据基础。

(5)分类

利用训练数据构建一个模型,这个模型可以在给出特征属性取值而没有给出类别标记的情况下,自动得到相应样本的类别标记,从而实现分类的目的。

表3-1

表3-1是某电商平台的用户数据,一共有10条。其中有3个特征属性,分别为消费频率(消费次数注册天数)、平均消费金额(总消费金额消费次数)以及是否接收广告。表格最后一列为类别标记,即客户包括优质客户和非优质客户两类。每一行数据都是一个样本,这10个样本构成了用来训练分类模型的训练数据。表3-1中,特征属性的取值都是用文字来描述的。例如,第1条数据的消费频率取值是“低”。这与我们熟悉的数据也许有些不同,但要习惯这种数据形式,并非只有数字才是数据。

使用这个示例数据进行分类指的就是根据上述训练数据训练分类模型,从而可以根据特征属性的取值对未知类别的客户进行鉴别,把他们分成优质和非优质两类。一般分类问题的类别数量各有不同,分成两类的问题称为二分类问题,类别数量更多的问题称为多分类问题,但二分类问题的算法是多分类问题算法的基础。

分类方法有很多种,也许复杂,也许简单,但是哪一种方法更适用于特定问题?如何评价各种分类方法的好坏?例如,使用上表中的数据可以建立如下所示的一个非常简单的分类模型。

如果消费频率=高

则客户类别=优质

如果消费频率=中或者低

则客户类别=非优质

即使通过直观经验来判断,也知道这个模型非常粗糙,并不是一个好的分类模型。那么如何通过量化的方式对模型进行评价呢?下面介绍几种分类模型的评价指标。对于二分类问题,为了给出评价指标的严格定义,首先要根据评价结果建立如表3-2所示的表格,这个表格称为混淆矩阵。

表3-2混淆矩阵

表格中各记号的含义是这样的。把二分类的两个类别分别记为正(positive)和反(ive),分类模型的预测结果也有两种,即对(True)和错(False)。类别和预测结果有以下四种组合方式。

真正例(TP,TruePositives):正类样本(称为正例)被正确预测为正例;

真负例(Tives):负类样本(称为负例)被正确预测为负例;

热门小说推荐

最新标签