AI制胜:机器学习极简入门
上QQ阅读APP看书,第一时间看更新

1.2 机器学习的流程

1.2.1 数据收集

中国古代的“神农尝百草”的故事其实就是机器学习的思想,机器学习不是基于推理的“演绎法”,而是基于观测的“归纳法”。因为它用的是归纳法,所以数据是基础。其实人们很早就意识到了数据的重要性,比如在贴吧里,会看到铺天盖地的“求数据”。AI需要见过各种类型和各种状态的实物图片才行,这就需要大量的基础数据。

初始的人工智能软件就像初生的小婴儿一样,是一张白纸什么都不会,大家要教他认识周围的事物,告诉他鼻子是鼻子,鼻子是用来呼吸的;告诉他嘴巴是嘴巴,嘴巴是用来说话和吃东西的。AI也一样,我们需要向机器提供鼻子、嘴巴的图片,并将图片中的鼻子和嘴巴指出来,然后机器通过学习图片中鼻子和嘴巴的特征,并做好标注,机器就能够认知了。

大家应该都使用过上下班考勤的指纹打卡机,我们使用打卡机的时候,会先输入员工的指纹,再设置此指纹对应的员工的名字或者编号,待机器确认后,往后的日子只要输入指纹机器就都可以识别了。这便是最简单的人工智能原理:先输入信息,然后机器识别信息,再做输出。

机器学习的本质,一切都是量化的,而不是“抽象、模糊”的。原生的图片、文字等形式都是机器无法直接辨识的,都要先转化为数字、向量、矩阵。收集数据,再通过这些数据来训练人工智能模型。业界有一句非常著名的话:“数据决定了机器学习的上界,而模型和算法只是逼近这个上界。”由此可见,数据对于整个机器学习项目至关重要,有了优质数据的支持,人工智能才能更好地发展。

1.2.2 数据预处理

在工程实践中,我们得到的数据会存在缺失值、重复值等,在使用之前需要进行数据预处理。数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同。数据预处理的主要常用流程为:去除唯一属性、处理缺失值、特征编码、特征缩放。

去除唯一属性是因为唯一属性通常是一些id属性,这些属性并不能刻画样本自身的分布规律,所以简单地删除这些属性即可。

对于缺失值处理的方法,除了不处理直接使用含有缺失值的特征以及缺失值补全,也可以删除含有缺失值的特征(该方法在包含缺失值的属性含有大量缺失值并且仅仅包含极少量有效值时才是有效的)。

特征编码是指特征必须是数值型才能统计计算,所以要对特征进行编码。比如性别特征['male', 'female']等,模型不能直接识别的数据,处理的目的是将不能够定量处理的变量量化。

为什么还要进行特征缩放?这是因为有些特征(属性)的值是有区间界限的,如年龄、体重。而有些特征的值是可以无限制增加的,所以特征与特征之间数值的差距会对模型产生不良影响(数量级的差异将导致量级较大的属性占据主导地位,依赖于样本距离的算法对于数据的数量级非常敏感)。如果没有对数据进行预处理的话有可能带来偏差,难以较好地反应特征之间的重要程度。通过归一化和标准化的手段将样本的属性缩放到某个指定的范围,消除样本不同属性具有不同量级时的影响。

1.2.3 特征工程

特征工程也被称为特征提取,为了提取知识和做出预测,机器学习使用数学模型来拟合数据,这些模型将特征作为输入。特征就是原始数据某个方面的数值表示,在机器学习流程中,特征是数据和模型之间的纽带。

特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程。某种程度而言,好的数据以及特征往往是一个性能优秀模型的基础,它是机器学习流程中一个极其关键的环节,因为正确的特征可以减轻构建模型的难度,从而使机器学习流程输出更高质量的结果。机器学习从业者有一个共识,那就是建立机器学习流程的绝大部分时间都耗费在特征提取和数据预处理上。

1.2.4 模型构建和训练

当我们处理好数据之后,就可以选择合适的机器学习模型进行数据的训练了。可供选择的机器学习模型有很多,每个模型都有自己的适用场景,那么如何选择合适的模型呢?

首先我们要对处理好的数据进行分析判断,是考虑使用监督学习的模型,还是考虑使用无监督学习的模型。其次分析问题的类型是属于分类问题还是回归问题,当我们确定好问题的类型之后再去选择具体的模型。

在模型的实际选择时,通常会考虑尝试不同的模型对数据进行训练,然后比较输出的结果,选择最佳的那个。此外,我们还会考虑到数据集的大小。若是数据集样本较少,训练的时间较短,通常考虑朴素贝叶斯等一些轻量级的算法,否则的话就要考虑一些重量级的算法。

选好模型后是训练模型,训练模型意味着找到最合适的权重/参数,以便最大限度地分类(在分类问题中)或者预测与实际值之间的误差最小(在回归问题中)。

在验证数据上测试你的模型,使用计算和用于训练数据的相同参数来验证验证数据。一旦你尝试了不同的模型、不同的特征和不同的精度参数,并满足自己的机器学习模型的质量要求,你的学习模型就可以用于实际数据了。