ML 吴恩达 ex5:正则化、偏差、方差、样本容量之间关系总结
程序员文章站
2022-07-14 21:13:17
...
目录
1.2 、解决方法 — Feature Mapping for Polynomial Regression
一、高偏差(欠拟合)(high bias)
1.1、表现
% 1.1、无正则化的线性回归的模型
lambda = 0;
[theta] = trainLinearReg([ones(m, 1) X], y, lambda);
% 1.2、无正则化的线性回归的学习情况
[error_train, error_val] = ...
learningCurve([ones(m, 1) X], y, ...
[ones(size(Xval, 1), 1) Xval], yval, ...
lambda);
- 左图可以看出回归效果不好,偏差大,模型过于简单,不能反映实际情况,由右图看出,此时增加样本容量,交叉训练误差和训练误差慢慢接近,两者都挺大的。故高偏差的情况下增加样本容量并不能降低偏差,提高效率。
1.2 、解决方法 — Feature Mapping for Polynomial Regression
- 通过对Feature处理,增加非线性项,使得模型可以更加精确(复杂)
- 对数据分为训练集、测试集、交叉验证集
lambda = 0;
[theta] = trainLinearReg(X_poly, y, lambda);
[error_train,error_test ,error_val] = ...
learningCurve2(X_poly, y, X_poly_val, yval,X_poly_test, ytest,lambda);
% Plot training data and fit
figure,subplot(1,2,1)
plot(X, y, 'rx', 'MarkerSize', 10, 'LineWidth', 1.5);
plotFit(min(X), max(X), mu, sigma, theta, p);
xlabel('Change in water level (x)');
ylabel('Water flowing out of the dam (y)');
title (sprintf('Polynomial Regression Fit (lambda = %f)', lambda));
legend('Orgin data','polynomial regression fit p=8')
subplot(1,2,2)
plot(1:m, error_train,'rx', 1:m, error_val,'g--',1:m, error_test,'MarkerSize', 10, 'LineWidth', 1.5);
title(sprintf('Polynomial Regression Learning Curve (lambda = %f)', lambda));
xlabel('Number of training examples')
ylabel('Error')
axis([0 13 0 100])
legend('Train', 'Cross Validation','Test')
- 由左图可以看到现在模型可以很好的拟合所有的原始数据(训练误差一直为0),但是交叉误差和测试误差都挺大的,这说明模型的泛化能力不好,出现了另外一个问题:高方差。高方差的问题,可以随着样本数量增加,得到改善(交叉集和测试集的误差都有减少。)
二、高方差(过拟合)(variance)
2.1、表现
- 模型在训练集上表现很好,但是在测试集、交叉验证集上面表现不好,泛化能力差,模型相对而言不稳定,复杂,方差高
- 其学习曲线如上图。
2.2、解决方法 — 正则化
- 增加样本数量
如上图所示,当样本容量增加时,测试误差、交叉验证误差都会下降,模型性能相对会提高。
- 使用正则化方法
- 计算不同lambda下的训练集、交叉验证机、测试集的误差
function [lambda_vec, error_train, error_val,error_test] = ... validationCurve2(X, y, Xval, yval,Xtest, ytest) % Selected values of lambda (you should not change this) lambda_vec = [0 0.001 0.003 0.01 0.03 0.1 0.3 1 3 10]'; error_train = zeros(length(lambda_vec), 1); error_val = zeros(length(lambda_vec), 1); error_test = zeros(length(lambda_vec), 1); for i=1:size(lambda_vec, 1) theta = trainLinearReg(X, y, lambda_vec(i)); error_train(i) = linearRegCostFunction(X, y, theta, 0); error_val(i) = linearRegCostFunction(Xval, yval, theta, 0); error_test(i) = linearRegCostFunction(Xtest, ytest, theta, 0); end % ========================================================================= end
- 画图
[lambda_vec, error_train, error_val,error_test] = ... validationCurve2(X_poly, y, X_poly_val, yval,X_poly_test, ytest); close all; plot(lambda_vec, error_train, lambda_vec, error_val, lambda_vec, error_test); legend('Train', 'Cross Validation','Test'); xlabel('lambda'); ylabel('Error');
- 结果
- 通过画学习曲线,找到最佳的正则化参数lambda.
三、交叉验证集和测试集
- 通过训练集和交叉验证集,确定参数lambda
- 由上步确定的lambda,看测试集的模型效果。