【OpenCV2.4】SVM处理线性不可分的例子

程序员文章站 2022-06-06 15:33:51

...

【原文：http://www.cnblogs.com/justany/archive/2012/11/26/2788509.html】目的实际事物模型中，并非所有东西都是线性可分的。需要寻找一种方法对线性不可分数据进行划分。原理，我们推导出对于线性可分数据，最佳划分超平面应满足：现在我们想引入

【原文：http://www.cnblogs.com/justany/archive/2012/11/26/2788509.html】

目的

实际事物模型中，并非所有东西都是线性可分的。

需要寻找一种方法对线性不可分数据进行划分。

原理

，我们推导出对于线性可分数据，最佳划分超平面应满足：

　　　　【OpenCV2.4】SVM处理线性不可分的例子

现在我们想引入一些东西，来表示那些被错分的数据点（比如噪点），对划分的影响。

如何来表示这些影响呢？

被错分的点，离自己应当存在的区域越远，就代表了，这个点“错”得越严重。

所以我们引入【OpenCV2.4】SVM处理线性不可分的例子，为对应样本离同类区域的距离。

【OpenCV2.4】SVM处理线性不可分的例子

接下来的问题是，如何将这种错的程度，转换为和原模型相同的度量呢？

我们再引入一个常量C，表示【OpenCV2.4】SVM处理线性不可分的例子和原模型度量的转换关系，用C对进行加权和，来表征错分点对原模型的影响，这样我们得到新的最优化问题模型：

　　　　【OpenCV2.4】SVM处理线性不可分的例子

关于参数C的选择，明显的取决于训练样本的分布情况。尽管并不存在一个普遍的答案，但是记住下面几点规则还是有用的：

C比较大时分类错误率较小，但是间隔也较小。在这种情形下，错分类对模型函数产生较大的影响，既然优化的目的是为了最小化这个模型函数，那么错分类的情形必然会受到抑制。
C比较小时间隔较大，但是分类错误率也较大。在这种情形下，模型函数中错分类之和这一项对优化过程的影响变小，优化过程将更加关注于寻找到一个能产生较大间隔的超平面。

说白了，C的大小表征了，错分数据对原模型的影响程度。于是C越大，优化时越关注错分问题。反之越关注能否产生一个较大间隔的超平面。

开始使用

【OpenCV2.4】SVM处理线性不可分的例子

#include 
#include 
#include 
#include #define NTRAINING_SAMPLES   100         // 每类训练样本的数量
#define FRAC_LINEAR_SEP     0.9f        // 线性可分部分的样本组成比例

using namespace cv;
using namespace std;

int main(){
    // 用于显示的数据
    const int WIDTH = 512, HEIGHT = 512;
    Mat I = Mat::zeros(HEIGHT, WIDTH, CV_8UC3);

    /* 1. 随即产生训练数据 */
    Mat trainData(2*NTRAINING_SAMPLES, 2, CV_32FC1);
    Mat labels   (2*NTRAINING_SAMPLES, 1, CV_32FC1);
    
    RNG rng(100); // 生成随即数

    // 设置线性可分的训练数据
    int nLinearSamples = (int) (FRAC_LINEAR_SEP * NTRAINING_SAMPLES);

    // 生成分类1的随机点
    Mat trainClass = trainData.rowRange(0, nLinearSamples);
    // 点的x坐标在[0, 0.4)之间
    Mat c = trainClass.colRange(0, 1);
    rng.fill(c, RNG::UNIFORM, Scalar(1), Scalar(0.4 * WIDTH));
    // 点的y坐标在[0, 1)之间
    c = trainClass.colRange(1,2);
    rng.fill(c, RNG::UNIFORM, Scalar(1), Scalar(HEIGHT));

    // 生成分类2的随机点
    trainClass = trainData.rowRange(2*NTRAINING_SAMPLES-nLinearSamples, 2*NTRAINING_SAMPLES);
    // 点的x坐标在[0.6, 1]之间
    c = trainClass.colRange(0 , 1); 
    rng.fill(c, RNG::UNIFORM, Scalar(0.6*WIDTH), Scalar(WIDTH));
    // 点的y坐标在[0, 1)之间
    c = trainClass.colRange(1,2);
    rng.fill(c, RNG::UNIFORM, Scalar(1), Scalar(HEIGHT));

    /* 设置非线性可分的训练数据 */

    // 生成分类1和分类2的随机点
    trainClass = trainData.rowRange(  nLinearSamples, 2*NTRAINING_SAMPLES-nLinearSamples);
    // 点的x坐标在[0.4, 0.6)之间
    c = trainClass.colRange(0,1);
    rng.fill(c, RNG::UNIFORM, Scalar(0.4*WIDTH), Scalar(0.6*WIDTH)); 
    // 点的y坐标在[0, 1)之间
    c = trainClass.colRange(1,2);
    rng.fill(c, RNG::UNIFORM, Scalar(1), Scalar(HEIGHT));
    
    /**/
    labels.rowRange(                0,   NTRAINING_SAMPLES).setTo(1);  // Class 1
    labels.rowRange(NTRAINING_SAMPLES, 2*NTRAINING_SAMPLES).setTo(2);  // Class 2

    /* 设置支持向量机参数 */
    CvSVMParams params;
    params.svm_type    = SVM::C_SVC;
    params.C           = 0.1;
    params.kernel_type = SVM::LINEAR;
    params.term_crit   = TermCriteria(CV_TERMCRIT_ITER, (int)1e7, 1e-6);

    /* 3. 训练支持向量机 */
    cout "

相关标签： OpenCV2.4 SVM 处理线性不可分例子原文

上一篇： php 判断月份中最小的日期

下一篇： PHP面向对象编程之深入理解方法重载与方法覆盖（多态）_PHP