机器学习框架ML.NET学习笔记【8】目标检测(采用YOLO2模型)
一、概述
本篇文章介绍通过yolo模型进行目标识别的应用,原始代码来源于:https://github.com/dotnet/machinelearning-samples
实现的功能是输入一张图片,对图片中的目标进行识别,输出结果在图片中通过红色框线标记出来。如下:
yolo简介
yolo(you only look once)是一种最先进的实时目标检测系统。官方网站:https://pjreddie.com/darknet/yolo/
本文采用的是tinyyolo2模型,可以识别的目标类型包括:"aeroplane", "bicycle", "bird", "boat", "bottle","bus", "car", "cat", "chair", "cow","diningtable", "dog", "horse", "motorbike", "person","pottedplant", "sheep", "sofa", "train", "tvmonitor" 。
onnx简介
onnx 即open neural network exchange(开放神经网络交换格式),是一个用于表示深度学习模型的通用标准,可使模型在不同框架之间进行互相访问,其规范及代码主要由微软,亚马逊 ,facebook 和 ibm 等公司共同制定与开发。有了onnx标准,我们就可以在ml.net代码中使用通过其他机器学习框架训练并保存的模型。
二、代码分析
1、main方法
static void main(string[] args) { trainandsave(); loadandpredict(); console.writeline("press any key to exit!"); console.readkey(); }
第一次运行时需要运行trainandsave方法,生成本地模型后,可以直接运行生产代码。
2、训练并保存模型
static readonly string tagstsv = path.combine(trainimagesfolder, "tags.tsv");
private static void trainandsave() { var mlcontext = new mlcontext(); var traindata = mlcontext.data.loadfromtextfile<imagenetdata>(tagstsv); var pipeline = mlcontext.transforms.loadimages(outputcolumnname: "image", imagefolder: trainimagesfolder, inputcolumnname: nameof(imagenetdata.imagepath)) .append(mlcontext.transforms.resizeimages(outputcolumnname: "image", imagewidth: imagenetsettings.imagewidth, imageheight: imagenetsettings.imageheight, inputcolumnname: "image")) .append(mlcontext.transforms.extractpixels(outputcolumnname: "image")) .append(mlcontext.transforms.applyonnxmodel(modelfile: yolo_modelfilepath, outputcolumnnames: new[] { tinyyolomodelsettings.modeloutput }, inputcolumnnames: new[] { tinyyolomodelsettings.modelinput })); var model = pipeline.fit(traindata); using (var file = file.openwrite(objectdetectionmodelfilepath)) mlcontext.model.save(model, traindata.schema, file); console.writeline("save model success!"); }
imagenetdata类定义如下:
public class imagenetdata { [loadcolumn(0)] public string imagepath; [loadcolumn(1)] public string label; }
tags.tsv文件中仅包含一条样本数据,因为模型已经训练好,不存在再次训练的意义。这里只要放一张图片样本即可,通过fit方法建立数据处理通道模型。
applyonnxmodel方法加载第三方onnx模型,
public struct tinyyolomodelsettings { // input tensor name public const string modelinput = "image"; // output tensor name public const string modeloutput = "grid"; }
其中,输入、输出的列名称是指定的。可以通过安装netron这样的工具来查询onnx文件的详细信息,可以看到输入输出的数据列名称。
3、应用
private static void loadandpredict() { var mlcontext = new mlcontext(); itransformer trainedmodel; using (var stream = file.openread(objectdetectionmodelfilepath)) { trainedmodel = mlcontext.model.load(stream, out var modelinputschema); } var predictionengine = mlcontext.model.createpredictionengine<imagenetdata, imagenetprediction>(trainedmodel); directoryinfo testdir = new directoryinfo(testimagesfolder); foreach (var jpgfile in testdir.getfiles("*.jpg")) { imagenetdata image = new imagenetdata { imagepath = jpgfile.fullname };
var predicted = predictionengine.predict(image); predictimage(image.imagepath, predicted); } }
代码遍历一个文件夹下面的jpg文件。对每一个文件进行转换,获得预测结果。
imagenetprediction类定义如下:
public class imagenetprediction { [columnname(tinyyolomodelsettings.modeloutput)] public float[] predictedlabels; }
输出的“grid”列数据是一个float数组,不能直接理解其含义,所以需要通过代码将其数据转换为便于理解的格式。
yolowinmlparser _parser = new yolowinmlparser(); ilist<yoloboundingbox> boundingboxes = _parser.parseoutputs(predicted.predictedlabels, 0.4f);
yolowinmlparser.parseoutputs方法将float数组转为yoloboundingbox对象的列表,第二个参数是可信度阙值,只输出大于该可信度的数据。
yoloboundingbox类定义如下:
class yoloboundingbox { public string label { get; set; } public float confidence { get; set; } public float x { get; set; } public float y { get; set; } public float height { get; set; } public float width { get; set; } public rectanglef rect { get { return new rectanglef(x, y, width, height); } } }
其中:label为目标类型,confidence为可行程度。
由于yolo的特点导致对同一个目标会输出多个同样的检测结果,所以还需要对检测结果进行过滤,去掉那些高度重合的结果。
yolowinmlparser _parser = new yolowinmlparser(); ilist<yoloboundingbox> boundingboxes = _parser.parseoutputs(predicted.predictedlabels, 0.4f); var filteredboxes = _parser.nonmaxsuppress(boundingboxes, 5, 0.6f);
yolowinmlparser.nonmaxsuppress第二个参数表示最多保留多少个结果,第三个参数表示重合率阙值,将去掉重合率大于该值的记录。
四、资源获取
源码下载地址:https://github.com/seabluescn/study_ml.net
工程名称:yolo_objectdetection
资源获取:https://gitee.com/seabluescn/ml_assets (objectdetection)
上一篇: 迅雷自动监视浏览器点击行为的去除方法