【转载】数据(机器学习/深度学习)竞赛平台——Kaggle 置顶
这篇文章适合那些刚接触Kaggle、想尽快熟悉Kaggle并且了解项目情况的朋友。本文分为两部分介绍Kaggle,Part One简单介绍Kaggle,Part Two将简单介绍正规的竞赛的项目,大家可以针对性的解决感兴趣的题目。
1、Kaggle简介
Kaggle是一个数据分析的竞赛平台,网址:https://www.kaggle.com/
企业或者研究者可以将数据、问题描述、期望的指标发布到Kaggle上,以竞赛的形式向广大的数据科学家征集解决方案,类似于KDD-CUP(国际知识发现和数据挖掘竞赛)。Kaggle上的参赛者将数据下载下来,分析数据,然后运用机器学习、深度学习、数据挖掘等知识,建立算法模型,解决问题得出结果,最后将结果提交,如果提交的结果符合指标要求(比如logloss,mse等)并且在参赛者中排名第一,将获得比赛丰厚的奖金(都是以美元为单位哦!)。
下面以图文的形式介绍Kaggle:
Kaggle的正规项目分为四类,
分别是:Featured,Research,Recruitment,Getting Started。下面,分别介绍
① Featured
Featured译为“号召”,召集数据科学高手去参赛,这里面的竞赛平均难度是比较高的,而且项目涉及到的大部分是企业或*的实际需求。
目前这类项目有129个,为正式的Kaggle项目比例最大的一部分。
② Research
香蕉黄对应的是Research,奖金少一点。这个类别的比赛和Featured一样,是有奖竞赛,难度自然不小,作为入门者,可以先做做练习赛(Getting Started)
③ Recruitment
Recruitment是一些顶尖的公司用于招聘数据科学家来帮助公司解决难题的。这些公司(如Facebook、Airbnb等)会提出一些问题,来考察各路大神的算法和解决方案的可行性,最终给出工作offer。这一块着重是对于尖端数据科学人才的考验。
④ Getting Started
Getting Started是入门赛,最典型的是大家应该都听过的
Titanic: Machine Learning from Disaster(泰坦尼克号预测乘客死亡情况)
2、Kaggle各类项目简介
本节以最主要的两类项目为例进行分析,其他类别(Getting Started,Recruitment等)的项目分析如有需要,可以联系我qq。
① Featured
Featured以最近两年的项目(30个)进行分析,大家可以选择自己感兴趣去实际做一下,或者使用别人的kernel来调整。
① Zillow Prize: Zillow’s Home Value Prediction (Zestimate)
问题目标:预测加州三郡(LA Orange Ventura)未来某个时间段内的房屋价格
问题类型:回归问题(Regression);时间序列分析;特征工程
问题特点:考虑影响房价的因素,并根据时间段做时间序列分析;可以使用Xgboost或LightGBM框架来做。
② Passenger Screening Algorithm Challenge
问题目标:提升美国国土安全部(DHS)的威胁评估算法
问题类型:分类问题(Classification);监督学习
问题特点:机场安检的威胁评估算法,考虑的数据量很大,而且要求保证算法的速度。
③ Carvana Image Masking Challenge
问题目标:自动识别图片中汽车的边界
问题类型:计算机视觉(CV)
问题特点:边界处理,模型提取。
④ Instacart Market Basket Analysis
问题目标:预测Instacart的客户将会再次购买的产品
问题类型:推荐系统 (Recommendation System)
问题特点:根据用户行为建模,预测出跟用户相性好的产品。
⑤ Planet: Understanding the Amazon from Space
问题目标:根据卫星数据预测人类在亚马逊雨林的足迹
问题类型:计算机视觉(CV);时间序列分析(Time-Series Analysis);动态规划(DP)
问题特点:非常综合的问题,即涉及到图像处理,又与图算法有关。
⑥ Mercedes-Benz Greener Manufacturing
问题目标:优化奔驰车在测试时的时间
问题类型:回归问题(Regression);模式识别(Pattern Recognition)
问题特点:维度灾难(curse of dimensionality)
⑦ Sberbank Russian Housing Market
问题目标:预测俄罗斯的房地产市场波动情况
问题类型:回归问题(Regression)
问题特点:多层次的特征,不仅限于房屋状况,还与国内经济状况有关的特征,综合分析。
⑧ NOAA Fisheries Steller Sea Lion Population Count
问题目标:根据航拍图像内容,研究算法分析图片中有几个海狮
问题类型:计算机视觉(CV);模式识别(Pattern Recognition)
问题特点:典型的计算机视觉和边界识别的综合问题。
⑨ Intel & MobileODT Cervical Cancer Screening
问题目标:预测女性宫颈癌类别
问题类型:分类问题(Classification);计算机视觉(CV)
问题特点:图像识别,确定宫颈癌类别。
问题目标:根据问题内容,定位已经被回答过的类似问题
问题类型:聚类(Cluster);自然语言处理(NLP)
问题特点:避免用户问重复的问题,也节省答题人的时间。
⑪ Google Cloud & YouTube-8M Video Understanding Challenge
问题目标:训练一个分类器,为视频做标签
问题类型:分类问题(Classification);深度学习(DL)
问题特点:噪声数据;主特征提取
⑫ The Nature Conservancy Fisheries Monitoring
问题目标:根据视频内容,识别鱼的种类
问题类型: 计算机视觉(CV);分类问题(Classification);深度学习(DL)
问题特点:模式识别加上Deep Learning的内容。
问题目标:提高肺癌预测的准确性
问题类型: 计算机视觉(CV);模型识别(Pattern Recognition);分类问题(Classification)
问题特点:根据高分辨率的肺部扫描精准判断病变是否为癌变。
⑭ Dstl Satellite Imagery Feature Detection
问题目标:从高空图像中准确辨别各种特征
问题类型:计算机视觉(CV);深度学习(DL)
问题特点:根据卫星图像对地球上的物体进行识别。
⑮ Two Sigma Financial Modeling Challenge
问题目标:预测未来经济走势(只要算法)
问题类型: 算法(Algorithms)
问题特点: 根据世界的不确定性,科学预测未来的经济发展和机会。
问题目标: 预测文章的哪部分是全球读者更喜欢的(有意愿点击的)
问题类型: 推荐系统(Recommendation System);自然语言处理(NLP)
问题特点: 文本相似度分析,新闻热度分析。
⑰ Santander Product Recommendation
问题目标:为Santander用户推荐产品
问题类型:推荐系统(Recommendation System)
问题特点:个性化的产品推荐,依据用户行为建模。
⑱ Bosch Production Line Performance
问题目标:预测Bosch的内部失败率
问题类型:分类问题(Classification)
问题特点:根据上千种检测手段,预测某批产品失败的可能性。
⑲ Predicting Red Hat Business Value
问题目标:根据用户的特点和活动情况,分析其对RedHat的商业价值
问题类型:分类问题(Classification)
问题特点:用户价值分析
⑳ TalkingData Mobile User Demographics
问题目标:根据用户的手机使用情况,地理位置等信息对用户做画像
问题类型:用户画像(User portrait);聚类(Cluster)
问题特点:特征维数多且不同尺度;聚类分析。
㉑ Grupo Bimbo Inventory Demand
问题目标:宾宝希望最大化销量的同时,减少从烘焙店返还过期未销售的食品
问题类型:动态规划(DP)
问题特点:根据商店的销量情况和返还率,设计每家店的供货分配算法。
㉒ Ultrasound Nerve Segmentation
问题目标:根据颈部超声图像识别神经结构
问题类型:计算机视觉(CV);分类问题(Classification)
问题特点:根据超声图像自动识别神经结构
㉓ State Farm Distracted Driver Detection
问题目标:计算机视觉能否发现驾驶员分心?
问题类型:分类问题(Classification);计算机视觉(CV)
问题特点:利用视频实时追踪驾驶员,判断驾驶员是否出现注意力不集中的现象。
㉔ Avito Duplicate Ads Detection
问题目标: 欺骗性、重复性的广告检测
问题类型: 分类问题(Classification);计算机视觉(CV)
问题特点: 相似度分析。
㉕ Draper Satellite Image Chronology
问题目标: 根据五天的卫星图片,预测卫星图片拍摄的时间顺序
问题类型: 计算机视觉(CV)
问题特点: 需要额外的特征,比如白天和晚上,图片的变化情况等等。
㉖ Expedia Hotel Recommendations
问题目标: 在用户数据不全的情况下,根据用户的搜索情况,预测用户可以预定的酒店类型(100种)
问题类型: 分类问题(Classification)
问题特点: 数据不全;日志数据分析。
㉗ Santander Customer Satisfaction
问题目标: 预测银行客户对交易体验的感觉(好/坏)
问题类型: 情感分析;分类问题(Classification)
问题特点: 根据上百维未知的特征,来预测客户的体验,筛选特征的重要程度。
㉘ Home Depot Product Search Relevance
问题目标: 预测Home Depot网站相关的搜索结果
问题类型: 推荐系统(Recommendation System);聚类(Cluster)
问题特点: 产品相似度分析。
㉙ BNP Paribas Cardif Claims Management
问题目标: 加速BNP Paribas Cardif公司的出险赔付流程
问题类型: 优化问题
问题特点: 1、什么样的索赔更容易得到赔付?2、索赔所需要的额外信息?
㉚ Prudential Life Insurance Assessment
问题目标: 简化个人购买保险业务的难度
问题类型: 聚类(Clsuter);非监督学习;NLP
问题特点: 噪声数据;把相似的保险方案归并成一套,供消费者选择,以免消费者懵掉。
② Research
对Research的项目进行分析,大家可以选择自己感兴趣去实际做一下,或者使用别人的kernel来调整。
① Personalized Medicine: Redefining Cancer Treatment
问题目标:根据给定数据,预测基因变种属于哪一类
问题类型:分类问题(Classification);NLP;监督学习
问题特点:对临床数据的处理甚至对专家来说也是复杂和费时的,所以,依据临床数据建立的模型是非常重要的。
问题目标:针对广告图片稍微变化,就导致分类器分类错误的情况。训练一个鲁棒性强的图片分类器
问题类型:分类问题(Classification);监督学习
问题特点: 避免在线学习中,被人用差不多的图片进行攻击(作为input训练),从而导致分类器性能严重下降的情况。
③ Imperceptibly transform images in ways that fool classification models
问题目标:将图片的内容转换,争取迷惑分类模型(跟②是一个系列的问题)
问题类型:分类问题(Classification)
问题特点: 避免在线学习中,被人用差不多的图片进行攻击(作为input训练),从而导致分类器性能严重下降的情况。
④ Develop an adversarial attack that causes image classifiers to predict a specific target class
问题目标:开发一个广告图片攻击工具,目标是使分类器的效果下降
问题类型:分类问题(Classification)
问题特点: 避免在线学习中,被人用差不多的图片进行攻击(作为input训练),从而导致分类器性能严重下降的情况。
⑤ Web Traffic Time Series Forecasting
问题目标:预测*(Wikipedia)的页面未来的访问情况
问题类型:回归问题(Regression);时间序列分析(Time-Series Analysis)
问题特点:典型的时间序列分析问题,需要先验知识。
⑥ Fine-grained classification challenge spanning 5,000 species.
问题目标:相似生物分类识别
问题类型:分类问题(Classification);计算机视觉(CV)
问题特点:大型分类问题;深度学习。
⑦ Can you assign accurate description labels to images of apparel products?
问题目标:准确的为图片中的明显物品做标注(Label)
问题类型:分类问题(Classification);计算机视觉(CV)
问题特点:深度学习的重要应用;标签相似性处理;照片背景不同处理。
⑧ Predict seizures in long-term human intracranial EEG recordings
问题目标:根据癫痫患者的脑电图,预测其癫痫发作的情况
问题类型:时间序列分析(Time-Series Analysis)
问题特点:典型的时间序列分析问题,推荐对每个癫痫患者的癫痫模式进行建模,从而有针对性的安排人照顾。
问题目标:跟How Much Did It Rain?一样,预测降雨量
问题类型:分类问题(Classification);时间序列分析(Time-Series Analysis)
问题特点:将降雨量限定在一定范围内,满足一个范围的话,对应的类设为1。
问题目标:根据航拍照片,预测图片中是否有濒危动物脊美鲸(right whales)
问题类型:分类问题(Classification);计算机视觉(CV)
问题特点:类似于物体检测的情况。
⑪ Grasp-and-Lift EEG Detection
问题目标:根据EFG信号进行手势识别
问题类型:分类问题(Classification)
问题特点:噪声数据
⑫ ECML/PKDD 15: Taxi Trajectory Predictiont’s Cooking?(Ⅰ)
问题目标:根据出租车当前运行轨迹,预测其目的地
问题类型: 计算机视觉(CV);动态规划(DP)
问题特点:涉及到图运算和拓扑学的内容
⑬ ECML/PKDD 15: Taxi Trip Time Prediction(Ⅱ)
问题目标:根据出租车当前运行轨迹,预测本次行程时间
问题类型: 计算机视觉(CV);动态规划(DP);回归问题(Regression)
问题特点:涉及到图运算和拓扑学的内容
⑭ 15.071x - The Analytics Edge (Spring 2015)
问题目标:预测纽约时报哪篇博文最受欢迎
问题类型: 分类问题(Classification)
问题特点:多维度分析
⑮ Microsoft Malware Classification Challenge (BIG 2015)
问题目标:基于文件内容和特点对恶意软件进行分类
问题类型: 分类问题(Classification)
问题特点:神经网络(NN)
问题目标:根据脑波数据预测对应的单词和图像是否对应
问题类型: 分类问题(Classification);FFT(Fast-Fourier analysis)
问题特点:对频域数据进行分析
⑰ American Epilepsy Society Seizure Prediction Challenge
问题目标:根据颅内EFG信号预测狗的癫痫症状发生情况
问题类型:时间序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis)
问题特点:典型的时间序列分析问题,推荐对每只癫痫狗的癫痫模式进行建模,从而有针对性的安排人照顾;频域分析。
⑱ Display Advertising Challenge
问题目标:预测广告的点击转化率(CTR)
问题类型: 回归问题(Regression)
问题特点:FFM(field-aware factorization machines),即考虑全局情况的分解机技术。效果特别好。
⑲ Click-Through Rate Prediction
问题目标:预测广告的点击转化率(CTR)
问题类型: 回归问题(Regression)
问题特点:FFM(field-aware factorization machines),即考虑全局情况的分解机技术。效果特别好。
⑳ Africa Soil Property Prediction Challenge
问题目标:预测土壤的物理化学成分
问题类型: 回归问题(Regression)
问题特点:特征维数多;官方示例是用贝叶斯加性模型做的。
㉑ UPenn and Mayo Clinic’s Seizure Detection Challenge
问题目标:根据颅内EFG信号预测癫痫症状发生情况
问题类型:时间序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis)
问题特点:典型的时间序列分析问题,推荐对每只癫痫狗的癫痫模式进行建模,从而有针对性的安排人照顾;频域分析。
㉒ DecMeg2014 - Decoding the Human Brain
问题目标:预测视觉刺激对人脑活动的影响
问题类型:时间序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis);计算机视觉(CV);二分类问题(Binary Classification)
问题特点:问题㉑的升级版
㉓ MLSP 2014 Schizophrenia Classification Challenge
问题目标:通过MRI扫描预测是否患有精神分裂症(schizophrenia)
问题类型: 分类问题(Classification);计算机视觉(CV)
问题特点: 利用不同切面的核磁共振图像来进行诊断;多模态分析。
㉔ KDD Cup 2014 - Predicting Excitement at DonorsChoose.org
问题目标:对慈善项目进行评级,决定是否捐赠
问题类型: 分类问题(Classification)
问题特点: 多维度分析,类似信用评级问题。
㉕ Greek Media Monitoring Multilabel Classification (WISE 2014)
问题目标:对项目评级,决定是否捐赠
问题类型: 分类问题(Classification);NLP
问题特点: 噪声数据;希腊语。
问题目标:根据1000个神经元的活动情况,判断神经元之前是否有突触连接。
问题类型: 时间序列分析(Time-Series Analysis);计算机视觉(CV)
问题特点: 神经元;树突轴突。
㉗ Large Scale Hierarchical Text Classification
问题目标: 大规模文本(*)分类问题
问题类型: NLP
问题特点: 可以用LSTM来做。
㉘ Galaxy Zoo - The Galaxy Challenge
问题目标: 对宇宙中的不同距离的星系的形态进行分类
问题类型: 分类问题(Classification);计算机视觉(CV)
问题特点: 宇宙。
㉙ PAKDD 2014 - ASUS Malfunctional Components Prediction
问题目标: 预测Asus笔记本未来可能发生故障的部位
问题类型: 分类问题(Classification);
问题特点: 多维度分析(销售时间、销量和修理次数等等)
㉚ Loan Default Prediction - Imperial College London
问题目标: 构造最优贷款组合(optimal portfolio of loans)
问题类型: 贷款组合;
问题特点: 噪声数据;降维。
㉛ Multi-label Bird Species Classification - NIPS 2013
问题目标: 根据风声记录预测87类动物(鸟/两栖动物)
问题类型: 语音识别;分类问题(Classification)
问题特点: 声音识别。
㉜ Accelerometer Biometric Competition
问题目标: 根据加速度记录仪的数据预测其是否属于特定的手机
问题类型: 分类问题(Classification)
问题特点: 手机加速度计数据分析。
㉝ AMS 2013-2014 Solar Energy Prediction Contest
问题目标: 预测奥克拉荷马每日的太阳能情况
问题类型: 回归问题(Regression)
问题特点: 空间;先验知识。
㉞ The Big Data Combine Engineered by BattleFin
问题目标: 根据新闻和情感数据分析来预测短期股价的变化
问题类型: 回归问题(Regression);时间序列分析(Time-Series Analysis)
问题特点: 情感分析;金融数据。
㉟ RecSys2013: Yelp Business Rating Prediction
问题目标: Yelp商业评分预测
问题类型: 回归问题(Regression);NLP
问题特点: 情感分析;多维度分析。
㊱ Multi-modal Gesture Recognition
问题目标: 多模态手势识别(2D/3D)
问题类型: 计算机视觉(CV)
问题特点: 卷积神经网络;RGB;降维。
㊲ The ICML 2013 Bird Challenge
问题目标: 根据语音记录识别鸟的类别
问题类型: 语音识别
问题特点: 频域分析。
㊳ Challenges in Representation Learning: Multi-modal Learning
问题目标: 为图像做Label
问题类型: 计算机视觉(CV);自然语言处理(NLP)
问题特点: 多模态分析(图片/文字);标注。
㊴ Challenges in Representation Learning: Facial Expression Recognition Challenge
问题目标: 识别图像中人脸表情
问题类型: 计算机视觉(CV);分类问题(Classification)
问题特点: 面部表情分类器;灰度图片。
㊵ Challenges in Representation Learning: The Black Box Learning Challenge
问题目标: 黑箱预测问题
问题类型: 分类问题(Classification)
问题特点: 数据没有实际意义;降维。
㊶ ICDAR2013 - Handwriting Stroke Recovery from Offline Data
问题目标: 预测手写签名的轨迹
问题类型: 动态规划(DP);计算机视觉(CV)
问题特点: 笔画方向;左/右撇子。
㊷ ICDAR2013 - Gender Prediction from Handwriting
问题目标: 预测手写笔记的作者是男还是女
问题类型: 计算机视觉(CV);分类问题(Classification)
问题特点: 性别特征对字体形态的影响;神经网络
㊸ Predicting Parkinson’s Disease Progression with Smartphone Data
问题目标: 根据用户的手机信息评估帕金斯综合症患者是否有症状发作的迹象/情况
问题类型: 时间序列分析(Time-Series Analysis);语音处理(Speech Processing)
问题特点: 多尺度数据;语音数据处理。
㊹ Visualize the State of Public Education in Colorado
问题目标: 根据科罗拉多州各学校3年的成绩数据,预测每个学校可能升到好学校的可能性
问题类型: 特征工程(Feature Engineering );回归问题(Regression)
问题特点: 多指标考核;评分标准。
㊺ Global Energy Forecasting Competition 2012 - Load Forecasting
问题目标: 预测美国20个地区的小时用电量(功率)
问题类型: 回归问题(Regression);时间序列分析(Time-Series Analysis)
问题特点: 多维度分析。
㊻ Global Energy Forecasting Competition 2012 - Wind Forecasting
问题目标: 预测7个风力发电厂的现在——未来48小时每小时产生的电量
问题类型: 回归问题(Regression);时间序列分析(Time-Series Analysis)
问题特点: 多维度分析。
㊼ Data Mining Hackathon on (20 mb) Best Buy mobile web site - ACM SF Bay Area Chapter
问题目标: 基于用户的查询记录预测其最感兴趣的Xbox游戏类别
问题类型: 推荐系统(Recommendation system)
问题特点: 词云;关键词分析。
㊽ Data Mining Hackathon on BIG DATA (7GB) Best Buy mobile web site
问题目标: 基于用户的查询记录预测其最感兴趣的BestBuy产品类别
问题类型: 推荐系统(Recommendation system)
问题特点: 大数据分析;关键词分析。
㊾ CPROD1: Consumer PRODucts contest #1
问题目标: 自动分辨消费者提到的产品并正确的识别产品的类别
问题类型: 分类问题(Classification);NLP
问题特点: 大数据分析;自然语言处理。
㊿ Practice Fusion Diabetes Classification
问题目标: 诊断病人是否患有二型糖尿病
问题类型: 分类问题(Classification)
问题特点: 非线性边界。
剩余的项目分析可以联系我的qq获取。
<link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/markdown_views-ea0013b516.css">
</div>
上一篇: Kaggle从入门到实战教程(新手必备)
下一篇: 三步搞定简单定时调度任务