AWS年度盛会机器学习部分专家解读
全球云计算产业的年度盛会——亚马逊 re:Invent 2022 已经进入第三周的议程了。过去的两周里,AWS 专家与合作伙伴发表了数百场演讲和课程,在数十个领域分享了最新的商业实践成果。与此同时,AWS 的一众全新产品和服务都在本次盛会上亮相,令全球云计算产业从业者大呼过瘾。
1 月 19 日, AWS 全球机器学习副总裁 Swami Sivasubramanian 发表了本次大会首个机器学习和人工智能主题演讲,展示了 AWS 关于人工智能与机器学习的最新全景蓝图,并宣布了一系列新服务和新功能,旨在带来更加便利、使用人群更为广泛的机器学习技术。
日前,InfoQ 大咖说特别邀请到了 AWS 深度学习平台工程师吴勇老师,为大家逐个解析 AWS 最新发布的机器学习服务 -- 聊了聊这些 AI 产品解决了哪些现有的痛点和问题,为广大 AI 从业人员带来了哪些利益,以及它们的应用场景和背后的技术细节。
本文总结自大咖说吴勇老师分享内容,有删改。
在加入 AWS 之前,吴勇老师在软件设计和研发领域已经有了丰富的经验,主要专注于深度学习模型的分布式训练和推理优化两大领域。吴老师所在的人工智能团队在 2017 年发布了 Amazon SageMaker,这一产品也被 Swami 在主题演讲中称为“端到端的机器学习服务”。
在吴老师看来,所谓“端到端”,是指从数据采集、数据清洗、数据准备,到模型搭建、模型训练和推理,整个 AI 应用研发过程中的所有环节和领域,Amazon SageMaker 都提供了解决方案。例如,Amazon SageMaker Data Wrangler 可以帮助用户准备数据,使用 Amazon SageMaker Studio 可视化构建模型,利用 Amazon SageMaker Debugger 寻找模型瓶颈、Amazon SageMaker Neo 优化模型、Amazon SageMaker Edge Manager 在边缘设备上部署模型,等等。
吴老师还提到,Amazon SageMaker 发布三年来已经赢得了大量客户,且使用量仍在呈指数级增长。经过多年迭代,Amazon SageMaker 如今成长为强大的机器学习平台,即使是欠缺 AI 领域知识的开发者也可以利用 Amazon SageMaker 完成一些机器学习领域的工作。
AWS Trainium 和 AWS Inferentia:AWS 踏入机器学习底层硬件领域
在本届亚马逊 re:Invent 大会上,AWS 推出了全新的自研机器学习训练芯片:专注于训练任务的 AWS Trainium。自此 AWS 有了自研的 AI 推理芯片 AWS Inferentia 和训练芯片 Trainium。
AWS Inferentia 芯片能够提供比传统 GPU 高出 30% 的模型推理计算吞吐量,每次推理成本可下降 45%;而预计明年正式推出的 AWS Trainium 则继承了前者的性能和成本优势,将成为业界性能最强大的云端训练芯片。两款芯片共用一套 Neuron SDK,用户可以通过 SDK 在两款芯片上调用 TensorFlow Pytorch、Mxnet 等原生框架。目前,AWS Inferentia 已经在实践中得到了很多用户的良好反馈,知名的 Amazon Alexa 服务改用这款芯片后,推理成本下降了 25%。AWS 对 Trainium 芯片也信心十足,希望大家保持期待。
Amazon SageMaker Distributed Training:突破业界长期难题
模型训练是机器学习用户在 AI 生产流程中的关键环节。通过分布式模型训练,用户可以用更多计算资源来缩短训练时间,快速达成业务目标。
新推出的 Amazon SageMaker Distributed Training 对 TensorFlow、PyTorch、MXNet 等原生框架做了很多优化工作,在网络、内存、IO 吞吐等方面也做了改进,提升了训练性能。此外,Amazon SageMaker 还可以自动为用户完成复杂的模型切分、数据切分工作,服务提供的自动化配置能力,相比用户手动配置,提升了高达 40% 的效果。总体而言,Amazon SageMaker Distributed Training 可以帮助用户突破传统分布式训练流程面临的种种困难,大大提升大规模训练的业务效率。
Amazon SageMaker Data Wrangler:简化数据准备复杂流程
机器学习工作的第一步:数据准备,是一个繁琐的流程。因为数据源格式可能多种多样,数据规范、特征整合等任务非常耗时耗力。如今,AWS 发布的 Amazon SageMaker Data Wrangler 可以大大简化这一过程。它提供了与 Amazon SageMaker Studio 集成的可视化工具来导入数据源,可以方便地找出需要的特征并做定制处理,在后台自动化完成大部分复杂的工作,最后一键导出到 S3 等云端存储上,为模型训练做好准备。
Amazon SageMaker Data Wrangler 还提供了 300 多个数据转换器,可以自动转化组合数据特征、规范化数据格式等。这款工具支持的数据源也很丰富,给用户带来很大便利。在实践方面,Amazon SageMaker Data Wrangler 已经有了很多成功案例,例如德勤会计事务所就利用这款工具缩短了产品上市时间,解决了很多业务需求。
Amazon SageMaker Clarify:方便地检测数据偏差与模型偏差
很多机器学习应用中,数据集中可能会有不少偏差的内容,例如“年长人群的照片”集合中混入了幼儿照片。AWS 新发布的 Amazon SageMaker Clarify 能够自动化寻找这些偏差,为用户节省大量时间。此外,该工具还可以帮助检测训练完成的模型,找出模型在不同族群中的不公平结果并及时反馈,避免了很多不必要的麻烦。
Amazon SageMaker Autopilot:自动创建机器学习模型
去年推出的 Amazon SageMaker Autopilot 是 Amazon SageMaker 中非常重要的组成部分。它支持用户利用现有数据集,根据用户需求自动创建最优模型。发布一年来,该工具经过了一系列改进优化,已经可以自动化完成数据清洗、预处理、分布式训练等等工作,性能也得到了显著提升。这款工具可以帮助 AI 开发人员从许多繁琐的任务中解放出来,将精力投入到更有意义的工作上。
Amazon SageMaker Debugger:与机器学习流程深度集成的运维工具
今年新发布的 Amazon SageMaker Debugger 并非简单的监控运维工具,而是与机器学习模型创建过程深度集成的调试服务。它能够评估模型中算子的使用情况、查找模型底层 API 等模型自身导致的性能问题,分析每个算子在整体训练过程中占据的时间比重,方便用户做针对性优化。
这款工具还能与 Amazon SageMaker Studio 联合使用,可视化监控数据加载、分布式训练等各方面的性能指标,快速发现潜在瓶颈。
Amazon SageMaker Edge Manager:管理模型边缘部署需求
Amazon SageMaker Neo 是 AWS 针对机器学习推理优化和部署而发布的服务,而今年新发布的 Amazon SageMaker Edge Manager 则是与前者搭配使用,可以更方便快捷地进行边缘设备端的优化、部署和监控。
Amazon SageMaker Neo 可以针对边缘设备提供小巧轻量的运行时,将重量级框架生成的模型自动优化到适合边缘设备算力和架构的水平,为终端用户提供良好的业务体验。而 Amazon SageMaker Edge Manager 可以帮助开发人员管理边缘设备、运行时安装、模型加载等工作,并提供可视化的模型性能监控等功能。
小结:利用 Amazon SageMaker 轻松搭建 AI 应用
这一环节的最后,吴老师总结了 Amazon SageMaker 系列服务为机器学习应用开发人员带来的便利和价值。吴老师提到,Amazon SageMaker 提供的端到端解决方案能够帮助 AI 科学家、数据分析科学家、AI 相关从业人员从一系列繁重的工作中解放出来,解决整个开发流程中长期以来面临的众多障碍和痛点,使大学从业人员可以“一边喝茶一边轻松搭建业务应用”。
此外,由于 Amazon SageMaker 大大降低了机器学习技术的使用门槛,很多缺少 AI 专业知识的人群也可以利用这套服务来创建 AI 应用。随着更多跨领域业务人员加入机器学习应用行业,这些非专业人员可以和专业人员合作,共同开发出更优秀的 AI 应用,解决更多实际业务问题。
本次盛会上,AWS 还发布了很多以“ML”为后缀的数据库服务,包括 Aurora ML、Athena ML、Redshift ML 等。吴老师介绍,这些服务就是将 AWS 的机器学习技术与原有的出色的数据库服务整合,帮助不熟悉机器学习领域知识的数据库从业人员轻松利用 ML 技术的种种便利。
例如,数据库从业人员可以在 SQL 上下文中调取 Aurora 数据库的信息,直接放进 Amazon SageMaker 的机器学习算法,分析数据本身存在的问题和见解。通过多种 ML 扩展,数据库从业者能够轻松调用后台的大量机器学习算法,无需复杂的机器学习应用构建流程。加入 ML 支持后,用户可以很方便地利用海量数据来搭建推荐算法等应用,快速变现数据价值,为业务带来更多动力。
Amazon Neptune ML:图数据库的 ML 进化
图数据库可以很方便地探索不同数据之间的关联关系,为推荐系统等应用提供数据基础。今年 6 月发布的 Amazon Neptune 就是 AWS 打造的图数据库服务,已经在社交关系图谱、知识图谱、用户画像等领域得到了很多应用实践。
刚刚发布的 Amazon Neptune ML 则在图数据库的基础上加入了 ML 功能。在 ML 技术的支持下,Neptune ML 数据库能够自动从海量数据中找出数据之间的图关系,为推荐系统等应用提供高质量的数据来源。Neptune ML 还在探索神经网络预测等应用,未来有希望可以取代很多传统的机器学习应用。
在本场大咖说的最后,吴老师还对机器学习未来的发展趋势发表了自己的一些看法。
吴老师认为,过去几年行业内的热门问题是深度学习框架,但随着 TensorFlow、PyTorch 和 MXNet 三大主流框架逐渐成熟,这一领域已经趋于稳定态势。目前新兴起的焦点领域是模型代码在不同架构设备上的优化,未来各大巨头都会在这方面持续投入,激烈角逐。
此外,业界也在持续呼唤和研发更强大的深度学习算法,解决自然语言处理等业务当前存在的问题。强化学习领域的机器人智能助理也得到了很多关注,也有可能会成为另一个热点趋势。
本届亚马逊 re:Invent 峰会将持续三周,InfoQ 大咖说也将全程关注。下一场大咖说直播会继续邀请 AWS 的老师,就如何构建真正的弹性架构分享深度见解。