小叽导读:在解决实际问题的时候,很多人认为只要有机器学习算法就可以了,实际上要把一个算法落地还需要解决很多工程上的难题。本文将和大家分享如何从零开始搭建一个GPU加速的分布式机器学习系统,介绍在搭建过程中遇到的问题和解决方法。
一 背景
在云计算环境下,虚拟机的负载均衡、自动伸缩、绿色节能以及宿主机升级等需求使得摩登7需要利用虚拟机(VM)迁移技术,尤其是虚拟机热迁移技术,对于down time(停机时间)要求比较高,停机时间越短,客户业务中断时间就越短,影响就越小。如果能够根据VM的历史工作负载预测其未来的工作负载趋势,就能够寻找到最合适的时间窗口完成虚拟机热迁移的操作。
于是摩登7开始探索如何用机器学习算法预测ECS虚拟机的负载以及热迁移的停机时间,但是机器学习算法要在生产环境发挥作用,还需要很多配套系统去支持。为了能快速将现有算法在实际生产环境落地,并能利用GPU加速实现大规模计算,摩登7自己搭建了一个GPU加速的大规模分布式机器学习系统,取名小诸葛,作为ECS数据中台的异构机器学习算法加速引擎。搭载以上算法的小诸葛已经在生产环境上线,支撑阿里云全网规模的虚拟机的大规模热迁移预测。
二 方案
那么一套完整大规模分布式系统机器学习系统需要哪些组成部分呢?
1 总体架构
阿里云全网如此大规模的虚拟机数量,要实现24小时之内完成预测,需要在端到端整个流程的每一个环节做优化。所以这必然是一个复杂的工程实现,为了高效的搭建这个平台,大量使用了现有阿里云上的产品服务来搭建。
整个平台包含:Web服务、MQ消息队列、Redis数据库、SLS/MaxComputer/HybridDB数据获取、OSS模型仓库的上传下载、GPU云服务器、DASK分布式框架、RAPIDS加速库。
1)架构
下图是小诸葛的总体架构图。
资料获取 | |
新闻资讯 | |
== 资讯 == | |
» 人形机器人未来3-5年能够实现产业化的方 | |
» 导诊服务机器人上岗门诊大厅 助力医院智慧 | |
» 山东省青岛市政府办公厅发布《数字青岛20 | |
» 关于印发《青海省支持大数据产业发展政策措 | |
» 全屋无主灯智能化规范 | |
» 微波雷达传感技术室内照明应用规范 | |
» 人工智能研发运营体系(ML0ps)实践指 | |
» 四驱四转移动机器人运动模型及应用分析 | |
» 国内细分赛道企业在 AIGC 各应用场景 | |
» 国内科技大厂布局生成式 AI,未来有望借 | |
» AIGC领域相关初创公司及业务场景梳理 | |
» ChatGPT 以 GPT+RLHF 模 | |
» AIGC提升文字 图片渗透率,视频 直播 | |
» AI商业化空间前景广阔应用场景丰富 | |
» AI 内容创作成本大幅降低且耗时更短 优 | |
== 机器人推荐 == | |
服务机器人(迎宾、讲解、导诊...) |
|
消毒机器人排名 移动消毒机器人 导览机器人 |