9.deepLearning
9.DeepLearning深度学习
三 基础
七 未整理
1 未整理
第三代参数服务器框架
就是作为一个通用大规模机器学习框架来定位的,百度少帅李沐总结了几点(具体可阅读沐帅的博士论文和相关发表的论文): 1. 高效的网络通信:因为不管是模型还是样本都十分巨大,因此对网络通信的高效支持以及高配的网络设备都是大规模机器学习系统不可缺少的; 2. 灵活的一致性模型:不同的一致性模型其实是在模型收敛速度和集群计算量之间做 tradeoff;要理解这个概念需要对模型性能的评价做些分析,暂且留到下节再介绍。 3. 弹性可扩展:显而易见 4. 容灾容错:大规模集群协作进行计算任务的时候,出现 Straggler 或者机器故障是非常常见的事,因此系统设计本身就要考虑到应对;没有故障的时候,也可能因为对任务时效性要求的变化而随时更改集群的机器配置。这也需要框架能在不影响任务的情况下能做到机器的热插拔。 5. 易用性:主要针对使用框架进行算法调优的工程师而言,显然,一个难用的框架是没有生命力的。
Last updated
Was this helpful?