岗位职责
根据业务需要,统筹硬件、系统软件、训练框架设计,以实现高效的大规模分布式训练平台。
1. 负责训练平台硬件选型和通信拓扑设计;
2. 负责海量训练数据存储、缓存、通信等系统软件架构搭建和优化;
3. 负责优化训练框架,尽可能高效发挥硬件和系统软件性能;
4. 负责开发通用的训练算法,如各类并行方式、优化算法、量化训练等。
岗位要求
1. 熟悉计算机体系结构和操作系统,对高性能计算有热情;
2. 熟悉分布式深度学习训练平台的原理、软硬件架构和性能优化;
3. 熟悉 PyTorch/TensorFlow 等训练框架的原理、软件架构;
4. 熟悉 MPI/NCCL 等分布式通信软件和 juicefs/seaweedfs 等高性能分布式文
件系统。
5. 具有一线互联网或 AI 公司系统框架架构或开发经验者优先;
6. 具有团队管理经验者优先。
地址:苏州合度信息科技有限公司 EMAIL:731317750@qq.com
Powered by PHPYun.