AI Infra工程师
工作职责:
1.LLM训练基础设施设计与优化
2.分布式训练与性能调优
3.底层算子与编译优化
4.工具链与平台开发
技能要求:
1.精通Python/C++,熟悉Linux系统内核调优及Shell脚本开发
2.深入理解分布式训练框架(DeepSpeed/Megatron-LM、PyTorchFSDP)具备千卡级集群调试经验
3.掌握容器化技术(Docker/Kubernetes)及云计算平台(AWS/Azure)的算力调度方案
4.熟悉LLM训练全流程,包括数据并行策略、LORA微调、MOE架构实现等
5.具备硬件感知优化能力,如GPU显存碎片整理、NVLink拓扑感知任务调度
6.了解RDMA/InfiniBand高速网络协议及通信库(MPI/NCCL)的底层原理