职位信息
任职要求
1.本科及以上学历,计算机科学、软件工程、人工智能或相关专业 2.3年以上通讯库测试相关经验 3.熟练掌握C/C++,具备良好的代码风格和调试能力;熟悉Python或其他脚本语言,能够快速开发自动化测试脚本。 4.熟悉HIP(HeterogeneousInterfaceforPortability)或CUDA编程模型;对常见通信算法(如AllReduce、Broadcast、Scatter/Gather等)有深入理解。 5.熟悉自动化测试框架(如GTest、Catch2)和持续集成工具;有性能测试工具(如ROCProfiler、NVIDIANsight、gprof)的使用经验。 6.团队协作:具备良好的沟通能力和团队合作精神,能够与跨职能团队高效协作。 7.具备较强的逻辑思维能力,能够快速定位和解决问题。 8.对新技术充满热情,能够快速学习并应用于实际工作中。 岗位经验: 有RCCL/NCCL/HCCL的使用经验者优先。 参与过开源项目或贡献过代码者优先。 具备机器学习或深度学习框架(如PyTorch、TensorFlow)的实际使用经验优先。
岗位职责
负责设计、开发和执行针对AMDGPU集合通信库(RCCL)的测试框架和工具,确保其在多GPU和多节点环境下的性能、稳定性和可靠性。与软、硬件研发团队紧密合作,推动RCCL在深度学习训练、科学计算等领域的应用 岗位职责: 1.使用性能分析工具(如ROCProfiler、rocprof)对RCCL进行性能调优;分析瓶颈并提出改进建议,确保RCCL在大规模集群中的高效运行。 2.开发针对多GPU和多节点集群的分布式测试用例;编写和维护单元测试、集成测试和系统测试用例;确保测试覆盖率满足项目需求,并持续改进测试流程。 3.调试和定位RCCL在实际应用场景中的问题,包括但不限于性能下降、死锁、数据不一致等;提供详细的错误报告,并与开发团队协作解决问题。 4.撰写测试计划、测试报告和技术文档,确保测试过程可追溯且易于理解。5.跟踪业界最新动态,研究新的测试方法和技术,提升团队整体技术水平。
福利待遇
五险一金、补充医疗保险、定期体检、年终奖、带薪年假、员工旅游、餐补、节日福利、五险一金、补充医疗保险、定期体检、年终奖、带薪年假、员工旅游、餐补、节日福利