岗位任职条件
1.工作经验:具有3年以上AI数据工程或数据集管理核心岗位经验优先,独立负责过至少1个千万级样本规模的多模态数据集从0到1的建设与持续运营优先。
2.能力要求:
(1)熟悉Git-LFS、DVC、DeltaLake或HuggingFacedatasets等数据版本管理方案;
(2)熟悉数据标注流程与质量控制体系,熟练运用LabelStudio、CVAT、Prodigy、ScaleAI、AmazonSageMakerGroundTruth等平台;
(3)熟悉自动化质检(IoU、一致性检验、黄金集、交叉验证等);
(4)熟悉数据合规与隐私保护,了解GDPR、CCPA、《个人信息保护法》等国内外法规,掌握数据脱敏、差分隐私、联邦学习、可信执行环境(TEE)等落地方法。