Job opportunities

companies
Jobs

大模型数据工程师 (J250328013)

Didi

Didi

Beijing, China
Posted on Apr 16, 2025
职位描述

1. 构建端到端的网页文本内容提取&分析系统,针对网络数据复杂性,从系统效率和模型效果角度持续优化网页内容提取算法,迭代线上生产标准;

2. 设计预训练数据全局质量优化和治理方案,优化数据采样策略、隐私保护和安全合规策略,提升基座模型训练效率和效果;

3. 深度参与和实现多模态(图文混合、语音等)交错数据处理pipline,通过数据分析和配比实验等手段,提升多模态数据质量和多样性,支撑多模态大模型的数据需求;

4. 跟进大模型数据领域前沿技术(如Data Influence、Curriculum Learning、数据合成、基于大模型的数据预处理等),推动数据驱动的模型性能突破;

5. 深度参与千亿级网页的大规模处理和万亿级token数据生产,通过分布式计算、模型量化及显存优化的方式提升数据处理和生产效率;

任职要求

1. 计算机科学、数据科学、自然语言处理等相关专业硕士及以上学历;

2. 扎实的编程功底,熟练掌握TensorFlow/PyTorch等深度学习框架,熟悉Python/C++等主流编程语言;

3. 熟练掌握大数据处理工具,如Spark、Flink、Ray等;了解GPU加速相关技术,具有良好的算法设计能力,能够从工程角度思考模型效果优化方案;

4. 熟悉大模型训练流程,熟悉Transformer模型结构,对GPTMoE/Qwen/Deepseek等模型架构和应用有比较深入理解;

5. 熟悉常用数据采集框架和工具库firecrawl,beautifulsoup,selenium, crawley使用;

6. 责任心强,积极主动,能独立思考,具有好奇心和快速学习能力,有良好的沟通能力和团队合作能力;