|
|
|
|
职位描述 用小程序查看更多 |
|
职责描述
1、负责大语言模型(LLM)或多模态大模型的研发、优化及落地应用,包括但不限于模型架构设计、预训练、微调、推理加速等。
探索大模型的前沿技术(如RLHF、MoE、长上下文处理、Agent框架等),提升模型在特定场景(搜索、对话、代码生成等)的性能。
2、针对业务需求,设计高效的Prompt工程、模型微调或蒸馏方案,解决实际场景中的效果与效率问题。
3、参与大模型相关基础设施的建设,如分布式训练框架、高性能推理引擎、数据 pipeline 等。
4、跟踪学术界与工业界最新进展,推动技术创新和专利/论文产出。
任职要求
熟练掌握深度学习框架(PyTorch/TensorFlow/JAX)
深入理解Transformer、BERT、GPT等架构,熟悉大模型关键技术
具备扎实的编程能力(Python/C++),熟悉Linux开发环境和高性能计算(GPU/TPU)。
强烈的自驱力、优秀的解决问题能力,对AI技术商业化落地有热情。
有rag相关项目经历优先
|
|
|
|
|
|
|