AI科技公司
后训练算法工程师
信息技术
科技
上海
3-5年
本科
¥50 - 70K17薪
职位描述
大模型/Agent研究员
职位详情
【职位概述】
我们在做面向 C端的 AI角色/陪伴产品(偏二次元与虚拟角色表达)。你将负责构建可落地的 Agent 系统,让角色在长对话中稳定保持人设与情绪、具备可控记忆与动态目标驱动,并在真实线上环境中优化端到端调用链路的延迟、成本与稳定性。同时你需要能基于业务数据对不同模型进行微调与对齐,持续提升角色的“好聊、像人、符合设定、可控且高效”。
【岗位职责】
(Responsibilities)
1、Agent 系统构建与体验对齐
设计并实现可上线的 Agent 架构:人格设定(persona)一致性、长期/短期记忆、情绪/状态机、动态目标(goal)与任务规划。
让对话在“二次元角色扮演”语境下稳定:语气、口癖、世界观、关系线、边界尺度一致,并能在不同场景下自适应(撒娇/吐槽/安慰/日常/剧情推进等)。
设计角色行为策略:工具调用、检索、反思/自检、对话安全边界、拒答与转移策略等。
2、工程化与性能优化(低延迟/高稳定)
优化端到端链路:Prompt 编排、路由与模型选择、缓存策略、流式输出、并发与队列、超时与降级。
关注线上核心指标:P95/P99延迟、对话时长、工具调用开销、成本/Token、成功率,并能通过策略与系统改造持续迭代。
3、数据与模型微调
(Fine-tuning / Alignment)
面向对话角色/二次元风格构建数据方案:清洗、去重、标注策略、偏好数据、负样本构造。
能对不同模型进行微调与对齐:SFT、DPO/IPO/KTO(或同类偏好优化)、奖励建模/打分器、蒸馏等。
支持多模型协作:主模型、轻量模型、reranker/评分器、语气/情绪分类器、记忆写入判别器等。
【任职要求】(Requirements)
1. 扎实的 LLM/Agent 基础与落地能力:至少完整做过一个可用 Agent 系统(含记忆/目标/工具调用中的至少两项)。
2. 具备“内容感”和“角色感”:对二次元文化、角色塑造、对话节奏、梗与语境有理解,能判断“像不像这个角色”,而不是只看技术指标。
3. 有模型微调经验:能独立完成数据准备+训练+评测+部署迭代(至少熟悉 SFT,最好做过偏好优化如 DPO)。
4. 熟悉 PyTorch / Transformers 生态,能读代码、改训练、排查数值/性能问题。
【加分项】
(Nice-to-have)
1. 做过低延迟在线推理系统:KV cache、speculativedecoding、batching、prefill/decoding 优化、服务端并发治理等。
2. 做过对话质量评测体系:自动评测(LLM-as-judge/规则+模型)、AB 实验、离线指标与线上指标联动。
3. 有多模态/语音/虚拟角色方向经验(TTS/ASR/语音情绪、角色驱动、多模态记忆等)。
4. 熟悉数据安全与合规、内容风控策略(角色扮演语境下的安全边界尤其重要)。
多模态大模型训练研究员
职位详情
【项目介绍】
我们致力于通过创新的AI技术推动3D虚拟人领域的变革,尤其聚焦于虚拟角色在娱乐、社交与陪伴等领域的深度应用!
公司目前已获得国际顶级风投机构的数干万投资。创始团队汇聚了来自米哈游、字节跳动、叠纸、鹰角等国内外知名公司和高校人才。有丰富的AI、二次元、虚拟人行业相关的从业经历和技术积累。
期待你是一位对AI虚拟人领域充满热情与期待,同时又富有创业激情的伙伴,与我们一同开创未来,携手并进!
【岗位职责】
1. 预训练(Pretrain):与3D动画研究员协作设计训练目标与数据配比策略,搭建并优化大规模训练流程,提升模型能力与泛化表现;
2. 后训练与对齐(Post-train / Alignment):开展 SFT、偏好优化(DPO/IPO/ORPO 等)、奖励模型与对齐训练,提升指令遵循、稳定性与可用性;
3. 强化学习(RL):将 PPO/GRPO 等方法应用于生成质量、可控性与安全性优化;设计 reward 与训练稳定策略(如 KL 约束、抑制 reward hacking 等);
4. 数据闭环与评估:与数据团队协作构建高质量数据生产链路(采样、清洗、去重、标注/自动标注),建立离线评测与在线监控体系,推动持续迭代优化。
【任职要求】
1、熟练使用 PyTorch,具备大模型训练经验(分布式DDP/FSDP/DeepSpeed 之一)
2,熟悉多模态训练常见范式:多编码器/融合、对齐训练、长序列训练,以及 loss/采样/调度等关键策略;
3具备 post-train/对齐 实战经验:SFT+偏好优化(DPO/IPO/ORPO)或奖励模型/对齐训练之一;
4,具备良好的工程与实验能力:能够定位训练不稳定、质量退化、数据问题与系统瓶颈,并提出可落地的优化方案。
【加分项】
熟悉 3D 动画/表演数据 或相关生产流程;了解二次元内容与审美表达。
分享