后训练算法工程师

大模型/Agent研究员职位详情【职位概述】我们在做面向 C端的 AI角色/陪伴产品（偏二次元与虚拟角色表达）。你将负责构建可落地的 Agent 系统，让角色在长对话中稳定保持人设与情绪、具备可控记忆与动态目标驱动，并在真实线上环境中优化端到端调用链路的延迟、成本与稳定性。同时你需要能基于业务数据对不同模型进行微调与对齐，持续提升角色的“好聊、像人、符合设定、可控且高效”。【岗位职责】 (Responsibilities) 1、Agent 系统构建与体验对齐设计并实现可上线的 Agent 架构：人格设定（persona）一致性、长期/短期记忆、情绪/状态机、动态目标（goal）与任务规划。让对话在“二次元角色扮演”语境下稳定：语气、口癖、世界观、关系线、边界尺度一致，并能在不同场景下自适应（撒娇/吐槽/安慰/日常/剧情推进等）。设计角色行为策略：工具调用、检索、反思/自检、对话安全边界、拒答与转移策略等。 2、工程化与性能优化（低延迟/高稳定）优化端到端链路：Prompt 编排、路由与模型选择、缓存策略、流式输出、并发与队列、超时与降级。关注线上核心指标：P95/P99延迟、对话时长、工具调用开销、成本/Token、成功率，并能通过策略与系统改造持续迭代。 3、数据与模型微调 (Fine-tuning / Alignment) 面向对话角色/二次元风格构建数据方案：清洗、去重、标注策略、偏好数据、负样本构造。能对不同模型进行微调与对齐：SFT、DPO/IPO/KTO（或同类偏好优化）、奖励建模/打分器、蒸馏等。支持多模型协作：主模型、轻量模型、reranker/评分器、语气/情绪分类器、记忆写入判别器等。【任职要求】（Requirements） 1. 扎实的 LLM/Agent 基础与落地能力：至少完整做过一个可用 Agent 系统（含记忆/目标/工具调用中的至少两项）。 2. 具备“内容感”和“角色感”：对二次元文化、角色塑造、对话节奏、梗与语境有理解，能判断“像不像这个角色”，而不是只看技术指标。 3. 有模型微调经验：能独立完成数据准备+训练＋评测＋部署迭代（至少熟悉 SFT，最好做过偏好优化如 DPO）。 4. 熟悉 PyTorch / Transformers 生态，能读代码、改训练、排查数值/性能问题。【加分项】 (Nice-to-have) 1. 做过低延迟在线推理系统：KV cache、speculativedecoding、batching、prefill/decoding 优化、服务端并发治理等。 2. 做过对话质量评测体系：自动评测（LLM-as-judge/规则+模型）、AB 实验、离线指标与线上指标联动。 3. 有多模态/语音/虚拟角色方向经验（TTS/ASR/语音情绪、角色驱动、多模态记忆等）。 4. 熟悉数据安全与合规、内容风控策略（角色扮演语境下的安全边界尤其重要）。多模态大模型训练研究员职位详情【项目介绍】我们致力于通过创新的AI技术推动3D虚拟人领域的变革，尤其聚焦于虚拟角色在娱乐、社交与陪伴等领域的深度应用！公司目前已获得国际顶级风投机构的数干万投资。创始团队汇聚了来自米哈游、字节跳动、叠纸、鹰角等国内外知名公司和高校人才。有丰富的AI、二次元、虚拟人行业相关的从业经历和技术积累。期待你是一位对AI虚拟人领域充满热情与期待，同时又富有创业激情的伙伴，与我们一同开创未来，携手并进！【岗位职责】 1. 预训练（Pretrain）：与3D动画研究员协作设计训练目标与数据配比策略，搭建并优化大规模训练流程，提升模型能力与泛化表现； 2. 后训练与对齐（Post-train / Alignment）：开展 SFT、偏好优化（DPO/IPO/ORPO 等）、奖励模型与对齐训练，提升指令遵循、稳定性与可用性； 3. 强化学习（RL）：将 PPO/GRPO 等方法应用于生成质量、可控性与安全性优化；设计 reward 与训练稳定策略（如 KL 约束、抑制 reward hacking 等）； 4. 数据闭环与评估：与数据团队协作构建高质量数据生产链路（采样、清洗、去重、标注/自动标注），建立离线评测与在线监控体系，推动持续迭代优化。【任职要求】 1、熟练使用 PyTorch，具备大模型训练经验（分布式DDP/FSDP/DeepSpeed 之一） 2，熟悉多模态训练常见范式：多编码器/融合、对齐训练、长序列训练，以及 loss/采样/调度等关键策略； 3具备 post-train/对齐实战经验：SFT+偏好优化（DPO/IPO/ORPO）或奖励模型/对齐训练之一； 4，具备良好的工程与实验能力：能够定位训练不稳定、质量退化、数据问题与系统瓶颈，并提出可落地的优化方案。【加分项】熟悉 3D 动画/表演数据或相关生产流程；了解二次元内容与审美表达。

职位描述