某快速发展的AI公司
Devops/SRE
信息技术
数字技术
上海
3-5年
本科
¥40 - 50K14薪
职位描述
我们正在寻找一位经验扎实的 DevOps / SRE 工程师,加入我们的核心工程团队,负责构建高可靠、高性能、高自动化的云原生基础设施。 你将与后端、客户端、平台工程团队紧密合作,确保产品在全球范围内稳定运行,并持续提升系统的可观测性、可扩展性与工程效率。岗位职责一、平台可靠性(Reliability) 负责生产环境的 系统稳定性、可用性、性能优化与容量规划 参与重大事件(Incident)的响应、排查、根因分析(RCA)与改进措施制定 推动 SLO/SLI/SLA 的制定与落地,持续提升服务可靠性 二、自动化与工程效率(Automation & DevOps) 设计并实现自动化运维工具,提高部署、扩容、恢复效率 构建并维护 CI/CD 流程,提升交付速度与质量 推动基础设施即代码(IaC),使用 Terraform/Ansible 等工具管理环境 三、云平台与基础设施(Cloud & Infra) 管理和优化云平台(如 Azure / AWS / GCP)上的服务 负责容器平台(Docker / Kubernetes)的部署、运维与性能调优 参与网络、存储、负载均衡、边缘节点等基础设施设计与优化 四、可观测性(Observability) 构建并维护监控、日志、追踪体系(Prometheus / Grafana / ELK / OpenTelemetry) 提升系统可观测性,缩短故障定位时间 设计告警策略,减少噪音并提升告警质量 五、工程协作(Collaboration) 与开发团队合作,推动可运维性(Operability)设计 参与架构评审,提供可靠性与可扩展性建议 编写运行手册、应急预案、技术文档
职位要求
任职要求技术能力 熟悉 Linux 系统管理与性能调优 熟悉至少一种云平台(Azure / AWS / GCP) 熟悉 Kubernetes、Docker 等容器技术 熟悉 CI/CD 工具链(GitHub Actions / GitLab CI / Jenkins 等) 熟悉脚本语言(Python / Shell / Go 任一即可) 熟悉网络基础(TCP/IP、DNS、负载均衡、VPC/VNet) 熟悉基础设施即代码(Terraform/Ansible) 经验要求 3 年以上 DevOps / SRE / 平台工程相关经验 有处理生产环境故障、关键事件的经验 有高并发、分布式系统经验者优先 有 SaaS 产品或移动应用后台经验者优先 软技能 优秀的问题分析能力与故障排查能力 良好的沟通能力,能与开发、产品、平台团队协作 强烈的责任心与主人翁意识,愿意推动系统持续改进 加分项(可选) 有 云原生架构 经验 有 Serverless、边缘计算经验 有安全(DevSecOps)经验 有全球化产品运维经验
咨询顾问
Cassie Lin
Section Manager行业经理
分享