某头部私募量化公司
SRE Engineer
信息技术
数字技术
上海
3-5年
本科
¥40 - 50K14薪
职位描述
我们正在寻找一位经验丰富的 SRE 工程师,负责保障公司核心业务系统的稳定性、可用性与性能表现。 你将参与系统架构优化、自动化运维、故障排查、容量规划以及平台可靠性提升等工作,与开发、架构、运维团队紧密协作,共同构建高可靠、高可观测、高自动化的技术体系。
岗位职责
负责生产环境的 系统稳定性、可用性、性能优化与容量规划。
设计并实现 自动化运维工具,提升系统交付效率与可靠性。
构建并维护 监控、日志、告警体系,提升可观测性与问题定位效率。
参与 重大事件(Incident) 的响应、排查、根因分析(RCA)与改进措施制定。
与开发团队协作,推动 DevOps / CI/CD 流程落地,提升交付质量。
优化系统架构,提升可扩展性、容错能力与恢复能力。
参与 容量规划、性能测试、压力测试,确保系统在高负载下稳定运行。
推动 SLO/SLI/SLA 的制定与落地,持续提升服务可靠性。
编写技术文档、运行手册、应急预案,提升团队整体效率。
职位要求
任职要求
技术能力
熟悉 Linux 系统管理与性能调优。
熟悉至少一种云平台(如 Azure / AWS / GCP),具备云上架构与运维经验。
熟悉容器技术(Docker、Kubernetes),具备生产环境 K8s 运维经验优先。
熟悉常见监控体系(Prometheus、Grafana、ELK、Zabbix 等)。
熟悉脚本语言(Python / Shell / Go 任一即可)。
熟悉网络基础(TCP/IP、DNS、负载均衡、VPC/VNet)。
有 CI/CD、自动化运维、基础设施即代码(Terraform/Ansible)经验者优先。
经验要求
3 年以上 SRE / DevOps / 系统运维 / 云平台运维相关经验。
有处理生产环境故障、关键事件的经验。
有大规模分布式系统、微服务架构经验者优先。
软技能
具备优秀的问题分析能力与故障排查能力。
良好的沟通能力,能与开发、架构、产品团队协作。
强烈的责任心与主人翁意识,愿意推动系统持续改进。
加分项(可选)
有 云网络架构 经验
有高可用架构设计经验
有大型互联网或云厂商背景
有参与 On-call 值班经验
有自动化平台开发经验
咨询顾问
Cassie Lin
Section Manager行业经理
分享