Devops/SRE

我们正在寻找一位经验扎实的 DevOps / SRE 工程师，加入我们的核心工程团队，负责构建高可靠、高性能、高自动化的云原生基础设施。你将与后端、客户端、平台工程团队紧密合作，确保产品在全球范围内稳定运行，并持续提升系统的可观测性、可扩展性与工程效率。岗位职责一、平台可靠性（Reliability）负责生产环境的系统稳定性、可用性、性能优化与容量规划参与重大事件（Incident）的响应、排查、根因分析（RCA）与改进措施制定推动 SLO/SLI/SLA 的制定与落地，持续提升服务可靠性二、自动化与工程效率（Automation & DevOps）设计并实现自动化运维工具，提高部署、扩容、恢复效率构建并维护 CI/CD 流程，提升交付速度与质量推动基础设施即代码（IaC），使用 Terraform/Ansible 等工具管理环境三、云平台与基础设施（Cloud & Infra）管理和优化云平台（如 Azure / AWS / GCP）上的服务负责容器平台（Docker / Kubernetes）的部署、运维与性能调优参与网络、存储、负载均衡、边缘节点等基础设施设计与优化四、可观测性（Observability）构建并维护监控、日志、追踪体系（Prometheus / Grafana / ELK / OpenTelemetry）提升系统可观测性，缩短故障定位时间设计告警策略，减少噪音并提升告警质量五、工程协作（Collaboration）与开发团队合作，推动可运维性（Operability）设计参与架构评审，提供可靠性与可扩展性建议编写运行手册、应急预案、技术文档

任职要求技术能力熟悉 Linux 系统管理与性能调优熟悉至少一种云平台（Azure / AWS / GCP）熟悉 Kubernetes、Docker 等容器技术熟悉 CI/CD 工具链（GitHub Actions / GitLab CI / Jenkins 等）熟悉脚本语言（Python / Shell / Go 任一即可）熟悉网络基础（TCP/IP、DNS、负载均衡、VPC/VNet）熟悉基础设施即代码（Terraform/Ansible）经验要求 3 年以上 DevOps / SRE / 平台工程相关经验有处理生产环境故障、关键事件的经验有高并发、分布式系统经验者优先有 SaaS 产品或移动应用后台经验者优先软技能优秀的问题分析能力与故障排查能力良好的沟通能力，能与开发、产品、平台团队协作强烈的责任心与主人翁意识，愿意推动系统持续改进加分项（可选）有云原生架构经验有 Serverless、边缘计算经验有安全（DevSecOps）经验有全球化产品运维经验

职位描述

职位要求

Cassie Lin