Coordenador(a) de DevOps & SRE

Grupo Pernambucanas

📍 São Paulo/SPhibrido

Descrição da vaga

No Grupo Pernambucanas, nossa área de Plataforma & Infraestrutura é o motor que suporta a Pefisa (nossa fintech) e todas as operações de tecnologia do varejo.

Procuramos uma liderança técnica com perfil hands-on para assumir a cadeira de Coordenador de DevOps & SRE. Nesta posição, você não fará apenas gestão pura: você será a referência técnica dedicada a produzir, revisar e decidir com base em evidências, tratando a nossa plataforma como um produto interno para os nossos squads de produto.

🎯 O que você vai fazer (Responsabilidades)

SLOs e Confiabilidade: Definir e monitorar SLOs com os squads de produto, utilizando error budgets ativamente para decisões de prioridade e controle de velocity de release.
Gerenciamento de Incidentes: Liderar war rooms em incidentes críticos ($P1/P2$) do início ao fim (triagem, diagnóstico, resolução) e conduzir post-mortems sem culpa (5-whys).
Infraestrutura Cloud & Kubernetes: Operar e garantir a escalabilidade, saúde e segurança de clusters GKE (Google Kubernetes Engine) em produção, além de manter visão sobre workloads AWS e Azure.
CI/CD & GitOps: Projetar e evoluir pipelines Cloud Build + ArgoCD com quality gates obrigatórios (SonarQube, scan de imagem, smoke test) e definir estratégias de rollout (canary, blue/green).
Infrastructure as Code (IaC): Estruturar e manter módulos Terraform para ambientes GCP multi-projeto, gerenciando remote state, drift detection e policy as code.
Observabilidade & DevSecOps: Garantir a prontidão de produção com logs estruturados, traces via OpenTelemetry, alertas no Datadog/Grafana e integrar ferramentas de segurança (SAST, Trivy, Secret Manager) sem criar atrito no fluxo.
Desenvolvimento do Time: Atuar na mentoria estruturada do time (profissionais internos e consultores), aplicar code review como ferramenta de ensino e organizar uma escala de on-call sustentável.

Essenciais (Inegociáveis):

GCP & GKE: Operação real de cluster em produção (troubleshooting, HPA, PDB, networking, node pools, Workload Identity).
Kubernetes Avançado: Domínio sobre ciclo de vida de workloads, RBAC, Network Policies e Admission Controllers.
Ferramentas de CI/CD, GitOps e IaC: ArgoCD, Cloud Build (ou GitHub Actions/GitLab CI) e Terraform (módulos com versionamento semântico e gerenciamento de estados).
Observabilidade e SRE: Datadog e Grafana (dashboards, monitores, SLO tracking) e domínio conceitual e prático de SRE (SLI/SLO/SLA).
DevSecOps & Incidentes: Experiência com SAST (SonarQube), scan de imagens e gestão de crises/incidentes.
Scripting: Python e/ou Shell script para automação.

Desejáveis:

Conhecimento multicloud em serviços equivalentes na AWS (EKS, S3, IAM) e Azure (AKS, Azure AD).
Criação e manutenção de charts Helm.
Instrumentação de serviços com OpenTelemetry.
Experiência com API Gateways (Apigee X/Edge e/ou Kong).
Linguagem Go para automações.
Certificações ativas: CKA, Google Cloud Professional Cloud Architect, AWS Solutions Architect ou AZ-104.

Formação e Experiência Requerida

Graduação: Ensino superior completo em Ciência da Computação, Engenharia de Software, Sistemas de Informação ou áreas correlatas (Pós-graduação é um diferencial).
Tempo de Carreira: Mínimo de 6 anos de experiência em DevOps/SRE/Infraestrutura, sendo pelo menos 2 anos em papéis de coordenação ou liderança técnica de times.
Vivência de Mercado: Experiência prévia em ambientes de alta disponibilidade, lidando com sistemas financeiros ou e-commerce de grande volume (transações críticas).
Idioma: Inglês intermediário a avançado para leitura de documentações técnicas e contato com fornecedores.

Mais vagas em São Paulo

Todas as vagas em São Paulo/SP →Vagas em São Paulo →