Coordenador(a) de DevOps & SRE
Grupo Pernambucanas
Descrição da vaga
No Grupo Pernambucanas, nossa área de Plataforma & Infraestrutura é o motor que suporta a Pefisa (nossa fintech) e todas as operações de tecnologia do varejo.
Procuramos uma liderança técnica com perfil hands-on para assumir a cadeira de Coordenador de DevOps & SRE. Nesta posição, você não fará apenas gestão pura: você será a referência técnica dedicada a produzir, revisar e decidir com base em evidências, tratando a nossa plataforma como um produto interno para os nossos squads de produto.
🎯 O que você vai fazer (Responsabilidades)
- SLOs e Confiabilidade: Definir e monitorar SLOs com os squads de produto, utilizando error budgets ativamente para decisões de prioridade e controle de velocity de release.
- Gerenciamento de Incidentes: Liderar war rooms em incidentes críticos ($P1/P2$) do início ao fim (triagem, diagnóstico, resolução) e conduzir post-mortems sem culpa (5-whys).
- Infraestrutura Cloud & Kubernetes: Operar e garantir a escalabilidade, saúde e segurança de clusters GKE (Google Kubernetes Engine) em produção, além de manter visão sobre workloads AWS e Azure.
- CI/CD & GitOps: Projetar e evoluir pipelines Cloud Build + ArgoCD com quality gates obrigatórios (SonarQube, scan de imagem, smoke test) e definir estratégias de rollout (canary, blue/green).
- Infrastructure as Code (IaC): Estruturar e manter módulos Terraform para ambientes GCP multi-projeto, gerenciando remote state, drift detection e policy as code.
- Observabilidade & DevSecOps: Garantir a prontidão de produção com logs estruturados, traces via OpenTelemetry, alertas no Datadog/Grafana e integrar ferramentas de segurança (SAST, Trivy, Secret Manager) sem criar atrito no fluxo.
- Desenvolvimento do Time: Atuar na mentoria estruturada do time (profissionais internos e consultores), aplicar code review como ferramenta de ensino e organizar uma escala de on-call sustentável.
Essenciais (Inegociáveis):
- GCP & GKE: Operação real de cluster em produção (troubleshooting, HPA, PDB, networking, node pools, Workload Identity).
- Kubernetes Avançado: Domínio sobre ciclo de vida de workloads, RBAC, Network Policies e Admission Controllers.
- Ferramentas de CI/CD, GitOps e IaC: ArgoCD, Cloud Build (ou GitHub Actions/GitLab CI) e Terraform (módulos com versionamento semântico e gerenciamento de estados).
- Observabilidade e SRE: Datadog e Grafana (dashboards, monitores, SLO tracking) e domínio conceitual e prático de SRE (SLI/SLO/SLA).
- DevSecOps & Incidentes: Experiência com SAST (SonarQube), scan de imagens e gestão de crises/incidentes.
- Scripting: Python e/ou Shell script para automação.
Desejáveis:
- Conhecimento multicloud em serviços equivalentes na AWS (EKS, S3, IAM) e Azure (AKS, Azure AD).
- Criação e manutenção de charts Helm.
- Instrumentação de serviços com OpenTelemetry.
- Experiência com API Gateways (Apigee X/Edge e/ou Kong).
- Linguagem Go para automações.
- Certificações ativas: CKA, Google Cloud Professional Cloud Architect, AWS Solutions Architect ou AZ-104.
Formação e Experiência Requerida
- Graduação: Ensino superior completo em Ciência da Computação, Engenharia de Software, Sistemas de Informação ou áreas correlatas (Pós-graduação é um diferencial).
- Tempo de Carreira: Mínimo de 6 anos de experiência em DevOps/SRE/Infraestrutura, sendo pelo menos 2 anos em papéis de coordenação ou liderança técnica de times.
- Vivência de Mercado: Experiência prévia em ambientes de alta disponibilidade, lidando com sistemas financeiros ou e-commerce de grande volume (transações críticas).
- Idioma: Inglês intermediário a avançado para leitura de documentações técnicas e contato com fornecedores.
