← Todas as vagas

SRE Sênior

Quem somos

📍 São Paulo/SPhibrido· CLT

Descrição da vaga

No Banco ABC Brasil, a gente acredita na autenticidade de cada um. Afinal, temos nosso jeito de fazer as coisas, de se relacionar, de transformar negócios e construir um futuro sustentável, de maneira inclusiva, respeitosa e acolhedora. Porque a gente se interessa genuinamente pelas pessoas e cria relações verdadeiras, com confiança e proximidade. Se você tem paixão por desafios e busca um ambiente onde possa crescer profissionalmente, com autonomia para tocar grandes projetos e sendo protagonista da sua carreira, aqui é o seu lugar! Com a gente, você vai ter oportunidade de atuar diariamente com especialistas do mercado financeiro e ter o acompanhamento e apoio de lideranças estratégicas para construir o seu futuro e contribuir para o nosso crescimento em conjunto.  A gente acredita que cuidar dos nossos colaboradores é o segredo do sucesso. Por isso, oferecemos:• Benefícios que fazem a diferença• Opções de desenvolvimento• Um ambiente que inspira Estamos em busca de um(a) SRE Sênior com perfil "mão na massa" para assumir a linha de frente da confiabilidade e estabilidade dos nossos sistemas mais críticos.Nesta posição, você será o(a) guardião(ã) e investigador(a) técnico (a) do nosso ecossistema. Você atuará na resolução de incidentes de altíssima complexidade em ambientes multi-cloud, com um protagonismo vital no troubleshooting avançado em nosso ambiente. Seu papel é dominar a operação de baixo nível, garantindo eficiência, segurança e disponibilidade pautadas na cultura SRE.Atuação no período das 14h às 23h.  Está pronto(a) para fazer parte de um time que transforma desafios em oportunidades? Vem com a gente!Responsabilidades e atribuiçõesGestão de Capacidade, Performance e Disponibilidade•      Planejar e ajustar continuamente a capacidade de recursos computacionais (compute, memoria, storage e rede) em AWS e on-premises, antecipando gargalos e evitando desperdício.•      Monitorar, analisar e otimizar a performance de serviços e infraestrutura, identificando degradações antes que impactem usuários finais (uso das metodologias USE e RED).•      Definir, implementar e manter SLOs, SLAs e error budgets, garantindo alta disponibilidade por meio de automações e runbooks bem documentados.•      Construir e manter controles automatizados que assegurem os KPIs de confiabilidade acordados com o negócio, com rastreabilidade e auditabilidade.Automações e Engenharia de Confiabilidade•      Criar e evoluir automações de operação — scaling reativo e preditivo, remediação automática, provisionamento zero-touch — reduzindo toil e aumentando resiliência.•      Gerenciar e otimizar clusters EKS: provisionamento, escalabilidade (HPA / VPA / Cluster Autoscaler / Karpenter), redes, storage e troubleshooting de workloads em produção.•      Garantir infraestrutura versionada, reprodutivel e auditavel.•      Realizar chaos engineering para validar resiliencia de sistemas (simulacao de falhas controladas, game days).Observabilidade•      Manter stacks completas de observabilidade: métricas, logs, tracing distribuído e alertas orientados a SLOs.•      Construir dashboards e alertas com Prometheus, Grafana e CloudWatch, com visibilidade de ponta a ponta sobre saúde da infraestrutura.FinOps e Gestão de Custos•      Aplicar conceitos e práticas de otimização de custos em cloud: rightsizing, reserved instances, savings plans e spot instances.•      Produzir relatórios e recomendações de redução de custos em AWS, utilizando AWS Cost Explorer, Kubecost ou equivalente.•      Implementar tagging e chargeback para visibilidade de custo por serviço, squad ou produto, promovendo cultura FinOps no time.Resposta a Incidentes e Lideranca Tecnica•      Atuar em escala de plantão (on-call), liderar resolução de incidentes de alta severidade e conduzir post-mortems sem cultura de culpa com action items concretos.•      Apoiar SREs, disseminando práticas de confiabilidade, observabilidade e cultura de engenharia de operações.•      Atuar como referência técnica para decisões de arquitetura de infraestrutura relacionadas a confiabilidade, capacidade e performance.•      Atuar com revisões técnicas de infraestrrutura com o time de engenharia cloud.Requisitos e qualificaçõesStack Tecnológica / Ferramentas EsperadasicosCloud AWS: EC2, Auto Scaling, EKS, Lambda, RDS/Aurora, S3 (lifecycle/tiers), EBS (gp3/io2), EFS/FSx, VPC, Transit Gateway, ALB/NLB, Route53, IAM/SCP, CloudWatch, AWS Backup Kubernetes / EKS: EKS, Helm, Kustomize, HPA, VPA, Cluster Autoscaler, Karpenter, Network Policies, CSI Drivers, Persistent Volumes, Istio ou Linkerd (desejavel)Storage — Cloud e On-prem: EBS (gp3/io2), EFS, FSx, S3 lifecycle, CSI Drivers, SAN/NAS/NFS on-premises, Ceph (desejavel), AWS Backup, Commvault. Infrastructure as Code: Terraform, Ansible, CloudFormationCI/CD e GitOps: GitHub Actions, Azure DevOps, ArgoCD, Flux Observabilidade: Prometheus, Grafana, Dynatrace ou Datadog, CloudWatch, Cloud trail.FinOps: AWS Cost Explorer, Rightsizing, Reserved Instances, Savings Plans, Spot Instances. On-Premises: VMware vSphere/ESXi, Bare-metal Linux (Ubuntu, RHEL), Redes corporativas (VLAN, BGP/OSPF básico), Dell EMC / HPE (desejavel)Linguagens / Scripting: Python, Bash/Shell. Seguranca (SRE-scope): IAM/SCP, RBAC no Kubernetes, Secrets Manager, Parameter Store, network policies.Competências Técnicas•      Experiencia solida em gestão de capacidade e performance em ambientes híbridos (cloud + on-premises) com responsabilidade comprovada por SLOs e KPIs.•      Domínio avançado de AWS: compute, storage, rede, IAM e serviços gerenciados em escala de producao.•      Kubernetes/EKS em produção: provisionamento, troubleshooting, scaling e storage com experiencia mínima de 4 anos.•      Terraform em nível produção: módulos, remote state, workspaces e reconciliacao de drift.•      Observabilidade de ponta a ponta: metricas, logs, tracing, alertas orientados a SLOs e criação de dashboards operacionais.•      Storage hibrido: domínio de tipos EBS, EFS, FSx em cloud e SAN/NAS/NFS on-premises, incluindo planejamento de IOPS e capacidade.•      Python ou Bash para automações e ferramentas internas.Diferenciais•      Experiencia multi-cloud (AWS + Azure ou AWS + GCP).•      Conhecimento em service mesh (Istio ou Linkerd) em produção.•      Experiencia com FinOps tools (Kubecost, CloudHealth, Spot.io).•      Participação em comunidades open source ou contribuições relevantes no GitHub.•      Experiencia com arquitetura orientada a eventos (Kafka/MSK, SQS/SNS) em contexto de SRE.Soft Skills•      Pensamento analítico orientado a dados, métricas e KPIs de confiabilidade.•      Comunicação clara e objetiva com equipes técnicas e stakeholders de negócio.•      Autonomia e proatividade em ambientes de alta complexidade e ambiguidade.•      Liderança técnica sem necessidade de autoridade formal — influência pelo conhecimento.•      Resiliência e foco sob pressão em situações de incidente crítico.•      Perfil colaborativo e disposição genuína para mentorear e disseminar conhecimento.CertificaçõesO candidato deve possuir ao menos uma certificação nas frentes de SRE e Cloud AWS. A ausência total de certificações em ambas as frentes, sem portfolio técnico solido comprovado, e fator eliminatório. A AWS Solutions Architect (Associate ou Professional) e o diferencial de maior peso dentro da frente cloud.AWS Solutions Architect Associate ou Professional - Diferencial forteAWS DevOps Engineer Professional - DiferencialAWS SysOps Administrator Associate - DiferencialCertified Kubernetes Administrator (CKA) - DiferencialCertified Kubernetes Application Developer (CKAD) - DiferencialHashiCorp Terraform Associate - DiferencialFormação Acadêmica•      Graduação em Ciência da Computação, Engenharia de Software, Engenharia de Redes ou áreas correlatas.•      Pós-graduação, MBA ou especializações técnicas reconhecidas são diferenciais.Informações adicionaisAssistência Médica;Assistência Odontológica Omint;Seguro de Vida;PLR;PPR;ABC com Você: um programa que cuida dos colaboradores e seus familiares, com assistência jurídica, social, psicológica e financeira;Vale Refeição;Vale Alimentação;Licença Paternidade e Maternidade estendidas: paternidade 20 dias e maternidade 6 meses;Auxílio Creche/Babá;Day Off anual;Auxílio Infraestrutura para Home Office;TotalPass;