SRE Pleno (Tarde/Noite)

Quem somos

📍 São Paulo/SPhibrido· CLT

Descrição da vaga

No Banco ABC Brasil, a gente acredita na autenticidade de cada um. Afinal, temos nosso jeito de fazer as coisas, de se relacionar, de transformar negócios e construir um futuro sustentável, de maneira inclusiva, respeitosa e acolhedora. Porque a gente se interessa genuinamente pelas pessoas e cria relações verdadeiras, com confiança e proximidade. Se você tem paixão por desafios e busca um ambiente onde possa crescer profissionalmente, com autonomia para tocar grandes projetos e sendo protagonista da sua carreira, aqui é o seu lugar! Com a gente, você vai ter oportunidade de atuar diariamente com especialistas do mercado financeiro e ter o acompanhamento e apoio de lideranças estratégicas para construir o seu futuro e contribuir para o nosso crescimento em conjunto. A gente acredita que cuidar dos nossos colaboradores é o segredo do sucesso. Por isso, oferecemos:• Benefícios que fazem a diferença• Opções de desenvolvimento• Um ambiente que inspira Buscamos um(a) SRE Pleno com foco em operação de ambientes híbridos (cloud multicloud e on-premises) para atuar como ponto de referência no acompanhamento contínuo de alertas de infraestrutura e requisições. O profissional será responsável por garantir a saúde operacional dos ambientes, atuando proativamente na resolução de ocorrências. Terá visão ampla do ambiente, operando com AWS, Azure, GCP, infraestrutura on-premises com VMware, Kubernetes, Linux, Windows Server e ferramentas de observabilidade.Responsabilidades e atribuiçõesResponsabilidades PrincipaisGestão de Incidentes• Atuar como ponto de primeira resposta (N1/N2) no atendimento de incidentes em ambientes cloud (AWS, Azure, GCP) e on-premises, realizando triagem, classificação por severidade e registro formal seguindo ITIL.• Executar diagnostico inicial de incidentes, investigando causa-raiz com base em logs, métricas e eventos de observabilidade (Zabbix, Grafana, CloudWatch e Dynatrace).• Acionar e escalar corretamente para N2/N3 quando o incidente ultrapassar o escopo de atuação do nível, garantindo repasse preciso de informações e contexto.• Documentar todos os incidentes com fidelidade: sintomas, ações tomadas, resolução, tempo de recuperação e lições aprendidas, alimentando a base de conhecimento da equipe.• Participar da escala de plantão (on-call), garantindo cobertura e tempo de resposta dentro dos SLAs estabelecidos.Monitoramento e Acompanhamento de Alertas• Realizar o acompanhamento contínuo dos dashboards e alertas de infraestrutura, agindo proativamente antes que degradações se tornem incidentes críticos.• Investigar alertas de capacidade, performance, disponibilidade e storage em ambientes cloud (AWS, Azure, GCP) e on-premises, tomando as ações corretivas necessárias ou escalando com contexto completo.• Configurar e ajustar thresholds de alertas em Zabbix, Grafana e CloudWatch para reduzir falsos positivos e aumentar precisão do monitoramento.• Manter visibilidade sobre a saúde dos clusters Kubernetes (EKS, AKS), pods, nodes e serviços, identificando e tratando instabilidades antes do impacto.Gestão de Requisições• Atender requisições de infraestrutura (provisionamento, ajuste de recursos, criação de acessos, configurações) dentro dos prazos e padrões estabelecidos.• Executar tarefas operacionais de rotina: patches, backups, verificação de capacidade, limpeza de recursos obsoletos e atualização de inventario.• Documentar todas as requisições e ações executadas no sistema ITSM, garantindo rastreabilidade completa.Execução de GMUD — Gestão de Mudanças (ITIL)• Planejar, documentar e executar GMUDs (Gestão de Mudanças) em ambientes de produção, seguindo o processo de Change Management do framework ITIL.• Elaborar planos de mudança completos: escopo, janela de manutenção, plano de rollback, lista de impactos e critérios de sucesso.• Apresentar e defender mudanças no CAB (Change Advisory Board) quando aplicável, com clareza sobre riscos e mitigações.• Executar mudanças em janelas programadas, comunicando status em tempo real aos stakeholders e realizando verificação pós-mudança de saúde do ambiente.Operação de Infraestrutura Cloud e On-Premises• Operar e manter ambientes em AWS, Azure e GCP: provisionamento, monitoramento, ajuste de recursos e suporte a workloads em produção.• Administrar infraestrutura on-premises: servidores VMware vSphere/ESXi, redes corporativas, storage e serviços Windows Server e Linux.• Operar workloads em Kubernetes (EKS, AKS): verificação de saúde de pods, services e deployments; análise de logs e eventos de cluster; escalada de problemas de containers.• Apoiar práticas básicas de FinOps: identificar recursos ociosos, sinalizar oportunidades de rightsizing e contribuir com relatórios de uso e custo.Requisitos e qualificaçõesColoque os requisitos que você gostaria que o perfil da pessoa candidata possua e que se encaixe com o que a área precisa/espera.Stack Tecnológica / Ferramentas EsperadasCloud AWS: EC2, Auto Scaling, EKS, S3, EBS, EFS, VPC, IAM/SCP, CloudWatch, Route53, ALB/NLBCloud Azure: Virtual Machines, Blob Storage, Azure AD / Entra ID, NSG, Resource Groups, Azure DevOpsKubernetes / Containers: EKS, AKS, Docker, Helm (leitura e operação), kubectl, logs e eventos de clusterStorage — Cloud e On-prem: EBS, EFS, S3 lifecycle, SAN/NAS/NFS on-premises, AWS Backup ou equivalente, planejamento básico de IOPS e capacidadeObservabilidade: Zabbix, Grafana, Prometheus (consulta), CloudWatch, ELK Stack (leitura de logs), Dynatrace.On-Premises: VMware vSphere/ESXi, Bare-metal Linux (Ubuntu, RHEL), Windows Server, Redes corporativas (VLAN, DNS, DHCP, VPN, firewalls)Identidade e Acesso: Active Directory (AD DS, GPO, DNS, DHCP), Azure AD / Entra ID, IAM AWSITSM e ITIL: Jira Service Management ou equivalente; processos ITIL: Incident, Change, Request ManagementLinguagens / Scripting: Bash/Shell, PowerShell, Python básicoCI/CD (operação básica): GitHub Actions, Azure DevOps — execução e acompanhamento de pipelines, não necessariamente construçãoCompetências Técnicas Obrigatórias• Experiencia comprovada em operação de ambientes cloud AWS em produção, com capacidade de diagnostico e resolução de incidentes sem supervisão constante.• Conhecimento solido em Linux e Windows Server: administração, logs, troubleshooting de serviços e conectividade.• Experiência nas ferramentas de observabilidade (Zabbix, Grafana ou CloudWatch) para investigação de alertas e correlação de eventos.• Experiencia com ITIL aplicado: abertura, classificação e resolução de incidentes; execução de GMUDs com plano de rollback.• Active Directory: criação de usuários e grupos, GPOs, resolução de problemas de autenticação.• Networking básico: TCP/IP, DNS, DHCP, VPN, firewalls, VLANs — suficiente para diagnosticar problemas de conectividade.• Bash ou PowerShell em nível operacional para automação de tarefas rotineiras.Diferenciais• Experiencia em mais de uma cloud em ambiente produtivo (Azure + GCP).• Kubernetes em operação: troubleshooting de pods, leitura de logs e eventos, escalonamento de problemas de cluster.• Participação em CABs e elaboração de planos de mudança de alto impacto com rollback estruturado.• Conhecimento básico em IaC (Terraform ou Ansible) para leitura e pequenas alterações de configuração.• Noções de storage hibrido: tipos de volumes cloud (EBS, EFS) e storage on-premises (SAN/NAS).CertificaçõesCandidatos com certificações adicionais nas frentes de Cloud e ITIL serão priorizados. A ausência total de certificações ou plano concreto de obtenção e fator de desempate negativo.AWS Cloud Practitioner - Diferencial forteAWS Solutions Architect Associate - Diferencial forteAWS SysOps Administrator Associate - DiferencialAZ-900 Azure Fundamentals - DesejávelAZ-104 Azure Administrator - DiferencialCKA ou Docker Certified Associate - DiferencialFormação Acadêmica• Graduação em Ciência da Computação, Engenharia de Redes, Sistemas de Informação, Análise e Desenvolvimento de Sistemas ou áreas correlatas.• Graduação em andamento será avaliada caso o candidato atenda plenamente os requisitos de experiencia prática e possua ao menos uma certificação técnica.Informações adicionaisAssistência Médica;Assistência Odontológica Omint;Seguro de Vida;PLR;PPR;ABC com Você: um programa que cuida dos colaboradores e seus familiares, com assistência jurídica, social, psicológica e financeira;Vale Refeição;Vale Alimentação;Licença Paternidade e Maternidade estendidas: paternidade 20 dias e maternidade 6 meses;Auxílio Creche/Babá;Day Off anual;Auxílio Infraestrutura para Home Office;TotalPass;