SRE Sênior

Raízen

📍 São Paulo/SPremoto· CLT

Descrição da vaga

Somos uma empresa brasileira presente no seu dia a dia. Dos postos e produtos Shell, sempre no seu caminho, até a produção de açúcar, etanol e energia renovável.Aqui, segurança, integridade, colaboração e simplificação são a forma como a gente trabalha. Com mais de 30 mil pessoas, construímos juntos um ecossistema integrado que vai do campo, no cultivo da cana-de-açúcar, até a produção e comercialização de etanol, açúcar e bioenergia. Também atuamos, sob licença da marca Shell, na distribuição de combustíveis, lubrificantes e especialidades no Brasil.Se você é uma pessoa resiliente, que se move com velocidade, enfrenta desafios como oportunidades e acredita que colaboração é o caminho, a Raízen pode ser o seu lugar.Por aqui, o aprendizado vem da prática e o trabalho ganha mais sentido quando é feito junto.Todas as nossas vagas estão abertas a pessoas de qualquer orientação afetivo-sexual, identidade de gênero, raça, etnia e idade, com ou sem deficiência. O que importa aqui é a vontade de crescer, contribuir e fazer a diferença.Estamos em busca de SRE Sênior para atuar na sustentação, evolução e confiabilidade de plataformas críticas, com forte foco em observabilidade, monitoração e automação de ambientes cloud e Kubernetes. Essa posição terá papel estratégico na evolução das práticas de SRE e na construção de uma operação cada vez mais resiliente, escalável e orientada a dados.Responsabilidades e atribuições🎯COMO SERÁ O SEU DIA A DIA:Apoiar ambientes distribuídos em Azure e AWS, atuando diretamente na evolução da observabilidade corporativa utilizando ferramentas como Grafana, Prometheus, OpenTelemetry, Loki, Tempo e Zabbix, além de apoiar iniciativas relacionadas à monitoração de aplicações, infraestrutura, logs, métricas e tracing distribuído;Troubleshooting de ambientes críticos, análise de incidentes, definição de dashboards, alertas e indicadores operacionais;Atuação próxima aos times de desenvolvimento, arquitetura e infraestrutura para garantir qualidade, disponibilidade e performance das aplicações;A posição também atuará na evolução das práticas de automação, GitOps, monitoração de ambientes Kubernetes (AKS/EKS) e melhoria contínua da plataforma, sempre considerando governança, segurança, eficiência operacional e experiência dos times internos.Requisitos e qualificações🔎O QUE VOCÊ PRECISA TER:Requisitos Obrigatórios:Formação superior completa;Sólida experiência com observabilidade e monitoramento de ambientes críticos, utilizando ferramentas como Grafana, Prometheus, Zabbix, OpenTelemetry ou similares;Experiência em troubleshooting e análise de causa raiz (RCA) em ambientes distribuídos e de alta disponibilidade;Conhecimento avançado em Kubernetes, preferencialmente em ambientes AKS (Azure Kubernetes Service) e/ou EKS (Amazon Elastic Kubernetes Service);Experiência com provedores de cloud pública, especialmente Azure e/ou AWS;Vivência com monitoramento de aplicações, incluindo coleta e análise de logs, métricas e traces;Conhecimentos sólidos em sistemas Linux, containers e Docker;Experiência com infraestrutura de redes, DNS, Load Balancers, conectividade e troubleshooting de rede;Capacidade de desenvolver automações e scripts utilizando Bash, PowerShell e/ou Python;Experiência com práticas de GitOps, CI/CD e operação de plataformas modernas orientadas à observabilidade;Experiência na construção, manutenção e otimização de pipelines utilizando GitHub Actions.Requisitos Desejáveis:Experiência com stack de observabilidade baseada em Grafana, incluindo Loki, Tempo, Mimir e Prometheus;Conhecimento das práticas e princípios de Site Reliability Engineering (SRE), incluindo definição e acompanhamento de SLI, SLO e Error Budgets;Experiência com ArgoCD para gestão de deploys e GitOps;Conhecimento em FinOps e estratégias de otimização de custos em ambientes cloud;Experiência com Terraform e práticas de Infrastructure as Code (IaC);Vivência em ambientes híbridos e multi-cloud;Experiência com plataformas de observabilidade corporativa, como Dynatrace, Datadog ou New Relic.Será um diferencial:Experiência com Argo Workflows e Argo Events;Conhecimento em Service Mesh, especialmente Istio ou soluções similares;Vivência com iniciativas de AIOps, automação inteligente e correlação de eventos;Conhecimento em Terragrunt e Crossplane para gestão avançada de infraestrutura;Experiência na definição e implementação de padrões de confiabilidade, resiliência e escalabilidade em plataformas críticas.Informações adicionaisETAPAS DO PROCESSO SELETIVO:Nosso processo contempla 3 etapas principais (podem ter outras, e você ficará por dentro caso avance):Inscrição: preenchimento deste formulário e de dados adicionais, caso necessário.Entrevista Inteligente: entrevista por áudio com apoio de inteligência artificial. As perguntas são enviadas por escrito e as respostas são gravadas em áudio. Essa etapa contribui para uma avaliação mais estruturada e padronizada do perfil, apoiando o time de recrutamento na triagem inicial.Entrevista com o RH: bate-papo para nos conhecermos.Entrevista com a liderança: bate-papo mais técnico para contar ainda mais sobre o dia a dia e os desafios.Nossa comunicação será por e-mail e telefone - confira se seus dados estão atualizados.