Continuando no assunto do post anterior, mais alguns causos…
Balança, mas não cai
Acho que não tem nada mais subjetivo do que a reclamação “está lento”. E um dia, ainda naquele cliente que falei anteriormente e – de novo – com localidade no Brasil, recebo um ticket com reclamação de que “a rede está lenta”.
Olhei nas ferramentas e não tinha nenhum alerta. Os gráficos mostravam que o uso do link estava abaixo ou na média do uso normal dos últimos 12 meses. Nada estranho… Mas mesmo assim peguei uma das ferramentas de test e mandei um burst pra cima do router pra ver o troughput. Tudo normal. Só pode ser frescura de usuário, pensei.
Liguei pra localidade e falei com o responsável técnico, que fez aquela voz de “não, logo depois que abri o chamado voltou ao normal”. Maldito.
Uns dias depois outro chamado, mesmo diagnóstico, mesma conversa. “logo depois voltou ao normal”. E isso aconteceu umas 3 ou 4 vezes até eu resolver olhar mais fundo no problema e descobrir um monte de erros de CRC no roteador. E ai pude ver que realmente, cada vez que tinha um chamado eu podia olhar que o número de erros de CRC tinham aumentado. Resolvi abrir um chamado com a telco.
Técnico da telco vai até o local, umas 4 ou 5 vezes e nunca acha nada. Por via das dúvidas trocam o router. E nada. E o tempo (meses) se passam sem solução. Nego resolve então trocar o CSU/DSU. E nada. Depois disso a telco apelou. Trocaram TODO o equipamento de rádio, exceto pela antena, e NADA.
Bom… como a única coisa que não tinha sido trocada era a antena, o problema só poderia ser lá. A Telco resolveu arcar com a despesa e mandou uma nova, para ser instalada no topo do prédio, igual a outra. No dia da substituição a equipe chega lá, arranca a antena velha, coloca a antena nova e desce pra sala de comunicação pra fazer os testes.
Uns vinte minutos depois, com tudo funcionando 100% tasca-lhe erro de CRC. Mandam o nego pra cima do telhado de novo, ele começa a diagnosticar a antena, quando percebe que apesar de uma árvore na entrada da empresa não estar na frente da antena, cada vez que batia um vento um galho bem grande e carregado de folhas/frutas entrava na frente do link.
Sem vento, sem problema. Com vento, galhos na frente da antena. Um problema tão simples demorou quase 6 meses para ser resolvido simplesmente porquê ninguém sequer imaginava que poderia ser isso.
Desculpas (válidas) para não resolver problemas
No time de WAN muitos problemas que tínhamos eram unicamente relacionados a coisas físicas. É muito mais comum faltar energia numa localidade do que um router Cisco perder a configuração. E isso é péssimo, pois tínhamos um SLA com o cliente e sofríamos uma pressão enorme de tudo quanto é canto para resolver problemas impossíveis dentro de um período de tempo ridículo.
Todas as vezes que tínhamos um chamado prioridade 2 ou prioridade 1, no dia seguinte tínhamos que comparecer a uma reunião de “chamados críticos”. E ai de você se o chamado tinha estourado. E PIOR AINDA se o chamado ainda estivesse aberto quando você chegasse na reunião.
E como se isso não fosse o bastante, seguindo uma mistura de ITIL e outras metodologias, era preciso que todos os chamados fechados tivesse: Trigger, Workaround, Impact, Root Cause e Prevention.
Vou dar alguns exemplo de explicações que tive que dar em algumas reuniões e vocês, por favor, me ajudem a identificar os pontos acima. Principalmente a parte de “Prevention”:
– A localidade está fora do ar porquê roubaram os cabos dos postes (adivinha em que país foi isso?)
– Não pudemos restaurar a conectividade da fábrica porque passou um furacão e destruiu o POP da Telco (Flórida/EUA)
– O ticket estourou porquê o carro da telco foi roubado e os técnicos feitos reféns durante a noite (México)
– Perdemos o SLA porquê está tendo uma revolução popular e os técnicos se recusam a trabalhar (Bolívia)
– Um trem descarrilhou e quebrou a fibra óptica que passava do lado dos trilhos. (Brasil)
– Sem previsão para essa localidade voltar. O last mile é subterrâneo e por causa da enchente que teve foi tudo pro quiabo. (EUA)
– A telco não trabalha de final-de-semana (wtf?!) (Porto Rico)
– O escritório nessa localidade foi fechado. No final de semana desligaram tudo e não avisaram ninguém. (Chile ou Bolívia. Não lembro)
– Um caminhão derrubou o poste na frente da empresa. (Brasil)
– A mesma tempestade de neve que derrubou o link fechou as estradas e os técnicos não puderam ir pra localidade resolver o problema (Canadá).