Tudo é horrível

By | January 23, 2016

Isso pode ser uma surpresa para algumas pessoas, mas é a mais pura verdade: Quando se trata de tecnologia, tudo é horrível.

A lei de Murphy diz que tudo que pode dar errado dará errado. Quase certeza que Murphy trabalhava com TI.

Em TI nada funciona direito, problemas inesperados aparecem do nada, tudo quebra o tempo todo. Por exemplo, esses dias foi anunciado que a CPU topo de linha da Intel simplesmente trava fazendo cálculos complexos. Observe que é a CPU, o hardware, que trava. Não o sistema operacional.

Por falar em sistema operacional, enquanto o Windows é nosso saco-de-pancada e nem vale a pena falar quão horrível e cheio de bugs ele é, o Linux não escapa. Como o bug recentemente anunciado que passou desapercebido por anos.

Se você não desenvolve código é difícil explicar a complexidade envolvida, mas diversas análises indicam que existem de 10 a 50 bugs a cada mil linhas de código. Para colocar em perspectiva, o kernel do Linux já passou faz tempo de 15 milhões de linhas. Quantos bugs tem ai?

E isso sem falar em falhas físicas. Já trabalhei em empresa que acreditava que era só gastar dinheiro comprando o hardware mais topo-de-linha possível que o tal não ia falhar nunca. Que bonitinhos.

Existe uma medida chamada MTBF (Mean Time Between Failures – Tempo médio entre falhas) e enquanto pode ser uma referência inicial é também uma fonte de ilusão. O MTBF de um HD, por exemplo é de 10 anos. Mas você tem 10 HDs, existem grandes chances de pelo menos um falhar todo ano.

E enquanto um simples HD falhando pode eventualmente causar problemas para muita gente, algumas coisas, como cabos de fibra sendo quebrados afetam milhares ou milhões de pessoas. Por exemplo, em 2013 uma fibra partida no Egito praticamente tirou da Internet boa parte da África, Oriente Médio e sul da Ásia.

De novo, é difícil explicar a complexidade e fragilidade da Internet para quem não é da área. Aliás, até pra muita gente de TI o funcionamento da Internet é um mistério. Mas acreditem quando eu digo que a Internet só funciona porque temos heróis de plantão 24x7x365 trabalhando de babá pra manter esse castelo de cartas funcionando.

Uma boa indicação do esforço homérico que é manter a Internet em pé é o fato de que apesar da Internet ser um terreno fértil para todo tipo de criminalidade, fraudes e complôs o principal protocolo que mantém a Internet funcionando – o BGP – basicamente funciona na base da confiança.  Todo mundo acredita no que todo mundo fala.

2ad9df1f95c1d8005ce89558a76253ca

E não é só malícia o problema. Incompetência reina. O que tem de gente incapaz com acesso a sistemas críticos me dá até frio na barriga. E como se não bastasse técnicos incapazes, muita culpa vai direto pros executivos das empresas que simplesmente desprezam TI, enfiam prazos ridículos goela abaixo, não fornecem treinamento adequado, contratam gente desqualificada ou não dão um orçamento decente. Normalmente uma combinação disso tudo.

Eu poderia continuar tocando o terror por mais um bom tempo aqui, mas não é o objetivo desse post. Meu objetivo para você, leitor profissional em TI, é lembrá-lo que tudo realmente é horrível e que você tem que se planejar para isso.

Pela segunda vez na vida trabalho numa empresa que entende isso e tem tudo preparado para encarar os piores cenários possíveis. E isso me dá uma tranquilidade sem tamanho.

Se você é um sysadmin bom e responsável, que realmente se importa e faz o melhor sempre, me manda o seu currículo a primeira coisa a fazer é aceitar que tudo é horrível. E sabendo que tudo é horrível se planejar para isso.

Um exemplo típico é backup. Qualquer sysadmin com mais de 12 horas de experiência tem que saber que backup é mandatório. O que nem todo sysadmin admite é que software de backup também tem bug. E mesmo que o sistema jure por tudo que é mais sagrado que o backup executou com sucesso a única forma de confirmar isso é restaurando o backup e olhando pra ver se é verdade! Confie, mas confira!

Lógico que existe uma linha de bom-senso. Não faz sentido gastar um milhão de dólares para proteger um sistema cuja falha catastrófica custaria apenas 100 mil. Análise de risco é uma coisa complicada e daria uma série de posts só sobre isso, mas é uma lição-de-casa pro leitor.

tl;dr

  • Tudo é horrível
  • Aceite o ponto inicial e prepare-se para o pior

2 thoughts on “Tudo é horrível

  1. Silvio Gissi

    Apesar do tom pessimista, é bem verdade 🙂

    Hardware falha, na melhor das hipoteses ele falha homericamente: crash, pega fogo e morre. A redundância entra, o sistema de monitoração alerta, vendor recebe pedido de RMA e tudo certo! (Todo mundo faz isso, certo??)

    Pra corroborar o “Tudo é Horrível”, algumas vezes a falha é silenciosa: bitflips no disco ou memória (https://blogs.oracle.com/ksplice/entry/attack_of_the_cosmic_rays1), um arquivo que configuração que foi atualizado e só vai ser lido no próximo boot e por aí vai.

    Se o sysadmin passa o dia só apagando incêndio fica difícil pedir pra ele construir algo à prova de fogo…

  2. Francisco Edilton

    True Story!

    Tenho algumas histórias de equipamentos de rede falhando com intermitência.

    Sobre o Backup eu costumo falar que o Backup sempre funciona. É o restore que “dá pau”. Mas vai explicar para o cliente testar o backup. 🙁

    abs

Comments are closed.