<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Another Geek Blog &#187; outage</title>
	<atom:link href="http://geek.linuxman.pro.br/tag/outage/feed" rel="self" type="application/rss+xml" />
	<link>http://geek.linuxman.pro.br</link>
	<description>Just another WordPress weblog</description>
	<lastBuildDate>Fri, 16 Dec 2011 01:55:44 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>Causos &#8211; 2</title>
		<link>http://geek.linuxman.pro.br/geek/causos-2</link>
		<comments>http://geek.linuxman.pro.br/geek/causos-2#comments</comments>
		<pubDate>Wed, 06 May 2009 12:30:58 +0000</pubDate>
		<dc:creator>Eri</dc:creator>
				<category><![CDATA[Geek]]></category>
		<category><![CDATA[causos]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[network]]></category>
		<category><![CDATA[outage]]></category>
		<category><![CDATA[suporte]]></category>

		<guid isPermaLink="false">http://geek.linuxman.pro.br/?p=996</guid>
		<description><![CDATA[Continuando no assunto do post anterior, mais alguns causos&#8230; Balança, mas não cai Acho que não tem nada mais subjetivo do que a reclamação &#8220;está lento&#8221;. E um dia, ainda naquele cliente que falei anteriormente e &#8211; de novo &#8211; com localidade no Brasil, recebo um ticket com reclamação de que &#8220;a rede está lenta&#8221;. [...]]]></description>
			<content:encoded><![CDATA[<p>Continuando no assunto do <a href="http://geek.linuxman.pro.br/geek/causos">post anterior</a>, mais alguns causos&#8230;</p>
<h2>Balança, mas não cai</h2>
<p>Acho que não tem nada mais subjetivo do que a reclamação &#8220;está lento&#8221;. E um dia, ainda naquele cliente que falei anteriormente e &#8211; de novo &#8211; com localidade no Brasil, recebo um ticket com reclamação de que &#8220;a rede está lenta&#8221;.</p>
<p>Olhei nas ferramentas e não tinha nenhum alerta. Os gráficos mostravam que o uso do link estava abaixo ou na média do uso normal dos últimos 12 meses. Nada estranho&#8230; Mas mesmo assim peguei uma das ferramentas de test e mandei um burst pra cima do router pra ver o troughput. Tudo normal. Só pode ser frescura de usuário, pensei.</p>
<p>Liguei pra localidade e falei com o responsável técnico, que fez aquela voz de &#8220;não, logo depois que abri o chamado voltou ao normal&#8221;. Maldito.</p>
<p>Uns dias depois outro chamado, mesmo diagnóstico, mesma conversa. &#8220;logo depois voltou ao normal&#8221;. E isso aconteceu umas 3 ou 4 vezes até eu resolver olhar mais fundo no problema e descobrir um monte de erros de CRC no roteador. E ai pude ver que realmente, cada vez que tinha um chamado eu podia olhar que o número de erros de CRC tinham aumentado. Resolvi abrir um chamado com a telco.</p>
<p>Técnico da telco vai até o local, umas 4 ou 5 vezes e nunca acha nada. Por via das dúvidas trocam o router. E nada. E o tempo (meses) se passam sem solução. Nego resolve então trocar o CSU/DSU. E nada. Depois disso a telco apelou. Trocaram TODO o equipamento de rádio, exceto pela antena, e NADA.</p>
<p>Bom&#8230; como a única coisa que não tinha sido trocada era a antena, o problema só poderia ser lá. A Telco resolveu arcar com a despesa e mandou uma nova, para ser instalada no topo do prédio, igual a outra. No dia da substituição a equipe chega lá, arranca a antena velha, coloca a antena nova e desce pra sala de comunicação pra fazer os testes.</p>
<p>Uns vinte minutos depois, com tudo funcionando 100% tasca-lhe erro de CRC. Mandam o nego pra cima do telhado de novo, ele começa a diagnosticar a antena, quando percebe que apesar de uma árvore na entrada da empresa não estar na frente da antena, cada vez que batia um vento um galho bem grande e carregado de folhas/frutas entrava na frente do link.</p>
<p>Sem vento, sem problema. Com vento, galhos na frente da antena. Um problema tão simples demorou quase 6 meses para ser resolvido simplesmente porquê ninguém sequer imaginava que poderia ser isso.</p>
<h2>Desculpas (válidas) para não resolver problemas</h2>
<p>No time de WAN muitos problemas que tínhamos eram unicamente relacionados a coisas físicas. É muito mais comum faltar energia numa localidade do que um router Cisco perder a configuração. E isso é péssimo, pois tínhamos um SLA com o cliente e sofríamos uma pressão enorme de tudo quanto é canto para resolver problemas impossíveis dentro de um período de tempo ridículo.</p>
<p>Todas as vezes que tínhamos um chamado prioridade 2 ou prioridade 1, no dia seguinte tínhamos que comparecer a uma reunião de &#8220;chamados críticos&#8221;. E ai de você se o chamado tinha estourado. E PIOR AINDA se o chamado ainda estivesse aberto quando você chegasse na reunião.</p>
<p>E como se isso não fosse o bastante, seguindo uma mistura de ITIL e outras metodologias, era preciso que todos os chamados fechados tivesse: Trigger, Workaround, Impact, Root Cause e Prevention.</p>
<p>Vou dar alguns exemplo de explicações que tive que dar em algumas reuniões e vocês, por favor, me ajudem a identificar os pontos acima. Principalmente a parte de &#8220;Prevention&#8221;:</p>
<p>- A localidade está fora do ar porquê roubaram os cabos dos postes (adivinha em que país foi isso?)</p>
<p>- Não pudemos restaurar a conectividade da fábrica porque passou um furacão e destruiu o POP da Telco (Flórida/EUA)</p>
<p>- O ticket estourou porquê o carro da telco foi roubado e os técnicos feitos reféns durante a noite (México)</p>
<p>- Perdemos o SLA porquê está tendo uma revolução popular e os técnicos se recusam a trabalhar (Bolívia)</p>
<p>- Um trem descarrilhou e quebrou a fibra óptica que passava do lado dos trilhos. (Brasil)</p>
<p>- Sem previsão para essa localidade voltar. O last mile é subterrâneo e por causa da enchente que teve foi tudo pro quiabo. (EUA)</p>
<p>- A telco não trabalha de final-de-semana (wtf?!) (Porto Rico)</p>
<p>- O escritório nessa localidade foi fechado. No final de semana desligaram tudo e não avisaram ninguém. (Chile ou Bolívia. Não lembro)</p>
<p>- Um caminhão derrubou o poste na frente da empresa. (Brasil)</p>
<p>- A mesma tempestade de neve que derrubou o link fechou as estradas e os técnicos não puderam ir pra localidade resolver o problema (Canadá).</p>

	Tags: <a href="http://geek.linuxman.pro.br/tag/causos" title="causos" rel="tag">causos</a>, <a href="http://geek.linuxman.pro.br/tag/it" title="IT" rel="tag">IT</a>, <a href="http://geek.linuxman.pro.br/tag/network" title="network" rel="tag">network</a>, <a href="http://geek.linuxman.pro.br/tag/outage" title="outage" rel="tag">outage</a>, <a href="http://geek.linuxman.pro.br/tag/suporte" title="suporte" rel="tag">suporte</a><br />
]]></content:encoded>
			<wfw:commentRss>http://geek.linuxman.pro.br/geek/causos-2/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Causos</title>
		<link>http://geek.linuxman.pro.br/geek/causos</link>
		<comments>http://geek.linuxman.pro.br/geek/causos#comments</comments>
		<pubDate>Tue, 05 May 2009 18:41:26 +0000</pubDate>
		<dc:creator>Eri</dc:creator>
				<category><![CDATA[Geek]]></category>
		<category><![CDATA[causos]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[network]]></category>
		<category><![CDATA[outage]]></category>
		<category><![CDATA[suporte]]></category>

		<guid isPermaLink="false">http://geek.linuxman.pro.br/?p=992</guid>
		<description><![CDATA[Acho que todo mundo em IT tem uns causos pra contar e agora pouco enquanto o micro fazia upgrade do meu Ubuntu fiquei pensando em alguns que aconteceram comigo ou com alguém que trabalhou diretamente comigo. Portando nenhum desses é do tipo &#8220;ouvir falar que&#8230;&#8221; Os causos aqui aconteceram mesmo. Outage em feriado Minha equipe [...]]]></description>
			<content:encoded><![CDATA[<p>Acho que todo mundo em IT tem uns causos pra contar e agora pouco enquanto o micro fazia upgrade do meu Ubuntu fiquei pensando em alguns que aconteceram comigo ou com alguém que trabalhou diretamente comigo. Portando nenhum desses é do tipo &#8220;ouvir falar que&#8230;&#8221;</p>
<p>Os causos aqui aconteceram mesmo.</p>
<h2>Outage em feriado</h2>
<p>Minha equipe na época (eu ainda morava no Brasil) era composta de 10 pessoas dedicadas à WAN de um grande cliente multinacional. Para ninguém ficar muito de saco cheio de problema do dia-a-dia nem muitos projetos ficarem empacados a gente revezava a posição de on-call. Eu, como nunca fui muito de viajar ou passear não ligava de pegar on-call de feriado e por isso peguei quase em seqüencia uns 3 ou 4 feriados prolongados nacionais.</p>
<p>Bom&#8230; e ai tinha uma localidade, em São Paulo, que dava pire-paque toda vez que eu tava de on-call. E pior: todos os telefones de contato que eu tinha para a localidade tocavam até cair durante esses outages.</p>
<p>Eu tinha a <em>escalation list</em>, então quando eu não conseguia falar com o responsável por IT da localidade eu ligava pro on-call do time local (cada país tinha sua lista de on-call, então eu tinha um on-call Brasil. Nosso time era uma instância superior aos países).</p>
<p>Ai já sabe&#8230; ligar pra on-call brasileiro durante feriado prolongado nacional é pedir pra fazer inimigo.  Isso QUANDO atendem o telefone.</p>
<p>Só que se o on-call regional atende o telefone e fala: &#8220;Dane-se. Vê isso segunda-feira.&#8221; eu podia suspender o ticket e esperar. Mas quando eu não conseguia falar com infeliz eu tinha que voltar pra minha <em>escalation list</em> e continuar subindo. E ai liga pra gerente de rede no feriado e na segunda vez o nego também já não atende&#8230; e vai subindo&#8230; cheguei a falar com o infeliz do diretor de IT numa dessas só porque ninguém queria atender o telefone e dizer: deixa pra segunda.</p>
<p>E pior: Você segue o procedimento e escala até o diretor por causa de uma localidade ridícula que não tem ninguém trabalhando no feriado e na segunda-feira tem um email daqueles elogiando até sua mãe por ter perdido o tempo do cara. Ou seja: se seguir o procedimento você toma. Se não seguir&#8230; toma também.</p>
<p>Lá pela terceira ou quarta vez que aconteceu eu já não queria mais levar comida de toco e ao invés de seguir pelos canais oficiais de comunicação eu fiz algo diferente. Peguei a lista telefônica e procurei o telefone da localidade. E o número que eu achei era totalmente diferente do número oficial. Liguei lá e me atende um tiozinho:</p>
<p>- &#8220;Segurança, boa noite&#8221;</p>
<p>- Bingo! Ahãn, quer dizer, boa noite. Meu nome é Eri trabalho pro time de redes da empresa, departamento XYZ, blablabla e eu recebi um alerta de que um dos nossos sistemas está fora do ar. Isso normalmente acontece quando falta energia. Vocês tão sem força ai?</p>
<p>- Tamo não senhor. Só lá no prédio principal.</p>
<p>- (WTF?) Como assim? Queimou algum transformador lá?</p>
<p>- Não senhor. Como ninguém tá trabalhando lá eu desliguei a chave geral pra economizar, né?</p>
<p>- ( FDP, FDP). Ah, tá&#8230;. Mas isso não é procedimento normal, né?</p>
<p>- Não sei não senhor. Eu sou folguista. Só trabalho de feriado</p>
<p>- (FDP, FDP, FDP, FDP, FDP, FDP). Ah, tá OK. O Sr. faz uma gentileza pra mim, então? Religa a energia lá que ai o sistema volta e pára de alarmar, OK? Desculpa o incômodo, OK?</p>
<p>Bom&#8230; não preciso nem falar o tamanho do email que mandei pro time do Brasil falando sobre procedimento, normas da empresa e números de recursos despediçados durante esses outages. Mas o problema foi resolvido e nunca mais tivemos outages de feriado naquela localidade.</p>

	Tags: <a href="http://geek.linuxman.pro.br/tag/causos" title="causos" rel="tag">causos</a>, <a href="http://geek.linuxman.pro.br/tag/it" title="IT" rel="tag">IT</a>, <a href="http://geek.linuxman.pro.br/tag/network" title="network" rel="tag">network</a>, <a href="http://geek.linuxman.pro.br/tag/outage" title="outage" rel="tag">outage</a>, <a href="http://geek.linuxman.pro.br/tag/suporte" title="suporte" rel="tag">suporte</a><br />
]]></content:encoded>
			<wfw:commentRss>http://geek.linuxman.pro.br/geek/causos/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
	</channel>
</rss>

