20.5 C
Brasília
sábado, novembro 30, 2024
Continua após a publicidade..

Dispendiosas interrupções do datacenter: desvendando colaborações complicadas, contribuindo com custos e complexidade

À medida que as empresas dependem cada vez mais de sua infraestrutura digital, o tempo de inatividade tem um impacto proporcionalmente maior. No entanto, embora a atenção para reduzir as interrupções no datacenter pareça estar valendo a pena, os custos por interrupção não estão caindo.

Andy Lawrence, executivo diretor de pesquisa da Uptime, diz que uma tendência de “pequenas melhorias” nas taxas anuais de interrupção pode estar apontando para o alto custo das interrupções restantes. Cerca de 78% dos entrevistados na pesquisa global de datacenter da Uptime em 2020 relataram ter paralisações – ainda em 2022 a proporção caiu para 60%.

Continua após a publicidade..

“As interrupções mais caras podem ser catastróficas, com negócios perdidos e risco de reputação às vezes afetando as avaliações da empresa”, diz Lawrence. “Mas interrupções ainda mais rotineiras e muito menos impactantes estão ficando mais caras, à medida que os custos de mitigação relativamente simples aumentam.”

Apesar de um para construir datacenters de forma mais barata, mais empresas estão investindo em resiliência no local juntamente com backups distribuídos e serviços de recuperação em uma tentativa de evitar perdas de receita ou impactos financeiros relacionados a interrupções. As interrupções, é claro, também estão sujeitas à inflação, com peças, mão-de-obra, infrações de nível de serviço e afins tendo um impacto, diz Lawrence.

Cerca de 40% dos entrevistados pela Uptime eram de provedores profissionais de serviços de TI ou datacenter. Cerca de 57% de um total de 830 entrevistados vieram de organizações com receita anual inferior a US$ 10 milhões – principalmente consultores, engenheiros de design e executivos seniores – e 28% de todos os entrevistados estavam baseados na Europa ou o Reino Unido. Apenas 7% eram do clube de mais de US$ 1 bilhão.

Entre os que em 2022 tiveram interrupção nos últimos três anos, apenas 14% classificaram uma interrupção como “grave/grave”, contra 18 % na pesquisa de 2019. Muitas foram falhas parciais e não totais de sistemas ou equipamentos.

Lawrence aponta que evitar interrupções – ou pelo menos permitir uma recuperação rápida e tranquila – significa fazer investimentos (inclusive em treinamento) com antecedência. Mas embora os problemas de energia continuem a ser preocupantes, eles são bem compreendidos.

“A maioria dos custos associados a falhas de energia agora se relacionam com a reinicialização de sistemas e a recuperação e sincronização de dados”, diz ele.

“A complexa interconectividade da infraestrutura digital modelo pode ajudar a aliviar grandes e únicos -site, mas as arquiteturas distribuídas mais recentes estão sujeitas a falhas próprias. Erros de software e configuração geralmente reverberam em diferentes sites e serviços.”

“A maior parte dos custos associados às falhas de energia referem-se agora ao reinício dos sistemas e à recuperação e sincronização de dados”
Andy Lawrence, Uptime

Nitha Puthran, vice-presidente sênior de nuvem e infraestrutura da Persistent Systems, diz que custos mais altos podem decorrer do aumento da dependência de sistemas e aplicativos digitalizados, incluindo grandes armazéns de dados habilitados para inteligência artificial e aprendizado de máquina.

Embora melhores sistemas de energia de backup e software de recuperação de desastres e planos operacionais eficazes estejam lidando com mais interrupções à medida que surgem, as estratégias de recuperação de desastres podem não ser ideais – com procedimentos exaustivamente testados para garantir a “memória muscular”.

“Muitas organizações ons não fazem disso parte de sua estratégia de TI – ainda é uma reflexão tardia”, diz Puthran. “Eles gostam de gastar muito na infraestrutura que executará os negócios do dia-a-dia, mas menos na construção dessa redundância que eles podem considerar mais um luxo – especialmente nesse estágio de transformação.”

Organizações menores parceiras de grandes provedores devem ler suas letras miúdas, garantindo que entendam os níveis de disponibilidade e não sejam pegos de surpresa. O planejamento e o orçamento para interrupções e sua recuperação geralmente são um tanto limitados, diz Puthran, especialmente quando os recursos são escassos.

“E os exercícios podem não são mais uma caixa de seleção – eles precisam ser reais e conduzidos em tempo hábil, como parte da conformidade e assim por diante”, diz ela, acrescentando que planos eficazes devem levar em conta pessoas, processos e tecnologia.

“Mesmo que eles tenham projetado a solução, ou se estiverem fazendo isso de forma colaborativa, certifique-se de que ela passe por um processo bem documentado e bem arquitetado”, diz ela . “Caso algo aconteça, como retornaremos mais rápido, com menos danos?”

A resposta é educação? Talvez – mas isso pode depender do tato de uma abordagem quando vier de um provedor de serviços, acrescenta Puthran.

Você é o que você come

Neil Thurston, tecnólogo-chefe da provedora de soluções em nuvem Logicalis, aponta “espaguete digital no topo” – não apenas uma fonte de complexidade, mas consequentes custos, especialmente quando as organizações se transformam para lidar com eventos como a Covid.

Inevitavelmente, aspectos desse fenômeno provavelmente representam um novo normal e podem ser agravados pela escassez contínua de habilidades. “Dentro de nossa própria base de clientes, que administram seus próprios datacenters e de terceiros, e por causa da pandemia e da cadeia de suprimentos global, a padronização foi descartada”, diz Thurston.

As pessoas às vezes compram qualquer kit que podem para atender à demanda em pouco tempo. As operadoras podem ter redes físicas subjacentes sobrepostas a redes virtuais definidas por software, aumentando a complexidade no lado da rede. Pode haver mais peças de trabalho para dar errado também. E os problemas de rede nem sempre são óbvios ou facilmente diagnosticados, diz Thurston.

“Estamos em um período em que os engenheiros de datacenter chegarão contra equipamentos com os quais não estão acostumados e as coisas serão diferentes – resultando em solução de problemas mais demorada”, diz ele.

“Se acontece nesse mundo virtual, o problema que você tem é que não é tão fácil quanto perder energia para o datacenter. Quem é impactado – são todos. Você precisa recuperar o poder, mas é um problema virtual e você só precisa continuar até encontrá-lo. No lado da rede

, é aqui que fica complicado, porque todo mundo projeta um rede de maneira diferente.”

Parte da estratégia pode incluir investigações de gerenciamento de problemas e conhecimento que podem ser aplicadas para uma repadronização que favoreça automação adicional . “Eficiência de engenharia” pode encurtar os ciclos de vida de interrupção, diz Thurston, enquanto inteligência artificial e AIops podem ajudar a detectar e remediar padrões.

John Graham-Cumming , diretor de tecnologia da empresa de segurança na web e parceiro de tecnologia do Google Cloudflare, aponta que datacenters de nível superior, especialmente, podem ser “incrivelmente estáveis” em energia e resfriamento. Em vez disso, as interrupções podem ser sobre como os operadores lidam com a inevitabilidade do desejo de fazer alterações continuamente – porque o software está em constante evolução, por exemplo, e não algo externo.

“Estamos em um período em que os engenheiros de datacenter enfrentarão equipamentos que estão não está acostumado e as coisas serão diferentes – resultando em solução de problemas mais demorada”
Neil Thurston, Logicalis

“O que funciona tem sido uma combinação de coisas, ” ele diz. “Você quer descobrir onde seu sistema não é resiliente. Fazemos uma espécie de engenharia do caos, quebrando coisas deliberadamente para ver o que acontece.

“Por exemplo, coloque serviços ou máquinas ou equipamentos de rede offline. Com sistemas complexos grandes e interconectados, introduzir o caos para eliminar os problemas pode ser valioso.”

Implantações progressivas enquanto observam elementos no cadeia, como software, pode ajudar a capturar impactos à medida que surgem, em uma determinada escala ou número de locais e usuários, especialmente em um ambiente heterogêneo, diz ele. Isso pode ajudar a descobrir rapidamente o histórico e rastrear as mudanças que estão afetando X ou Y conforme elas acontecem.

Para Graham-Cumming, o usual os suspeitos incluem redundância, resiliência, recuperação de desastres, balanceamento de carga e muito mais, mas a cultura pode desempenhar um papel importante nos impactos por interrupção.

Ele recomenda uma abordagem “livre de culpa” que não desperdice energia visando a responsabilidade pela causa ou causas. Em vez disso, concentre-se em todos se unindo para resolver o problema, incluindo as inevitáveis ​​incógnitas, o mais rápido possível – sem atribuir culpas.

“Qualquer um deve ser capaz de dizer: ‘ei, estou observando um problema ou um problema em potencial’ e ser capaz de chamar um incidente agora mesmo para conseguir as pessoas certas para ir lá e fazer isso, e ter isso totalmente livre de culpa ” diz Graham-Cumming, “especialmente se a pessoa ‘responsável’ for um colaborador individual simplesmente fazendo seu trabalho e tentando alcançar algo.”

Jake Madders, diretor da Hyve Managed Hosting, sugere que diversificar os fornecedores às vezes pode ajudar, evitando a dependência total de um jogador. Afinal, qualquer pessoa pode ter problemas imprevistos.

“Temos visto uma tendência desse aumento – achamos relacionado ao Covid, porque todo mundo está remoto”, diz ele, acrescentando que este pode tornar as comunicações do fornecedor mais complicadas

às vezes. Além disso, a falta de exposição a conversas e acontecimentos “nas mesas” pode reduzir a capacidade de uma organização de se manter informada sobre eventos inesperados.

“Se tivéssemos um cliente, colocaríamos metade do material no primário e, em seguida, usaríamos um suprimento separado para a recuperação de desastres, e o mesmo com nossos ISPs ou provedores de rede”, diz Madders.

A inovação resolve e adiciona complexidade

Com um cliente, diz Madders, eles estão instalando seu próprio sistema de bateria para ficar entre seu sistema e os racks da Hyve – um movimento inédito para um nível três ou datacenter de nível quatro.

Com custos crescentes, ameaças de segurança cibernética e demandas de conformidade, e apesar de várias políticas e procedimentos focados na resiliência, inclusive em combustível no local, geradores e kit, falta de energia e falhas de hardware sti vai acontecer – então por que tornar as comunicações mais difíceis?

“Para alguns, uma interrupção de 10 minutos pode ser desastrosa para seus negócios”, diz Madders. “Muito pode ser previsto – mas muito não. Você pode construir uma estratégia, mas, novamente, ela pode ter custos proibitivos – e tudo tem pontos fracos.”

Analista da IDC, Phil Goodwin , no relatório do primeiro trimestre de sua empresa O estado do ransomware e a preparação para desastres 2022 (lançado em maio e patrocinado pelo fornecedor de segurança Zerto), sugere que os riscos à integridade e disponibilidade dos dados podem nunca ter sido tão altos. Malware, perda de dados por exfiltração e ransomware agora são generalizados, destacando a necessidade de recuperação de desastre eficaz.

Quase 80% dos entrevistados ativaram um resposta a desastres nos últimos 12 meses, com 61% dessas respostas desencadeadas por malware e 94% relataram tempo de inatividade não planejado, com as principais causas incluindo falha de software, falha de hardware e ransomware. A pesquisa separada da IDC reduz o tempo de inatividade médio em US$ 250.000 por hora em todos os setores e tamanhos de organização.

Goodwin diz: “Novos aplicativos no núcleo, na nuvem e na borda criam dados estruturados, não estruturados e em contêineres. Esses dados residem em serviços de armazenamento de objetos geograficamente dispersos, como AWS S3 e Azure Blob.”

As soluções podem incluir o redimensionamento dos contratos de nível de serviço ( SLAs) em torno do tempo de recuperação ou perda de dados para responder a essa complexidade, acrescenta ele.

Billy Durie, chefe do setor global de datacenters no provedor de soluções Aggreko , confirma que mais datacenters estão buscando resolver as quedas de energia com a geração local de megawatts adicionais, muitas vezes temporariamente no caso de uma construção, atualização ou reforma.

“No entanto, o custo de substituição de equipamentos ou mesmo peças está ficando mais alto”, diz Durie. “Os preços do cobre estão subindo e a inflação sempre aumentará os custos com mão de obra, escalas e todo o resto. Até mesmo conseguir as pessoas certas está ficando difícil.”

Durie diz que onde as interrupções estão diminuindo, pode ser porque os operadores se mudaram de uma abordagem anterior, mais “cortante” para projetar especificamente para suas necessidades. No entanto, pode haver mais necessidade de preparação para o futuro e planejamento de contingência, especialmente com as pressões climáticas.

Check out other tags:

0