Em um ambiente com dois cabos de alimentação
(“dual-corded”), a perda de energia de um deles fará com que a carga
seja transferida para o outro, podendo criar uma condição de sobrecarga e
falha. Este artigo explica o problema e como resolvê-lo, fornecendo um
conjunto de regras para garantir que um ambiente com dois caminhos de
alimentação (“dual-path”) tenha tolerância a falhas.
O principal objetivo de uma arquitetura elétrica com dois cabos de alimentação (“dual-corded”) ou dois caminhos de alimentação (“dual-path”)
é garantir a continuidade das operações de TI durante uma falha de
parte do sistema de distribuição de energia, fornecendo um caminho
alternativo de alimentação de energia. Nessa topologia, os dispositivos
TI têm duas entradas de energia separadas e são projetados para
continuar a operar quando um dos cabos perde a alimentação. O sistema de
distribuição de energia alimenta um ambiente de TI “dual-corded”
através de dois caminhos separados, que podem se juntar em algum ponto,
ou seja, no painel de distribuição, na saída do UPS, no conjunto de
manobra ou na conexão principal com a concessionária.
Na arquitetura de alguns data centers, os dois caminhos se estendem
até dentro do sistema de distribuição da rede primária e são supridos
por subestações separadas ou até mesmo por linhas de alta tensão
separadas. Na maioria dos data centers com dois caminhos de alimentação,
esse sistema “
dual-path” é estendido até o quadro de
distribuição. Nesse caso, um gerador de emergência é usado para fornecer
redundância quando houver apenas uma única alimentação da rede da
concessionária.
Quando há uma falha no sistema de distribuição ou até mesmo na fonte de alimentação de um dispositivo TI, o sistema de TI
dual-corded
é projetado para manter a carga de TI em operação. Embora isso seja
conceitualmente simples, algumas regras e esquemas de monitoramento têm
que ser estabelecidos para assegurar a sua operação correta. Em primeiro
lugar, este artigo mostra o comportamento dos dispositivos TI nesse
ambiente; em seguida, explica as condições que precisam ser atendidas
para garantir a disponibilidade esperada; e finalmente, fornece
estratégias sobre como gerenciar um ambiente
dual-corded.
Um sistema
dual-path corretamente implementado e verificado
fornece tolerância a falhas e permite a manutenção simultânea de
qualquer ponto do sistema de potência. Isto é verdadeiro mesmo que não
haja conexões cruzadas entre os caminhos de alimentação e mesmo se um
dos caminhos não tiver UPS. Muitos usuários implementam a arquitetura
dual-path,
mas não confiam que vá operar quando necessário, conforme evidenciado
pelo uso de chaves de transferência estáticas e conexões cruzadas para
manutenção. É uma prática comum de projeto garantir o fornecimento de
energia para ambos os caminhos durante muitos tipos de falhas, mesmo na
manutenção. Contudo, essa segurança extra não será necessária se o
sistema com duplo caminho de alimentação funcionar corretamente. Se for
corretamente implementado e verificado, ele vai tolerar a perda de um
caminho sem incidentes, permitindo que os projetos de data centers sejam
mais simples e menos dispendiosos.
Comportamento do dispositivo TI dual-corded
Fig. 1 Um servidor que têm três entradas de energia e não atende à condição dual-corded
Admite-se que um dispositivo de TI
dual-corded tenha
capacidade de operar corretamente quando alimentado por qualquer um dos
dois cabos. No entanto, essa consideração sobre o comportamento dos
dispositivos nem sempre é correta. Em um ambiente de TI
dual-corded, é necessário primeiro estabelecer se os dispositivos realmente satisfazem a condição
dual-corded. Mais de 95% de todos os dispositivos de TI
dual-corded existentes operam corretamente com apenas um cabo (“
single-corded ”). As razões para alguns dispositivos não operarem corretamente de acordo com a arquitetura
dual-corded incluem:
- O dispositivo foi especificamente implementado com dois cabos
não para efeito de redundância, mas como forma de obter mais potência
para o dispositivo TI usando múltiplas fontes de alimentação. Existem
inúmeras razões para que um dispositivo TI possa usar várias fontes, em
vez de uma maior, como: o dispositivo foi projetado para ser expansível
ao longo do tempo, incluindo o recurso de adicionar mais potência; o
dispositivo não tem uma tomada especial de alta potência, e usa duas
fontes de alimentação com tomadas convencionais para solução dessa
questão.
- O dispositivo possui três cabos de alimentação e requer dois
deles para operar corretamente. Não há nenhuma maneira de conectar os
três cabos nos dois caminhos de alimentação de forma que o dispositivo
sobreviva à falha de qualquer caminho (ele pode sobreviver à falha do
caminho com um cabo conectado, mas não vai sobreviver com os dois cabos
conectados).
- O dispositivo foi implementado com dois cabos para redundância
sob configurações normais, mas sob uma configuração interna plena, a
carga de energia é maior do que uma única fonte pode fornecer; logo, a
condição dual-corded só é adequada para dispositivos parcialmente
configurados. Embora isso pareça ser uma falha de projeto, já ocorreu
em alguns equipamentos de rede onde cartões plug-in mais novos não
existiam na época do projeto do chassi. Nessa situação, muitos
fornecedores lançaram fontes de alimentação atualizadas com maior
potência nominal, mas a responsabilidade em garantir que a configuração
atenda à condição dual-corded é do usuário.
- O dispositivo foi concebido como dual-corded, mas uma fonte de alimentação falhou e tal condição não foi percebida ou corrigida. O dispositivo está agora operando como um single-corded e será desenergizado quando houver perda da alimentação de energia do caminho remanescente.
- O dispositivo é dual-corded, mas os dois cabos foram
inadvertidamente conectados no mesmo caminho de alimentação. Ele vai
operar normalmente, mas será desenergizado quando houver interrupção do
caminho que alimenta os dois cabos. Essa é uma ocorrência comum,
particularmente em data centers onde existem diversas pessoas com
direitos de acesso e troca de equipamentos.
- O dispositivo não é dual-corded, mas sim um single-corded, e foi implementado em um ambiente com dois caminhos de alimentação (“dual-path”). Se o comportamento compatível com dual-corded
for necessário, isso pode ser feito pela instalação de uma pequena
chave de transferência para montagem em rack em um ou em alguns
dispositivos. Como alternativa, se a carga single-corded for elevada, o comportamento compatível com dual-corded pode ser realizado pela instalação de uma chave estática, alimentando um terceiro caminho especial para uma zona ou racks single-corded.
Dois tipos de dispositivo
A maioria dos dispositivos de TI
dual-corded opera com os dois
cabos alimentando fontes de energias ou grupos separados. Dentro do
dispositivo de TI, as saídas das fontes de alimentação são combinadas.
Sob operação normal, os requisitos de potência das cargas de TI são
compartilhados entre as duas fontes de alimentação (ou dois bancos de
fontes de alimentação). Embora essa partilha não seja precisamente
equilibrada, cada fonte (ou banco de fontes) suporta tipicamente 50%
+/10% da carga. Quando há interrupção de energia em um caminho devido à
falha, toda a carga do dispositivo de TI é imediatamente suprida pela
fonte remanescente. Como o requisito de potência computacional do
dispositivo de TI não varia durante uma falha de energia, o caminho de
alimentação de energia que não falhou verá sua participação normal de
50% da potência da carga de TI aumentar para 100%. Além disso, alguns
equipamentos de TI podem acelerar os ventiladores quando uma fonte de
alimentação cai. Logo, o requisito de potência total de um dispositivo
de TI pode, na verdade, aumentar até 15% durante esse evento. Portanto, é
razoável planejar um aumento de 10% na carga para a interrupção de um
caminho. Naturalmente, o caminho de alimentação de energia (e a própria
fonte de alimentação) tem que estar preparado para aceitar essa mudança
no degrau de carga, sem que haja mau funcionamento.
No entanto, há outro tipo de carga de TI menos comum, onde a potência
da carga não é “compartilhada” pelos cabos de entrada. Nesse caso, (que
representa menos de 5% de todos os dispositivos TI
dual-corded),
o dispositivo de TI absorve toda a energia de um cabo sob operação
normal e chaveia para o outro cabo quando houver falha na alimentação de
entrada primária. Esse tipo de dispositivo, baseado no “chaveamento de
potência”, fornece toda a redundância esperada em um ambiente
dual-corded, mas tem duas propriedades incomuns que precisam ser consideradas durante a implementação e operação:
Quando são instalados dispositivos de TI
dual-corded do tipo
“compartilhamento de potência”, a potência em ambos os caminhos
permanece uniformemente equilibrada à medida que os dispositivos são
instalados. Contudo, quando dispositivos TI do tipo “chaveamento de
potência” são instalados, a alimentação de energia vai depender de qual
tomada está conectada em cada caminho. Se as tomadas forem conectadas
aleatoriamente, a potência deverá ser pouco equilibrada entre os dois
caminhos. Porém, se houver um padrão como, por exemplo, conectar o cabo
do lado esquerdo do dispositivo de TI no caminho de alimentação da
esquerda, poderá ocorrer uma condição de desequilíbrio no caminho de
alimentação que tem a maior parte ou mesmo toda a carga. Embora a
discussão anterior explique que o caminho subutilizado vai subitamente
precisar suprir toda a carga de TI na falha do caminho primário, os
operadores percebendo o caminho subutilizado podem incorretamente
assumir que mais cargas possam ser ali colocadas, quando na verdade esse
caminho tem que ser reservado para garantir a operação correta da
redundância do sistema. Portanto, a existência de carga de TI
dual-corded do tipo “chaveamento de potência” precisa ser corretamente identificada e planejada no projeto e operação do data center.
Fig. 2 Exemplo de uma chave de transferência para montagem em rack
Esses dispositivos comutam rapidamente quando ocorre a falha de um
caminho. A potência no lado ativo remanescente aumenta rapidamente
(alguns milissegundos) para seu novo valor ao assumir toda a potência da
carga do dispositivo de TI. Contudo, os dispositivos de TI do tipo
“chaveamento de potência” se comportam um pouco diferente. Neles, há um
pequeno atraso de até 25 milissegundos antes de ocorrer o chaveamento
para o caminho ativo. Durante esse período, as fontes de alimentação
estão desenergizadas e têm que sobreviver com a energia armazenada nos
capacitores internos. Quando a transição estiver concluída, o fluxo de
potência precisa alimentar a carga de TI, como também recarregar os
capacitores de armazenamento da fonte de alimentação. Como resultado,
pode haver uma breve condição em que a carga na fonte ativa aumente para
150% da carga de TI exigida, ou até mais, por até 50 milissegundos. Se
um número elevado de dispositivos de TI do tipo “chaveamento de
potência” for instalado da mesma forma, isso pode causar uma sobrecarga
nos sistemas de alimentação e provocar um
trip indesejado do
disjuntor, criando uma queda de carga. A sobrecarga transitória é
bastante reduzida se os dispositivos do tipo “chaveamento de potência”
forem instalados de forma que seus cabos de alimentação primária não
estejam todos concentrados em um caminho de alimentação de energia.
Para minimizar os problemas acima mencionados, é importante saber se os dispositivos
dual-corded
são do tipo “chaveamento de potência”; em caso afirmativo, é preciso
confirmar se estão deliberadamente instalados em um padrão alternativo
para que a carga permaneça equilibrada em ambos os caminhos de
alimentação de energia.
Se um dispositivo não atender à condição
dual-corded porque tem três entradas de potência, tal como o dispositivo mostrado na figura 1, ele pode operar em um ambiente
dual-corded e tirar proveito dos caminhos de energia redundantes através de uma das seguintes técnicas:
- Tratar o dispositivo como single-corded e conectar todos os três cabos em uma chave de transferência para montagem em rack projetada para tal finalidade.
- Conectar uma fonte no caminho A, uma no caminho B e a terceira
em uma chave de transferência para montagem em rack. Se houver vários
desses dispositivos, eles podem compartilhar uma chave de transferência
apropriadamente dimensionada.
A figura 2 mostra um exemplo de uma chave de transferência para
montagem em rack de 2 kW projetada para essa finalidade (unidades de
maior capacidade também estão disponíveis).
Eficiência
Ocasionalmente, é questionado se a concentração de cargas em um caminho de um ambiente
dual-path
aumenta ou diminui a eficiência energética do sistema, quando comparada
ao balanceamento de carga. Análises efetuadas mostram que, num sistema
de potência onde ambos os caminhos são do mesmo projeto, o balanceamento
vai aumentar a eficiência de distribuição, mas o ganho é uma pequena
fração porcentual. Portanto, não há desvantagem para o balanceamento
nesse caso. Contudo, há sistemas onde um caminho tem maior eficiência,
como, por exemplo, quando é protegido por UPS e o outro vem da
alimentação de energia bruta da concessionária (“raw utility power”).
Nesses casos, se possível, obviamente é mais eficiente concentrar a
carga no caminho da energia bruta da concessionária.
Codificação por cores
Em um sistema com dispositivos de TI cujos cabos devem ser conectados
nos caminhos 1 e 2 ou numa chave de transferência, torna-se difícil
seguir os vários cabos para garantir que estejam conectados
corretamente. Esse problema pode ser complicado se os cabos de reserva
fornecidos com os dispositivos de TI forem muito mais longos do que o
necessário, criando uma quantidade significativa de fios dentro do rack.
Isso pode dificultar muito o rastreamento dos cabos para confirmar as
respectivas conexões. Para a solução desse problema, os cabos dos
dispositivos TI podem ser substituídos por cabos de alimentação de
comprimento apropriado com codificação de cores, conforme mostrado na
figura 3.
Para uma identificação correta dos cabos de alimentação dos
equipamentos de TI por código de cores são necessárias três cores. No
sistema apresentado na figura 3, os cabos são codificados em: azul
(caminho A), vermelho (caminho B) e preto (dispositivo
single-corded).
Quando apenas um caminho é protegido por UPS e o outro vem da energia
da concessionária (às vezes referido como sistema de potência Tier 3), o
caminho azul é o com UPS. No exemplo da figura, o dispositivo
single-corded
é alimentado pelo caminho com UPS. Mas, conforme descrito
anteriormente, ele também pode ser alimentado por uma chave de
transferência para montagem em rack (ou chave de transferência estática
central), caso em que o cabo de TI preto é conectado à chave de
transferência. Observe que o uso de cabos de comprimento adequado
facilitou a inspeção dos cabos de alimentação, reduzindo a confusão de
cabos de energia que pode bloquear o fluxo de ar. Adicionalmente, os
cabos mostrados na figura 3 são equipados com dispositivos de bloqueio
para que não possam ser puxados para fora, além de uma indicação visual
amarela que permite às equipes técnicas rapidamente identificar qualquer
cabo que não esteja totalmente encaixado.
Requisitos do sistema de distribuição
Considerando as características da carga de TI
dual-corded,
podemos agora descrever como o sistema de distribuição de energia tem
que ser projetado e gerenciado para a redundância esperada.
O sistema de distribuição de energia precisa garantir que uma falha
em qualquer ponto de um caminho não cause a falha do segundo caminho. O
fato de um data center estar atualmente operando corretamente sob
condições normais não garante que um caminho de alimentação vá operar
corretamente quando houver falha do outro caminho.
A falha de um caminho resultará no aumento gradual da carga no
caminho alternativo. A magnitude desse degrau, e onde ele ocorre, vai
depender da natureza da falha no caminho de alimentação com defeito. A
seguir, dois exemplos importantes sobre o degrau de carga:
- A falha de um caminho no circuito de derivação para o gabinete
de um rack, normalmente, resultará na duplicação da carga de potência no
circuito do caminho alternativo para esse gabinete. No entanto,
disjuntores alimentando múltiplas PDUs no caminho remanescente podem
apenas perceber um pequeno aumento porcentual na potência.
- A falha de um caminho no UPS central, normalmente, resultará na
duplicação da carga de potência em cada circuito do caminho alternativo
para cada gabinete. Além disso, todos os disjuntores alimentando PDUs no
caminho remanescente também perceberão uma duplicação da potência.
Em todos os casos, é necessário assegurar, por meio de um projeto e
práticas de operação, que qualquer falha de um caminho não cause uma
condição de sobrecarga em qualquer ponto do caminho alternativo. Embora
pareça muito complicado, isso pode ser assegurado através da compreensão
de alguns princípios simples:
- Se cada caminho for projetado para que cada ponto seja capaz de
fornecer toda a energia dos equipamentos, então, ele não pode ser
sobrecarregado.
- Se procedimentos ou sistemas forem implementados para assegurar
que os dispositivos de TI nunca sejam instalados de forma a exceder os
valores de projeto do sistema de distribuição, então, nenhuma sobrecarga
vai ocorrer.
Esses princípios simples são fáceis de serem definidos em um
projeto, mas difíceis de serem garantidos no ambiente dinâmico de um
data center. Em geral, há duas formas de implementação:
- Efetuar uma análise do pior caso para cada adição, mudança ou
alteração, visando garantir que nenhuma condição exceda qualquer valor
de projeto. Isso exige diversas informações que podem ser difíceis de se
obter sobre os dispositivos de TI, requer tempo e expertise em
engenharia e pode resultar em um projeto muito conservador, onde a
capacidade do data center é significativamente subutilizada. Essa
abordagem é mais apropriada para uma instalação de grande porte com
equipamentos de TI homogêneos.
- Implementar o monitoramento do sistema de distribuição,
fornecendo dados relativos às margens de segurança operacional e
emitindo alarmes quando adições, mudanças ou alterações causarem a
aproximação dos limites operacionais de diferentes pontos do sistema de
distribuição. Essa é a abordagem mais prática no ambiente dinâmico de
data centers.
Para implementar uma estratégia de monitoramento, cada fase de cada
circuito é monitorada para garantir que não seja sobrecarregado no caso
de qualquer falha no caminho de alimentação alternativo. Em um ambiente
dual-path
ideal, observe que a carga de qualquer caminho pode, quando muito, ser
duplicada para qualquer falha no caminho alternativo. Logo, é necessário
o monitoramento para garantir que nenhum circuito seja carregado além
de 50% dos valores nominais de projeto. No entanto, em um data center
que inclui algumas cargas de switches e outras com maior consumo de
energia, o desligamento de uma fonte de alimentação exige uma margem
extra de segurança para garantir que não haja sobrecarga de circuitos.
Experiências mostram que o monitoramento de circuitos para um limite
prático de 40% da carga de projeto é suficiente para garantir uma
operação confiável durante qualquer falha nos caminhos. O sistema de
monitoramento vai reportar sobrecargas para que possam ser identificadas
durante a instalação ou operação do equipamento, permitindo que os
operadores tomem medidas para redução da carga.
Em um ambiente de TI homogêneo, onde a carga é composta de muitos
dispositivos similares, o limite de monitoramento deve ser estabelecido
pela medição do desempenho de um dispositivo de TI representativo. Se
ele não apresentar um aumento de potência quando da perda de um caminho,
o limite de monitoramento pode ser definido em 50%. Para cada aumento
de 1% observado no consumo de energia, o limite de monitoramento deve
ser reduzido em 0,5%. Por exemplo, se a carga chegar a 110% quando
houver falha de um cabo, o limite de monitoramento deve ser ajustado em
45%.
Embora pareça complicado implementar o monitoramento da margem em
centenas de circuitos de ramais de um data center, esse é um recurso
padrão de muitas PDUs de racks; a emissão de relatórios é uma função
“out of the box” incluída em algumas soluções de gestão da
infraestrutura de data centers (DCIM “Data data centers (DCIM “Data
Center Infrastructure Management”). Quando o sistema em questão for
implementado, os usuários terão confiança suficiente para efetuar
manutenção simultânea, permitindo a interrupção de um caminho para um
rack, pod, sala ou até mesmo de toda a instalação.
Regras para a redundância desejada
Fig. 3 Melhoria no arranjo dos cabos de energia usando cabos de comprimento apropriado com codificação de cores
Algumas regras são necessárias para implementação da redundância
dual-path:
Verificar se os dispositivos instalados operam corretamente como
dual-corded
com capacidade failover. Se isso não for garantido pelo fornecedor,
considere efetuar testes dos dispositivos no local antes da implantação.
Verificar se algum sistema e procedimento foi implementado para
monitorar e corrigir falhas na alimentação de energia dos dispositivos
dual-corded.
A maioria dos dispositivos de TI possui esses recursos, mas
frequentemente os alarmes não são adequadamente monitorados ou roteados
para gerar uma ação de resposta.
Estabelecer procedimentos de instalação e controle de alterações para assegurar que os dois cabos de cada dispositivo
dual-corded sejam conectados em diferentes caminhos de alimentação de energia.
Certifique-se que os dois cabos estejam conectados na mesma fase (ou
par de fases) em cada uma das duas PDUs de rack e, de forma ideal, ao
mesmo grupo de tomadas de saída de cada uma das duas PDUs de rack.
Implemente codificação dos cabos por cores, assegurando que os eles
tenham o comprimento apropriado para a aplicação.
- Verificar as cargas single-corded do data center, confirmar se elas são críticas e, quando apropriado, fornecer suporte dual-path,
usando chaves de transferência automáticas baseadas em rack ou chaves
estáticas grandes (para clusters ou zonas de dispositivos single-corded).
- Saber quais dispositivos, se houver, são da configuração do tipo
“chaveamento de potência” e assegurar que existe um processo para
garantir que as entradas de potência primária de diferentes dispositivos
não estejam concentradas em um caminho de alimentação, mas sim
distribuídas entre todos os caminhos de forma equilibrada.
- Implementar um esquema de monitoramento em cada fase de cada
circuito do data center e em todos os níveis do sistema de distribuição
para fornecer dados sobre as correntes operacionais, permitindo
verificar se elas estão se aproximando do limite de 40% do nível de
projeto. Nesse caso, emitir alarmes quando qualquer corrente de operação
exceder 40% do nível de projeto. Verificar as margens antes de adições,
mudanças e alterações para evitar que qualquer corrente de operação
aumente acima de 50% dos valores nominais de projeto.
- Considerar a implementação de um protocolo de verificação onde
racks ou grupos de racks sejam periodicamente inspecionados para a
verificação de conexões de cabos apropriadas, testando-os
individualmente mediante o desligamento de cada fonte de alimentação. Ao
testar apenas uma pequena seção do data center, selecionando o momento
mais adequado para os testes, as consequências de uma falha são
limitadas. Essa prática aumenta enormemente a confiança no sistema dual-path.
Conclusão
Este artigo fornece informações sobre a operação de dispositivos de TI
dual-corded,
além de considerações sobre como implementá-los em data centers para
tolerância a falhas de um caminho de alimentação de energia.
Embora muitos dispositivos tenham múltiplos cabos de alimentação,
eles não se comportam todos da mesma maneira, e nem todos vão operar
corretamente quando conectados a apenas um cabo de alimentação. Um
projeto redundante eficaz para tolerância a falhas exige a garantia, por
meio de testes ou projeto, de que cada dispositivo atenda ao requisito
de operação no modo
single-cord.
Inevitavelmente, algum dispositivo que não seja
dual-corded precisará ser implantado em um data center dualpath. Nesse caso, alguns benefícios da operação
dual-corded
podem ser obtidos alimentando-os por uma chave de transferência baseada
em rack projetada para essa finalidade ou por uma chave estática fixa,
se houver inúmeros dispositivos para serem alimentados.
A presença de dois caminhos de alimentação não garante redundância, e
a perda de um caminho pode causar uma sobrecarga e falha no caminho
alternativo, a não ser que adições, mudanças e alterações ao longo do
tempo não tenham violado os critérios de projeto do sistema.
A solução para assegurar a tolerância a falhas é monitorar cada fase
de cada circuito do data center para garantir que nenhum deles seja
carregado além de 40%/50%. Esse monitoramento parece complexo devido ao
número de circuitos, mas é uma função padrão de algumas PDUs de racks e
software DCIM. Ao seguir o conjunto de regras simples descritas neste
artigo, os usuários podem assegurar um sistema
dual-path com níveis de redundância e disponibilidade planejados.
fonte:
Neil Rasmussen, da APC by Schneider Electric
Data: 20/08/2016
Edição: RTI Agosto 2016 - Ano XVII - No 195