воскресенье, 17 марта 2019 г.

Replacing motherboard on Azure Stack Compute Node

Привет, столкнулся очень с интересной историей:
не всегда field engineer производителя аппаратного обеспечения имеет понимание о том, что находится внутри Azure Stack (какое ПО и как оно работает). Необходимо чётко контролировать выполнение им рекомендация Microsoft, т.к. Action Plan, которой такой инженер пытается выполнить может содержать ошибки.

Это я к тому, что после замены материнской платы  в вычислительном узле необходимо выполнить Repair этого узла и никак иначе (более того это написано в документации Microsoft, в. отличии от AP инженера).

В моём случае всё закончилось благополучно, вовремя выявленный пробел в AP от вендора позволил минимизировать риск.

Достаточно было выполнить repair узла, это нивелировало  ошибки NcHostAgent, SLBHostAgent, также, это добавило информацию об узле в вывод Get-AzureStackStampInformation.

Узел добавляется в кластер в процессе Repair.

Единственное, что вызывало вопрос: ошибка ниже, вызванная контроллером.





   Severity: Critical
 

Reason         : Communication has been lost to the AzS-Node04, Enclosure #: PDNNF0ARHA70L1, HP, P840.

Recommendation : Start or replace the storage enclosure.

Location       : AzS-Node04, Enclosure #: PDNNF0ARHA70L1, HP, P840

Description    : Enclosure #: PDNNF0ARHA70L1, HP, P840



При этом S2D чувствовали себя нормально, все виртуальные диски были здоровы.
Проблема возникла из-за "зависшей" информации в службе здоровья кластера S2D.

После перезапуска - проблема решилась.