Привет, столкнулся очень с интересной историей:
не всегда field engineer производителя аппаратного обеспечения имеет понимание о том, что находится внутри Azure Stack (какое ПО и как оно работает). Необходимо чётко контролировать выполнение им рекомендация Microsoft, т.к. Action Plan, которой такой инженер пытается выполнить может содержать ошибки.
Это я к тому, что после замены материнской платы в вычислительном узле необходимо выполнить Repair этого узла и никак иначе (более того это написано в документации Microsoft, в. отличии от AP инженера).
В моём случае всё закончилось благополучно, вовремя выявленный пробел в AP от вендора позволил минимизировать риск.
Достаточно было выполнить repair узла, это нивелировало ошибки NcHostAgent, SLBHostAgent, также, это добавило информацию об узле в вывод Get-AzureStackStampInformation.
Узел добавляется в кластер в процессе Repair.
Единственное, что вызывало вопрос: ошибка ниже, вызванная контроллером.
Severity: Critical
При этом S2D чувствовали себя нормально, все виртуальные диски были здоровы.
Проблема возникла из-за "зависшей" информации в службе здоровья кластера S2D.
После перезапуска - проблема решилась.
не всегда field engineer производителя аппаратного обеспечения имеет понимание о том, что находится внутри Azure Stack (какое ПО и как оно работает). Необходимо чётко контролировать выполнение им рекомендация Microsoft, т.к. Action Plan, которой такой инженер пытается выполнить может содержать ошибки.
Это я к тому, что после замены материнской платы в вычислительном узле необходимо выполнить Repair этого узла и никак иначе (более того это написано в документации Microsoft, в. отличии от AP инженера).
В моём случае всё закончилось благополучно, вовремя выявленный пробел в AP от вендора позволил минимизировать риск.
Достаточно было выполнить repair узла, это нивелировало ошибки NcHostAgent, SLBHostAgent, также, это добавило информацию об узле в вывод Get-AzureStackStampInformation.
Узел добавляется в кластер в процессе Repair.
Единственное, что вызывало вопрос: ошибка ниже, вызванная контроллером.
Severity: Critical
Reason
: Communication has been lost to the AzS-Node04, Enclosure #: PDNNF0ARHA70L1,
HP, P840.
Recommendation : Start or replace the storage
enclosure.
Location :
AzS-Node04, Enclosure #: PDNNF0ARHA70L1, HP, P840
Description : Enclosure #:
PDNNF0ARHA70L1, HP, P840
При этом S2D чувствовали себя нормально, все виртуальные диски были здоровы.
Проблема возникла из-за "зависшей" информации в службе здоровья кластера S2D.
После перезапуска - проблема решилась.