вторник, 29 мая 2018 г.

Относительно недавно столкнулись с проблемой, когда узел Network Controller оказался в состоянии "Database corruption". База сервис фабрики перестала реплицироваться с партнерами и сервиса NC не запускались. Стоит отметить, что 2 два других узла работали штатно.

1. попытка запуска нового экземпляра базы

 2. присоединяемся к базе

3. Собственно проблема
и далее следовала остановка экземпляра.

Пока мы решали кейс, Network Controller, спустя некоторое время - 1,5 месяца (не всё зависит от Microsoft), решил, что: "ну его в баню, пересоздам ка я базу". Собственно после событий на скриншотах ниже узел Network Controller вернулся к жизни.

После создания нового экземпляра базы, как в предыдущем примере, узел NC перевёл её в "обслуживание".




и далее проблема ушла.


Также, есть возможность форсировать этот момент с помощью команды:

Remove-ServiceFabricReplica -ReplicaOrInstanceId 131535831061893748 -PartitionId 886a4647-7202-49e0-8084-a39e1e149b57 -NodeName MSK***

Замените значения, выполненные курсивом на присутствующие в Вашей инфраструктуре.

Примечание: ситуация ненормальная, но после самоустранения проблемы решено было не копать БД NC (экономия часов MPS). Хорошо, что механизм саморазрешения таких проблем есть. 

Комментариев нет:

Отправить комментарий

Уважаемый коллега, Ваш комментарий пройдёт модерацию, чтобы избежать спам-атак в ленте. Спасибо за понимание.