https://x.com/pathofexile/status/1856959685938876787
Incident Report for Today's Deploy
Today at 9am NZT we took down the realm for the deployment of the new account system. This migration was expected to take around 4 hours.
The first thing that went wrong was that the migration took longer to run than it did on our test hardware. This extended the downtime for an extra hour past the point that we had budgeted for.
After the realm was brought back up around 2PM NZT, we found that many players were getting disconnected frequently. This was caused by crashes in one of the backend master servers that caused online account session information to be lost.
We spent around 15 minutes trying to investigate the causes of these crashes but were unable to immediately come up with any solutions so we decided to roll back the patch.
Unfortunately in this case, what would normally take a very short amount of time to roll back took a very long time due to the extensive database migrations that had occurred during deployment. The databases are very large and restoring the backup took quite some time. The realm was brought back and the game restored at 3PM NZT.
The restore of the website databases took even longer and resulted in extended website downtime as well (the website was not available until 4:30PM NZT).
After investigation we have discovered that the crashes were caused by a very simple flaw. The constant that represents the length of an account name used in the account session was still accidentally using an old value, before we added the discriminator. If a player logged in with an account name longer than 27 characters then it would result in an exception being thrown when trying to copy the account name into the account session.
This on its own should not have resulted in the master crashing, but this occurred in an area of the code base that was designed to be exception free, which resulted in the entire process crashing.
The bug itself is already fixed, and we have also changed the code to be more resistant to exceptions occurring.
However, we have decided to delay the redeploy of the patch until Monday NZT. It is clear that we need to do another round of QA on this deployment to make sure that we have found all corner cases before we can be confident in deploying it again.
This is not the level of service you should expect from Grinding Gear Games and we are very sorry for the extended downtime.
Posted by Natalia_GGG
on Nov 14, 2024, 4:14:29 PMGrinding Gear Games
https://www.pathofexile.com/forum/view-thread/3586510
아래는 DeepL 번역 입니다.
오늘 배포에 대한 인시던트 보고서
오늘 오전 9시에 새로운 계정 시스템 배포를 위해 영역을 다운시켰습니다. 이 마이그레이션은 약 4시간 정도 소요될 것으로 예상되었습니다. 가장 먼저 문제가 된 것은 테스트 하드웨어에서보다 마이그레이션을 실행하는 데 시간이 더 오래 걸렸다는 점입니다. 이로 인해 다운타임이 예상했던 시간보다 1시간 더 연장되었습니다. 한국 시간으로 오후 2시경에 서버가 복구된 후, 많은 플레이어의 연결이 자주 끊기는 것을 발견했습니다. 이는 백엔드 마스터 서버 중 하나에서 충돌이 발생하여 온라인 계정 세션 정보가 손실된 것이 원인이었습니다. 약 15분 동안 이러한 충돌의 원인을 조사했지만 즉시 해결책을 찾을 수 없어 패치를 롤백하기로 결정했습니다. 불행히도 이 경우에는 배포 중에 발생한 광범위한 데이터베이스 마이그레이션으로 인해 롤백에 매우 짧은 시간이 걸렸습니다. 데이터베이스가 매우 커서 백업을 복원하는 데 상당한 시간이 걸렸습니다. 한국 시간으로 오후 3시에 영역이 복구되고 게임이 복원되었습니다. 웹사이트 데이터베이스 복원은 더 오래 걸렸고 웹사이트 다운타임도 길어졌습니다(한국 시간으로 오후 4시 30분까지 웹사이트가 제공되지 않았습니다).
조사 결과, 아주 간단한 결함으로 인해 충돌이 발생했다는 사실을 발견했습니다. 계정 세션에서 사용되는 계정 이름의 길이를 나타내는 상수가 판별자를 추가하기 전의 이전 값을 실수로 사용하고 있었습니다. 플레이어가 27자보다 긴 계정 이름으로 로그인하면 계정 이름을 계정 세션에 복사하려고 할 때 예외가 발생했습니다. 이 자체만으로는 마스터가 충돌하지 않아야 했지만 예외가 발생하지 않도록 설계된 코드 기반 영역에서 예외가 발생하여 전체 프로세스가 충돌했습니다. 버그 자체는 이미 수정되었으며 예외 발생에 더 강하도록 코드도 변경했습니다. 하지만 패치 재배포는 월요일까지 연기하기로 결정했습니다. 이번 배포에 대해 다시 한 번 QA를 수행하여 모든 구석진 케이스를 찾아낸 후 다시 배포할 수 있는지 확인해야 합니다. 이는 Grinding Gear Games에서 기대할 수 있는 서비스 수준이 아니며, 가동 중단 시간이 길어진 점에 대해 매우 죄송합니다.
12월에는 할 수 있는거 맞....지?
https://poe.game.daum.net/forum/view-thread/3586530 공식 번역 공지가 떴네욥 열심히 일은 하고 있는듯 하네용 ㅎㅎ;
별도 스테이지 환경 없이 바로 라이브에 디플로이한건가..ㄷㄷ
12월에 얼리엑세스 못하겠네요. 한국 카카오섭만 가능하려나.
아니면 한국 카카오서버만 POE1이랑 2분리 운영하거나. 얼리엑세스 요구제한 풀고.