서버 접속 불가능 이유, 원인 분석 및 재발 방지 대책
date
May 30, 2023
slug
why-mastodon-server-was-down-and-how-we-did-to-prevent-that
status
Published
tags
마스토돈
자커마스
기술
summary
자커마스와 자커마스 서버에서 구동되던 마라탕.인생, 스플래터 서버 장애 원인과 재발 방지 대책
type
Post
안녕하세요. 자커마스/마라탕.인생/스플래터 3개 서버를 운영중인 유메카라고 합니다.
먼저, 29일 오후 9시 30분경 ~ 30일 오전 6시 50분까지 서버에 장애가 생겼던 이유에 대해 자세히 설명드리고자 합니다.
해당 서버는 서버의 안정적인 운영을 위해 실시간 복제와 별개로 한시간 단위 DB 스냅샷도 별도로 보존중입니다. 이는 백업 서버마저 사용 불가능해질 경우를 대비한 2차 백업이자, 작업중 실수로 DB를 지우더라도 손실을 최소화하기 위한 대책입니다.
이 한시간 단위 백업본은 서버 외부에 위치한 백업서버(라즈베리 파이로 구성한 홈서버입니다)로 이동되어 장기간 보관되고 있었습니다. 최근 해당 홈서버를 구동하던 USB 메모리가 과부하로 결국 뻗은 일이 있었습니다. 해당 서버에서 백업 진행과 동시에 오래된 백업본 파일을 삭제하도록 되어 있었는데 백업 자체가 장기간 실시되지 않으며 한시간 단위로 생성되던 백업본이 서버 하드디스크를 가득 채웠고, 서버 장애가 발생하였습니다.
이번 사건은 서버 관리자인 제 부실 관리로 벌어진 일로, 이번 일로 인해 피해를 입으신 모든 분들께 사과드립니다. 해당 백업본 파일로 인해 서버 장애가 발생하지 않도록 현재 백업본 정리 스크립트를 백업과 별개로 분리해 동작하도록 구성하였습니다. 즉 백업서버가 장애로 잠시 다운되어도 메인 서버에 장애가 발생하지 않습니다.