はじめに こんにちは、バックエンドエンジニアの田中 湧大 (@Romira915)です。 近頃、PR TIMESのバックエンド基盤においてAmazon RDS for PostgreSQLのCPU使用率が継続的に上昇していることが観測されるようになりました。 以前は20%前後→現在は40%前後に上昇しており、ピークタイムには90%を超えてアラートが発報される状況も発生しています。 このまま放置した場合、以下のようなリスクが顕在化する恐れがあります。 API レスポンスの悪化によるユーザー体験の低下 重要なデータ操作失敗によるサービス全体へのクリティカルな影響 そこで、バックエンドエンジニア数名で 一時的な改善チーム を立ち上げ、原因調査および改善に着手しました。 本記事では、その調査内容と改善対応についてまとめます。 調査方針 まず、CPU 使用率の上昇を 時間軸の観点 で切り分けました。

