[B! SRE] oinumeのブックマーク

株式会社Topotal | DevOpsに必要なSREの技術を提供

サービスの価値を最大限に引き出すためのエンジニアリングを提供します。 SRE のワークフローをもとに、DevOps フィードバックループの高速化に必要な仕組みの導入を支援します。大規模サービスの運用実績のある SRE チームが、インフラレイヤだけでなくアプリケーションレイヤにも踏み込みながら改善に取り組みます。

oinume 2021/06/29

SRE
company

リンク

Google SRE - Infrastructure Change Management book

If you’re rolling out a large-scale infrastructure change, you know it can be like swapping out a jet engine while flying. Staying aloft takes coordination and communication with many teams, good processes and documentation, risk identification and management, monitoring, and tracking of the change progress—not to mention dealing with the catastrophic challenges that crop up midflight. In this rep

oinume 2021/06/04

SRE

リンク

Case Studies in Infrastructure Change Management

oinume 2021/03/21

GFSをコロッサスにマイグレーションした話

google
SRE

リンク

メルカリのマイクロサービス/Kubernetes運用事例はバイブルだ - orangeitems’s diary

多くの人に見てほしいスライドメルカリのマイクロサービス/Kubernetes運用事例を拝見しました。 speakerdeck.com こちら、中身はメルカリにおけるマイクロサービス・Kubernetesの実際の運用状況をまとめた内容になっています。この内容が欲しかった。この世の中で、会社のITサービス基盤をKubernetesにてマイクロサービス化できている企業はほとんどいません。言い切ります。まだ仮想マシンのWEB+AP+DBの3層構成のままです。もしくは、AWS Lambraなどサーバレスでマイクロサービス化した事例は多数出てきていますがこれは基盤にKubernetesが使われている可能性はあるにしろ、ユーザーは意識していません。 Kubernetesをエンタープライズに適用する。このケースではGCEですが企業としてどのようなオペレーションになるのか、どういう思考錯誤があるのかが

oinume 2019/11/29

Merpay
SRE

リンク

ごく普通のエンジニアリング運用チームを強力な SRE チームに変える | Google Cloud 公式ブログ

※この投稿は米国時間 2019 年 10 月 4 日に Google Cloud blog に投稿されたものの抄訳です。運用チームにエンジニアを絶えず増員しても、お客様の拡大には対処しきれません。Google のサイト信頼性エンジニアリング（SRE）の原則を適用すれば、運用上の問題にソフトウェアエンジニアリングによる解決手法を取り入れることで、うまく対処できます。本稿では、従来のネットワークエンジニアリングの通例にとらわれず、SRE に転換することで、Google がグローバルネットワーク運用チームを変革した方法をご紹介します。Google の本番環境ネットワーキングチームがこの問題にどのように取り組んだのかをお読みいただき、ご自分の組織に SRE の原則をどのように取り入れることができるのかを検討してみてください。スケーリングの限界2011 年、Google の本番環境ネット

oinume 2019/11/15

google
SRE

リンク

Sre lounge#9 タップルSREの軌跡と描く未来

Le document sem ble contenir une série de chiffres sans contexte clair. Il est possible qu'il s'agisse de données ou d'une liste, mais il n'y a pas d'informations supplémentaires pour en déterminer le sujet. Aucune conclusion ou analyse n'est fournie.

oinume 2019/05/30

SRE

リンク

SLO、SLI、SLA について考える : CRE が現場で学んだこと | Google Cloud 公式ブログ

前回の『CRE が現場で学んだこと』シリーズでは、システムの可用性を担保するにあたってターゲットとする正確な数値をいかにして割り出すか、ということについてお話ししました。このターゲットをシステムのサービスレベル目標（SLO）と呼びます。今後、システムが十分な信頼性を保って稼働しているか、またシステムにどんな設計やアーキテクチャの変更が必要かについて議論する際は、システムが継続的に SLO を満たしているという枠の中で語る必要があります。 SLO の適合性は直接測定することが可能です。システムにおいて精査が成功した頻度で計るのです。これをサービスレベル指標（SLI）といいます。システムが過去 1 週間 SLO を満たしつつ稼働していたかどうかを評価する場合に、SLI からサービスの可用率を把握するのです。定められた SLO を下回っているとなれば問題があるということですから、他の場所に

oinume 2018/11/05

SRE
SLO

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

SREに関するoinumeのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2026年1月第3週）

はてなブックマークの計画メンテナンスのお知らせ（2026年1月23日(金) 深夜1:30〜3:00）

今週のはてなブックマーク数ランキング（2026年1月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス