ここから本文です

解決済みのQ&A

サーバ運用監視について質問します。

kekerusuさん

サーバ運用監視について質問します。

インフラ関係の仕事をしています。

サーバ運用監視のアラーム対応について対応方法が
イマイチわかりません。個人的にテキスト、インターネットで
調べたりしていますが、相変わらずわかりません。

例えば、

LoadAverage、CPUのアラーム対応。

個人的には、アラーム検知したサーバへログインして
『topコマンド』を入力して、各プロセスの走行状態を確認したり、
『sarコマンド』を入力してCPUの負荷状態を確認したり、
『vmstatコマンド』でメモリ使用の負荷状態を確認しています。
コマンドで確認するだけで、肝心な対応方法がイマイチわかりません。

監視しているサーバは8、9割(ほとんど)が
UNIX系(Linux、FreeBSD)のサーバです。

悔しいことに、リーダクラスの人がほとんど対応しています。
リーダクラスの人に質問したいのですが、質問をやりにくい状態です。
自分で調べたり、考えたりする事も大切なのはわかっています。


仕事をしていて、すごく悔しい思いで過ごしています。
こんな私ですが、ヒントおよび教えて頂ければ光栄です。


サーバ運用監視というものを理解していないのかもしれません。
恥ずかしいし、悔しいし、複雑な気分です。


以上です。

  • 質問日時:
    2008/12/3 00:13:44
  • 解決日時:
    2008/12/17 03:27:54
  • 閲覧数:
    1,636
    回答数:
    2
  • お礼:
    知恵コイン
    250枚

ベストアンサーに選ばれた回答

moobay9さん

まずは闇雲にコマンドを叩くのではなく、CPUのロードアベレージが高いのであれば、「何者が」「何故」高めたのかを調べると同時に想像することが肝要です。適当に探してもわかりにくいですから、ある程度「あのサーバだったら httpd が暴走しているのかも」とか、ある程度の見込みをつけて調査にあたると原因究明がしやすくなるかもしれません。

あと運用はサーバのハードとソフト、両面に深い知識が必要になります。たとえばネットワークカードを動かす場合、ウェブサーバがデータ転送量を増やしたらCPUの使用率が上がっちゃうことがあります。この場合、Apache などが原因かというとそうではなく、要因ではあるけど原因はLANを使うのにCPUを使いやすいH/Wが主原因だった、という感じです。

これは勉強してもなかなか覚えれるものではなく、現場に遭遇していかないとなかなか身につきません。

というわけで最良の素材は実際のトラブル、次に過去のトラブルシューティングですね。どんなトラブルが発生し、それをどのように見つけ解決したかのドキュメントを先輩たちが保持しているんであれば、読ませてもらうと良いでしょう。

まったく同じトラブルは起きないでしょうけど、類似したものであれば意外とおきやすいですから、とにかく「こんなことがあったんだ」事例を見られるのがよろしいかと思われます。

この質問は投票によってベストアンサーが選ばれました!

ベストアンサー以外の回答

(1件中1〜1件)

 

yamjpkarlさん

対応方法は以下のいずれかしかありません。

・処理が、ある時間帯に集中してしまう→運用方法の最適化、cronの時間帯を分散させる
・リソースの不足→サーバ増設・入れ替え
・アプリケーションの最適化(セッションの張り方、DBのロックの仕方など)

で、いずれもインフラ担当の仕事ではありませんね。
インフラ担当ができることは、障害時に何のプロセスが動いていたかを正確に記録することです。


そこから先は、ご自分で運用管理できるサーバを用意されて、いじり倒すしかありませんね。
お客のサーバをいじるわけにはいかないでしょうから。
がんばってみてください。

  • 違反報告
  • 編集日時:2008/12/5 02:25:11
  • 回答日時:2008/12/3 01:59:33

Q&Aをキーワードで検索:

総合Q&Aランキング

Yahoo! JAPANは、回答に記載された内容の信ぴょう性、正確性を保証しておりません。
お客様自身の責任と判断で、ご利用ください。

知恵コレに追加する

閉じる

知恵コレクションをするID/ニックネームを選択し、「追加する」ボタンを押してください。
※知恵コレクションに追加された質問や知恵ノートは選択されたID/ニックネームのMy知恵袋で確認できます。

ほかのID/ニックネームで利用登録する