ここから本文です

サーバ運用監視について質問します。

kekerusuさん

2008/12/300:13:44

サーバ運用監視について質問します。

インフラ関係の仕事をしています。

サーバ運用監視のアラーム対応について対応方法が
イマイチわかりません。個人的にテキスト、インターネットで
調べたりしていますが、相変わらずわかりません。

例えば、

LoadAverage、CPUのアラーム対応。

個人的には、アラーム検知したサーバへログインして
『topコマンド』を入力して、各プロセスの走行状態を確認したり、
『sarコマンド』を入力してCPUの負荷状態を確認したり、
『vmstatコマンド』でメモリ使用の負荷状態を確認しています。
コマンドで確認するだけで、肝心な対応方法がイマイチわかりません。

監視しているサーバは8、9割(ほとんど)が
UNIX系(Linux、FreeBSD)のサーバです。

悔しいことに、リーダクラスの人がほとんど対応しています。
リーダクラスの人に質問したいのですが、質問をやりにくい状態です。
自分で調べたり、考えたりする事も大切なのはわかっています。


仕事をしていて、すごく悔しい思いで過ごしています。
こんな私ですが、ヒントおよび教えて頂ければ光栄です。


サーバ運用監視というものを理解していないのかもしれません。
恥ずかしいし、悔しいし、複雑な気分です。


以上です。

閲覧数:
1,646
回答数:
2
お礼:
250枚

違反報告

ベストアンサーに選ばれた回答

moobay9さん

2008/12/315:01:16

まずは闇雲にコマンドを叩くのではなく、CPUのロードアベレージが高いのであれば、「何者が」「何故」高めたのかを調べると同時に想像することが肝要です。適当に探してもわかりにくいですから、ある程度「あのサーバだったら httpd が暴走しているのかも」とか、ある程度の見込みをつけて調査にあたると原因究明がしやすくなるかもしれません。

あと運用はサーバのハードとソフト、両面に深い知識が必要になります。たとえばネットワークカードを動かす場合、ウェブサーバがデータ転送量を増やしたらCPUの使用率が上がっちゃうことがあります。この場合、Apache などが原因かというとそうではなく、要因ではあるけど原因はLANを使うのにCPUを使いやすいH/Wが主原因だった、という感じです。

これは勉強してもなかなか覚えれるものではなく、現場に遭遇していかないとなかなか身につきません。

というわけで最良の素材は実際のトラブル、次に過去のトラブルシューティングですね。どんなトラブルが発生し、それをどのように見つけ解決したかのドキュメントを先輩たちが保持しているんであれば、読ませてもらうと良いでしょう。

まったく同じトラブルは起きないでしょうけど、類似したものであれば意外とおきやすいですから、とにかく「こんなことがあったんだ」事例を見られるのがよろしいかと思われます。

この質問は投票によってベストアンサーに選ばれました!

ちょい足しを取り消しますが
よろしいですか?

  • 取り消す
  • キャンセル

このQ&Aで解決しましたか?質問する

閉じる

ベストアンサー以外の回答

1〜1件/1件中

yamjpkarlさん

編集あり2008/12/502:25:11

対応方法は以下のいずれかしかありません。

・処理が、ある時間帯に集中してしまう→運用方法の最適化、cronの時間帯を分散させる
・リソースの不足→サーバ増設・入れ替え
・アプリケーションの最適化(セッションの張り方、DBのロックの仕方など)

で、いずれもインフラ担当の仕事ではありませんね。
インフラ担当ができることは、障害時に何のプロセスが動いていたかを正確に記録することです。


そこから先は、ご自分で運用管理できるサーバを用意されて、いじり倒すしかありませんね。
お客のサーバをいじるわけにはいかないでしょうから。
がんばってみてください。

ちょい足しを取り消しますが
よろしいですか?

  • 取り消す
  • キャンセル

Q&Aをキーワードで検索:

Yahoo! JAPANは、回答に記載された内容の信ぴょう性、正確性を保証しておりません。
お客様自身の責任と判断で、ご利用ください。
本文はここまでです このページの先頭へ

ID/ニックネームを選択し、「追加する」ボタンを押してください。

閉じる

※知恵コレクションに追加された質問や知恵ノートは選択されたID/ニックネームのMy知恵袋で確認できます。

ほかのID/ニックネームで利用登録する