رازهای پشت پرده قطعی گسترده AWS و بازگشت سریع سرورهای آمازون
در روزهایی که بسیاری از کسب وکارهای آنلاین به خدمات AWS وابسته اند، یک قطعی گسترده می تواند به معنای توقف بخش بزرگی از اینترنت باشد! چندی پیش، آمازون با یکی از بزرگ ترین مشکلات فنی سال خود روبه رو شد که باعث اختلال در دسترسی به سرویس های AWS در بخش هایی از آمریکا و اروپا شد. در این مقاله قصد داریم نگاهی بیندازیم به آنچه واقعاً در این ماجرا اتفاق افتاده و آمازون چگونه موفق شد وضعیت را کنترل کند. کلمات کلیدی مهم مثل AWS، آمازون، قطعی سرور، و سرویس ابری در این مقاله نقش پررنگی دارند، پس با ما همراه باشید.
براساس گزارش رسمی آمازون، ریشه اصلی حادثه مربوط به به روزرسانی یکی از سرویس های داخلی مدیریت ترافیک بوده که به صورت ناگهانی باعث بار اضافی بر روی سرورهای کنترل اصلی شده است. این مسئله در نهایت باعث شد بعضی از سیستم های اتوماتیک و ابزارهای مدیریتی نیز از کار بیفتند، که حل آن به اقدامات دستی از سوی تیم فنی نیاز داشت.
مطالعه مقاله قبلی در دسته بندی تکنولوژی با عنوان تحول امنیت سایبری از تاب آوری تا پادشکنندگی دیجیتال.
جزئیات فنی خطا چه بود؟
طبق توضیحات منتشر شده، تیم فنی در زمان به روزرسانی یکی از سرویس های ارتباطی اصلی، متوجه افزایش شدید درخواست ها در مسیر داخلی شبکه شد. این افزایش غیرمنتظره باعث شد سیستم های بالانس کننده ی ترافیک نتوانند درخواست ها را به درستی میان سرورهای AWS توزیع کنند. نتیجه؟ چندین سرویس مهم ابری، از جمله خدمات ذخیره سازی و APIها، برای ساعت ها از دسترس خارج شدند.
در همین زمان، تیم آمازون برای جلوگیری از گسترش مشکل، بخشی از زیرساخت ها را موقتاً از مدار خارج کرد تا بتوانند مسیر ترافیک را پایدار کنند. هرچند این کار باعث کندی یا اختلال در چندین سرویس شد، اما از توقف کامل شبکه جلوگیری کرد.
واکنش سریع و اقدامات بازگشتی
یکی از نکات جالب در این حادثه، سرعت واکنش تیم مهندسی آمازون بود. آن ها با استفاده از سیستم های مانیتورینگ خود، محل دقیق بروز خطا را شناسایی کرده و ظرف چند ساعت نسخه اصلاح شده ای از سرویس معیوب ارائه دادند. به گفته آمازون، اولین گام برای بازگرداندن وضعیت پایدار، محدود کردن حجم درخواست ها از سوی شبکه های خارجی بود تا سامانه ها بتوانند نفس بکشند.
بعد از چند ساعت کار فشرده، تیم های فنی موفق شدند چرخه های ارتباطی و جریان داده را به حالت نرمال بازگردانند. نکته جالب این بود که حتی سرویس هایی که ارتباط مستقیم با ناحیه ی مشکل دار نداشتند نیز تحت تأثیر قرار گرفتند، چرا که ترافیک ابری به طور زنجیره ای وابسته به چندین نقطه ی حیاتی در زیرساخت AWS است.
درس هایی که از این حادثه گرفتیم
این رویداد بزرگ به همه ی مدیران سیستم یادآوری کرد که حتی غول هایی مثل آمازون هم از خطاهای انسانی و ساختاری در امان نیستند. اهمیت بک آپ، مانیتورینگ دقیق، و طراحی زیرساخت مقاوم در برابر شکست بار دیگر به چشم آمد. همچنین آمازون قول داده است که الگوریتم های توزیع ترافیک را بازطراحی کند تا در آینده چنین اختلال هایی کاهش یابد.
تأثیر قطعی AWS بر کسب وکارها
در مدت زمانی که سرورهای آمازون دچار مشکل بودند، بسیاری از سرویس های محبوب جهانی از جمله پلتفرم های ویدئویی، فروشگاه های آنلاین، و اپلیکیشن های پرداخت تحت تأثیر قرار گرفتند. این اتفاق باعث شد کاربران متوجه شوند چقدر زندگی دیجیتالی ما وابسته به خدمات AWS شده است. بعضی شرکت ها نیز برای جلوگیری از خسارت، از سرویس های ابری جایگزین به عنوان راهکار پشتیبان استفاده کردند.
در نهایت، این حادثه اگرچه برای آمازون دردسرساز بود، اما تبدیل به فرصتی شد تا ساختار فنی خود را قوی تر کند و اعتماد کاربران را دوباره به دست آورد. کارشناسان فناوری امیدوارند با بهبودهای انجام شده در پروتکل های مانیتورینگ، شبکه ابری آمازون در آینده با پایداری بیشتری به کار ادامه دهد.
برای دریافت جدیدترین اخبار تکنولوژی با مجله هوش مصنوعی با ما همراه باشید.
نظرات کاربران