[ নেটফ্লিক্সের “চাওস মাঙ্কি” হলো একটি স্বয়ংক্রিয় সিস্টেম যা তাদের ক্লাউড ইন্ফ্রাস্ট্রাকচারে র্যান্ডমভাবে সার্ভার বন্ধ করে দিয়ে সিস্টেমের স্থিতিস্থাপকতা পরীক্ষা করে। এই “নিয়ন্ত্রিত বিশৃঙ্খলা” বাস্তব বিপর্যয়ের পূর্বে দুর্বলতা শনাক্ত করে। চাওস মাঙ্কির সাথে, নেটফ্লিক্সের “সিমিয়ান আর্মি” তে আরও “মাঙ্কি” রয়েছে যেমন চাওস কং, লেটেন্সি মাঙ্কি, ডক্টর মাঙ্কি, যারা বিভিন্ন ধরণের সিস্টেমিক সমস্যা সিমুলেট করে। এই পদ্ধতির মূল উদ্দেশ্য হলো বাস্তব বিপর্যয়ের আগে সিস্টেমের প্রতিক্রিয়া পরীক্ষা করে তাকে আরও স্থিতিশীল ও নিরাপদ করে তোলা। ]
কল্পনা করো তোমার বাড়িতে একটি বাঁদর আছে যে র্যান্ডমভাবে ইলেকট্রিক্যাল সুইচ অফ করে দেয়। তুমি কী করবে? ব্যাকআপ প্ল্যান বানাবে। Netflix ঠিক এই ধারণা থেকে শুরু করে তাদের ক্লাউড ইন্ফ্রাস্ট্রাকচারে অনিয়মিতভাবে সার্ভার/ইনস্ট্যান্স “kill” করে — কোন সাবধানবার্তা নেই, কোন শিডিউল নেই — শুধু BAM! তারপর তারা দেখে সিস্টেম কীভাবে রিয়েক্ট করে।
কেন এভাবে কাজ করা হয়? রিয়েল ডিজাস্টারে যদি সিস্টেম একটি সার্ভার/সার্ভিস লস সঠিকভাবে হ্যান্ডেল করতে না পারে, তখন বিপর্যয় বড় আকার ধারণ করে। তাই নিয়ন্ত্রিতভাবে “কেনোস” (controlled chaos) তৈরি করে দুর্বলতা আগে থেকেই খুঁজে বের করা উত্তম।
Netflix-এর Simian Army — অন্যান্য ‘মাঙ্কি’ গুলো
Chaos Kong / Chaos Gorilla: পুরো AWS অ্যাভেইলেবিলিটি জোন বা রিজিওন টেস্ট করে।
Latency Monkey: নেটওয়ার্ক কলকে আর্টিফিশিয়ালি ধীর করে, টাইমআউট হ্যান্ডলিং টেস্ট করে।
Doctor Monkey: CPU/Memory চাপ সিমুলেট করে পারফরম্যান্স ডিগ্রেডেশন টেস্ট করে।
Conformity / Security Monkey: কনফিগ কনসিস্টেন্সি ও সিকিউরিটি ইস্যু খুঁজে বের করে।
মূল শিক্ষা: আসল disaster ঘটার আগে, controlled failure টেস্ট করা আমাদেরকে প্রস্তুত করে। সিস্টেম কতটা resilient — তা তখনই বোঝা যায় যখন কিছু ভুল intentionally করা হয়, এবং সিস্টেম gracefully recover করতে পারে।
Reference:- https://netflixtechblog.com/the-netflix-simian-army-16e57fbab116
Posted by Raton Kumar Das, 1 day ago
Laravel-এর ৮ ধরণের লগ লেভেল (Emergency থেকে Debug) ব্যবহার করে অ্যাপ্লিকেশনের সমস্যা সমাধান, মেইনটেইন করা এবং ব্যবহারকারীর অভিজ্ঞতা উন্নত করা সম্ভব। লগ ব্যবহার অপরিহার্য।...
56 minutes from now
Read moreএকটি নতুন ওয়েবসাইট রিয়েলটাইম মনিটরিং সিস্টেম উন্নত করা হয়েছে যা Uptime Robot এর মতো কাজ করে। এটি ৫ মিনিট অন্তর সাইটের অবস্থা পরীক্ষা করে, ২৪/৭ আপটাইম/ডাউনটাইম ট্র্যাক করে, Discord-এ...
1 day ago
Read moreAutomated BSTI mobile app UAT testing using Appium, AI assistance (Claude, ChatGPT), and ExtentReport. Guidance from Tahsina Sabrin enabled successful completion. Full report available....
1 day ago
Read moreThe Impl IT's team embarked on a refreshing retreat to Nikli-Mithamoin Haor in Kishoreganj (teamactivity). This blog documents our Onsite_support and Tech_support team's much-needed break from the demanding...
1 week ago
Read more