নেটফ্লিক্সের সিমিয়ান আর্মি: নিয়ন্ত্রিত বিশৃঙ্খলায় স্থিতিশীলতা


[ নেটফ্লিক্সের “চাওস মাঙ্কি” হলো একটি স্বয়ংক্রিয় সিস্টেম যা তাদের ক্লাউড ইন্ফ্রাস্ট্রাকচারে র্যান্ডমভাবে সার্ভার বন্ধ করে দিয়ে সিস্টেমের স্থিতিস্থাপকতা পরীক্ষা করে। এই “নিয়ন্ত্রিত বিশৃঙ্খলা” বাস্তব বিপর্যয়ের পূর্বে দুর্বলতা শনাক্ত করে। চাওস মাঙ্কির সাথে, নেটফ্লিক্সের “সিমিয়ান আর্মি” তে আরও “মাঙ্কি” রয়েছে যেমন চাওস কং, লেটেন্সি মাঙ্কি, ডক্টর মাঙ্কি, যারা বিভিন্ন ধরণের সিস্টেমিক সমস্যা সিমুলেট করে। এই পদ্ধতির মূল উদ্দেশ্য হলো বাস্তব বিপর্যয়ের আগে সিস্টেমের প্রতিক্রিয়া পরীক্ষা করে তাকে আরও স্থিতিশীল ও নিরাপদ করে তোলা। ]

Netflix এর Chaos Monkey সম্পর্কে শুনেছেন?

Chaos Monkey কী? 🐒

কল্পনা করো তোমার বাড়িতে একটি বাঁদর আছে যে র‍্যান্ডমভাবে ইলেকট্রিক্যাল সুইচ অফ করে দেয়। তুমি কী করবে? ব্যাকআপ প্ল্যান বানাবে। Netflix ঠিক এই ধারণা থেকে শুরু করে তাদের ক্লাউড ইন্ফ্রাস্ট্রাকচারে অনিয়মিতভাবে সার্ভার/ইনস্ট্যান্স “kill” করে — কোন সাবধানবার্তা নেই, কোন শিডিউল নেই — শুধু BAM! তারপর তারা দেখে সিস্টেম কীভাবে রিয়েক্ট করে।

কেন এভাবে কাজ করা হয়? রিয়েল ডিজাস্টারে যদি সিস্টেম একটি সার্ভার/সার্ভিস লস সঠিকভাবে হ্যান্ডেল করতে না পারে, তখন বিপর্যয় বড় আকার ধারণ করে। তাই নিয়ন্ত্রিতভাবে “কেনোস” (controlled chaos) তৈরি করে দুর্বলতা আগে থেকেই খুঁজে বের করা উত্তম।

Netflix-এর Simian Army — অন্যান্য ‘মাঙ্কি’ গুলো

Chaos Kong / Chaos Gorilla: পুরো AWS অ্যাভেইলেবিলিটি জোন বা রিজিওন টেস্ট করে।

Latency Monkey: নেটওয়ার্ক কলকে আর্টিফিশিয়ালি ধীর করে, টাইমআউট হ্যান্ডলিং টেস্ট করে।

Doctor Monkey: CPU/Memory চাপ সিমুলেট করে পারফরম্যান্স ডিগ্রেডেশন টেস্ট করে।

Conformity / Security Monkey: কনফিগ কনসিস্টেন্সি ও সিকিউরিটি ইস্যু খুঁজে বের করে।

মূল শিক্ষা: আসল disaster ঘটার আগে, controlled failure টেস্ট করা আমাদেরকে প্রস্তুত করে। সিস্টেম কতটা resilient — তা তখনই বোঝা যায় যখন কিছু ভুল intentionally করা হয়, এবং সিস্টেম gracefully recover করতে পারে।

Reference:- https://netflixtechblog.com/the-netflix-simian-army-16e57fbab116

Posted by Raton Kumar Das, 59 minutes from now

More Blogs

author-image
Author
Raton Kumar Das
ওয়েবসাইটের ২৪/৭ রিয়েলটাইম মনিটরিং ও অটোমেটিক এলার্ট সিস্টেম

একটি নতুন ওয়েবসাইট রিয়েলটাইম মনিটরিং সিস্টেম উন্নত করা হয়েছে যা Uptime Robot এর মতো কাজ করে। এটি ৫ মিনিট অন্তর সাইটের অবস্থা পরীক্ষা করে, ২৪/৭ আপটাইম/ডাউনটাইম ট্র্যাক করে, Discord-এ...

59 minutes from now

Read more
blog-image
Automated BSTI Mobile App Testing with AI Appium

Automated BSTI mobile app UAT testing using Appium, AI assistance (Claude, ChatGPT), and ExtentReport. Guidance from Tahsina Sabrin enabled successful completion. Full report available....

59 minutes from now

Read more
Team Refreshment Tour: Nikli-Mithamoin Haor, Kishoreganj

The Impl IT's team embarked on a refreshing retreat to Nikli-Mithamoin Haor in Kishoreganj (teamactivity). This blog documents our Onsite_support and Tech_support team's much-needed break from the demanding...

6 days ago

Read more
blog-image
Cilium: High-Performance, Secure Kubernetes Networking with eBPF

Cilium, an eBPF-powered Kubernetes CNI, excels in performance and security for AI/ML, microservices, and large deployments. Its identity-based policies and Hubble observability offer superior scalability and efficiency compared to...

6 days ago

Read more