নেটফ্লিক্সের সিমিয়ান আর্মি: নিয়ন্ত্রিত বিশৃঙ্খলায় স্থিতিশীলতা


[ নেটফ্লিক্সের “চাওস মাঙ্কি” হলো একটি স্বয়ংক্রিয় সিস্টেম যা তাদের ক্লাউড ইন্ফ্রাস্ট্রাকচারে র্যান্ডমভাবে সার্ভার বন্ধ করে দিয়ে সিস্টেমের স্থিতিস্থাপকতা পরীক্ষা করে। এই “নিয়ন্ত্রিত বিশৃঙ্খলা” বাস্তব বিপর্যয়ের পূর্বে দুর্বলতা শনাক্ত করে। চাওস মাঙ্কির সাথে, নেটফ্লিক্সের “সিমিয়ান আর্মি” তে আরও “মাঙ্কি” রয়েছে যেমন চাওস কং, লেটেন্সি মাঙ্কি, ডক্টর মাঙ্কি, যারা বিভিন্ন ধরণের সিস্টেমিক সমস্যা সিমুলেট করে। এই পদ্ধতির মূল উদ্দেশ্য হলো বাস্তব বিপর্যয়ের আগে সিস্টেমের প্রতিক্রিয়া পরীক্ষা করে তাকে আরও স্থিতিশীল ও নিরাপদ করে তোলা। ]

Netflix এর Chaos Monkey সম্পর্কে শুনেছেন?

Chaos Monkey কী? 🐒

কল্পনা করো তোমার বাড়িতে একটি বাঁদর আছে যে র‍্যান্ডমভাবে ইলেকট্রিক্যাল সুইচ অফ করে দেয়। তুমি কী করবে? ব্যাকআপ প্ল্যান বানাবে। Netflix ঠিক এই ধারণা থেকে শুরু করে তাদের ক্লাউড ইন্ফ্রাস্ট্রাকচারে অনিয়মিতভাবে সার্ভার/ইনস্ট্যান্স “kill” করে — কোন সাবধানবার্তা নেই, কোন শিডিউল নেই — শুধু BAM! তারপর তারা দেখে সিস্টেম কীভাবে রিয়েক্ট করে।

কেন এভাবে কাজ করা হয়? রিয়েল ডিজাস্টারে যদি সিস্টেম একটি সার্ভার/সার্ভিস লস সঠিকভাবে হ্যান্ডেল করতে না পারে, তখন বিপর্যয় বড় আকার ধারণ করে। তাই নিয়ন্ত্রিতভাবে “কেনোস” (controlled chaos) তৈরি করে দুর্বলতা আগে থেকেই খুঁজে বের করা উত্তম।

Netflix-এর Simian Army — অন্যান্য ‘মাঙ্কি’ গুলো

Chaos Kong / Chaos Gorilla: পুরো AWS অ্যাভেইলেবিলিটি জোন বা রিজিওন টেস্ট করে।

Latency Monkey: নেটওয়ার্ক কলকে আর্টিফিশিয়ালি ধীর করে, টাইমআউট হ্যান্ডলিং টেস্ট করে।

Doctor Monkey: CPU/Memory চাপ সিমুলেট করে পারফরম্যান্স ডিগ্রেডেশন টেস্ট করে।

Conformity / Security Monkey: কনফিগ কনসিস্টেন্সি ও সিকিউরিটি ইস্যু খুঁজে বের করে।

মূল শিক্ষা: আসল disaster ঘটার আগে, controlled failure টেস্ট করা আমাদেরকে প্রস্তুত করে। সিস্টেম কতটা resilient — তা তখনই বোঝা যায় যখন কিছু ভুল intentionally করা হয়, এবং সিস্টেম gracefully recover করতে পারে।

Reference:- https://netflixtechblog.com/the-netflix-simian-army-16e57fbab116

Posted by Raton Kumar Das, 5 days ago

More Blogs

author-image
Author
Raton Kumar Das
blog-image
Proactive Monitoring with Grafana Prometheus: Building Effective Dashboards for Alerting and Observability

Prometheus collects and stores application metrics, while Grafana visualizes this data in dashboards, enabling proactive issue detection and resolution through alerts, transforming reactive monitoring into a proactive approach....

10 minutes ago

Read more
blog-image
Laravel এর লগ ব্যবহার: বাগ ধরা ও অ্যাপ্লিকেশন মেইনটেইন করার গাইড

Laravel-এর ৮ ধরণের লগ লেভেল (Emergency থেকে Debug) ব্যবহার করে অ্যাপ্লিকেশনের সমস্যা সমাধান, মেইনটেইন করা এবং ব্যবহারকারীর অভিজ্ঞতা উন্নত করা সম্ভব। লগ ব্যবহার অপরিহার্য।...

3 days ago

Read more
ওয়েবসাইটের ২৪/৭ রিয়েলটাইম মনিটরিং ও অটোমেটিক এলার্ট সিস্টেম

একটি নতুন ওয়েবসাইট রিয়েলটাইম মনিটরিং সিস্টেম উন্নত করা হয়েছে যা Uptime Robot এর মতো কাজ করে। এটি ৫ মিনিট অন্তর সাইটের অবস্থা পরীক্ষা করে, ২৪/৭ আপটাইম/ডাউনটাইম ট্র্যাক করে, Discord-এ...

5 days ago

Read more
blog-image
Automated BSTI Mobile App Testing with AI Appium

Automated BSTI mobile app UAT testing using Appium, AI assistance (Claude, ChatGPT), and ExtentReport. Guidance from Tahsina Sabrin enabled successful completion. Full report available....

5 days ago

Read more