নেটফ্লিক্সের সিমিয়ান আর্মি: নিয়ন্ত্রিত বিশৃঙ্খলায় স্থিতিশীলতা

[ নেটফ্লিক্সের “চাওস মাঙ্কি” হলো একটি স্বয়ংক্রিয় সিস্টেম যা তাদের ক্লাউড ইন্ফ্রাস্ট্রাকচারে র্যান্ডমভাবে সার্ভার বন্ধ করে দিয়ে সিস্টেমের স্থিতিস্থাপকতা পরীক্ষা করে। এই “নিয়ন্ত্রিত বিশৃঙ্খলা” বাস্তব বিপর্যয়ের পূর্বে দুর্বলতা শনাক্ত করে। চাওস মাঙ্কির সাথে, নেটফ্লিক্সের “সিমিয়ান আর্মি” তে আরও “মাঙ্কি” রয়েছে যেমন চাওস কং, লেটেন্সি মাঙ্কি, ডক্টর মাঙ্কি, যারা বিভিন্ন ধরণের সিস্টেমিক সমস্যা সিমুলেট করে। এই পদ্ধতির মূল উদ্দেশ্য হলো বাস্তব বিপর্যয়ের আগে সিস্টেমের প্রতিক্রিয়া পরীক্ষা করে তাকে আরও স্থিতিশীল ও নিরাপদ করে তোলা। ]

Netflix এর Chaos Monkey সম্পর্কে শুনেছেন?

Chaos Monkey কী? 🐒

কল্পনা করো তোমার বাড়িতে একটি বাঁদর আছে যে র‍্যান্ডমভাবে ইলেকট্রিক্যাল সুইচ অফ করে দেয়। তুমি কী করবে? ব্যাকআপ প্ল্যান বানাবে। Netflix ঠিক এই ধারণা থেকে শুরু করে তাদের ক্লাউড ইন্ফ্রাস্ট্রাকচারে অনিয়মিতভাবে সার্ভার/ইনস্ট্যান্স “kill” করে — কোন সাবধানবার্তা নেই, কোন শিডিউল নেই — শুধু BAM! তারপর তারা দেখে সিস্টেম কীভাবে রিয়েক্ট করে।

কেন এভাবে কাজ করা হয়? রিয়েল ডিজাস্টারে যদি সিস্টেম একটি সার্ভার/সার্ভিস লস সঠিকভাবে হ্যান্ডেল করতে না পারে, তখন বিপর্যয় বড় আকার ধারণ করে। তাই নিয়ন্ত্রিতভাবে “কেনোস” (controlled chaos) তৈরি করে দুর্বলতা আগে থেকেই খুঁজে বের করা উত্তম।

Netflix-এর Simian Army — অন্যান্য ‘মাঙ্কি’ গুলো

Chaos Kong / Chaos Gorilla: পুরো AWS অ্যাভেইলেবিলিটি জোন বা রিজিওন টেস্ট করে।

Latency Monkey: নেটওয়ার্ক কলকে আর্টিফিশিয়ালি ধীর করে, টাইমআউট হ্যান্ডলিং টেস্ট করে।

Doctor Monkey: CPU/Memory চাপ সিমুলেট করে পারফরম্যান্স ডিগ্রেডেশন টেস্ট করে।

Conformity / Security Monkey: কনফিগ কনসিস্টেন্সি ও সিকিউরিটি ইস্যু খুঁজে বের করে।

মূল শিক্ষা: আসল disaster ঘটার আগে, controlled failure টেস্ট করা আমাদেরকে প্রস্তুত করে। সিস্টেম কতটা resilient — তা তখনই বোঝা যায় যখন কিছু ভুল intentionally করা হয়, এবং সিস্টেম gracefully recover করতে পারে।

Reference:- https://netflixtechblog.com/the-netflix-simian-army-16e57fbab116

Posted by Raton Kumar Das, 1 week ago

More Blogs

Proactive Monitoring with Grafana Prometheus: Building Effective Dashboards for Alerting and Observability

Laravel এর লগ ব্যবহার: বাগ ধরা ও অ্যাপ্লিকেশন মেইনটেইন করার গাইড

Automated BSTI Mobile App Testing with AI Appium

Team Refreshment Tour: Nikli-Mithamoin Haor, Kishoreganj

Cilium: High-Performance, Secure Kubernetes Networking with eBPF

বিনা খরচে VS Code-এ লোকাল AI কোডিং এজেন্ট

অনলাইন সুরক্ষা ক্লিয়ারেন্স সিস্টেম প্রশিক্ষণ সম্পন্ন

কিশোরগঞ্জ টিম রিফ্রেশমেন্ট: ঐতিহ্য, প্রকৃতি ও আনন্দের সমন্বয়

কন্টাক্ট ফর্ম: সোশ্যাল ইঞ্জিনিয়ারিং ও সাইবার নিরাপত্তা ঝুঁকি

২.৫ বিলিয়ন জিমেইল অ্যাকাউন্ট ঝুঁকিতে: গুগলের ডেটা ফাঁস ও নিরাপত্তা

Author

Raton Kumar Das

প্রযুক্তির অগ্রগতি: জীবনকে সহজ ও উন্নত করার নতুন পথ

প্রযুক্তির অগ্রগতি আমাদের জীবনকে আরও সহজ, সুরক্ষিত ও উন্নত করছে। কৃত্রিম বুদ্ধিমত্তা (AI) সিদ্ধান্ত গ্রহণে সহায়তা করবে, ইন্টারনেট অফ থিংস (IoT) স্মার্ট কানেক্টিভিটি নিশ্চিত করবে, ৫জি ও অগমেন্টেড রিয়ালিটি (AR)...

26 minutes ago

Proactive Monitoring with Grafana Prometheus: Building Effective Dashboards for Alerting and Observability

Prometheus collects and stores application metrics, while Grafana visualizes this data in dashboards, enabling proactive issue detection and resolution through alerts, transforming reactive monitoring into a proactive approach....

3 days ago

Laravel এর লগ ব্যবহার: বাগ ধরা ও অ্যাপ্লিকেশন মেইনটেইন করার গাইড

Laravel-এর ৮ ধরণের লগ লেভেল (Emergency থেকে Debug) ব্যবহার করে অ্যাপ্লিকেশনের সমস্যা সমাধান, মেইনটেইন করা এবং ব্যবহারকারীর অভিজ্ঞতা উন্নত করা সম্ভব। লগ ব্যবহার অপরিহার্য।...

6 days ago

ওয়েবসাইটের ২৪/৭ রিয়েলটাইম মনিটরিং ও অটোমেটিক এলার্ট সিস্টেম

একটি নতুন ওয়েবসাইট রিয়েলটাইম মনিটরিং সিস্টেম উন্নত করা হয়েছে যা Uptime Robot এর মতো কাজ করে। এটি ৫ মিনিট অন্তর সাইটের অবস্থা পরীক্ষা করে, ২৪/৭ আপটাইম/ডাউনটাইম ট্র্যাক করে, Discord-এ...

1 week ago

নেটফ্লিক্সের সিমিয়ান আর্মি: নিয়ন্ত্রিত বিশৃঙ্খলায় স্থিতিশীলতা

Netflix এর Chaos Monkey সম্পর্কে শুনেছেন?

Chaos Monkey কী? 🐒

More Blogs

Proactive Monitoring with Grafana Prometheus: Building Effective Dashboards for Alerting and Observability

Laravel এর লগ ব্যবহার: বাগ ধরা ও অ্যাপ্লিকেশন মেইনটেইন করার গাইড

Automated BSTI Mobile App Testing with AI Appium

Team Refreshment Tour: Nikli-Mithamoin Haor, Kishoreganj

Cilium: High-Performance, Secure Kubernetes Networking with eBPF

বিনা খরচে VS Code-এ লোকাল AI কোডিং এজেন্ট

অনলাইন সুরক্ষা ক্লিয়ারেন্স সিস্টেম প্রশিক্ষণ সম্পন্ন

কিশোরগঞ্জ টিম রিফ্রেশমেন্ট: ঐতিহ্য, প্রকৃতি ও আনন্দের সমন্বয়

কন্টাক্ট ফর্ম: সোশ্যাল ইঞ্জিনিয়ারিং ও সাইবার নিরাপত্তা ঝুঁকি

২.৫ বিলিয়ন জিমেইল অ্যাকাউন্ট ঝুঁকিতে: গুগলের ডেটা ফাঁস ও নিরাপত্তা

Author

Raton Kumar Das

প্রযুক্তির অগ্রগতি: জীবনকে সহজ ও উন্নত করার নতুন পথ

Proactive Monitoring with Grafana Prometheus: Building Effective Dashboards for Alerting and Observability

Laravel এর লগ ব্যবহার: বাগ ধরা ও অ্যাপ্লিকেশন মেইনটেইন করার গাইড

ওয়েবসাইটের ২৪/৭ রিয়েলটাইম মনিটরিং ও অটোমেটিক এলার্ট সিস্টেম

Address

About Us

Useful Links

Follow Us

Subscribe to get updates