#ChatGpt_Incident ১১ ডিসেম্বর, OpenAI এর পুরো সিস্টেম ৪ ঘণ্টারও বেশি সময় ধরে বন্ধ ছিল। এতে বন্ধ ছিলো: - ChatGPT - API Services - Sora কিন্তু কেন? - কোনো cyber attack?? - নতুন features এ কোনো software bug?? না, এটি ঘটেছিল একটি নতুন monitoring tool আপডেটের এর কারণে! - যা আসলে system reliability বাড়ানোর জন্যই ডিপ্লয় করা হয়েছিল!!! এমন কেন হলো? একটা সহজ উদাহরণ দিয়ে বুঝি - কল্পনা করুন একটা বড় school cafeteria, যেখানে হঠাৎ করে প্রতিটি ছাত্রকে বলা হলো অন্য সবার নাম রেকর্ড করতে। একটা ছোট ক্লাসরুমে এটা সম্ভব হতে পারে, কিন্তু হাজার হাজার ছাত্র থাকা ক্যাফেটেরিয়ায় এটা অসম্ভব হয়ে পড়বে। কেন? সবাই সবাইকে নাম জিজ্ঞেস করবে। এক জনের মিলিয়ন মানুষকে নাম জিজ্ঞেস করতে হবে। আবার আরেকজনের মিলিয়ন মানুষকে নাম জিজ্ঞেস করতে হবে। চিন্তা করুন কি হারে কম্পেক্সিটি বাড়ছে? আসল 𝘁𝗲𝗰𝗵𝗻𝗶𝗰𝗮𝗹 কারণটা কী ছিল? OpenAI তাদের Kubernetes clusters এ একটা নতুন telemetry সার্ভিস ডিপ্লয় করেছিল। এই সার্ভিস টি Kubernetes control plane সম্পর্কে metrics কালেক্ট করার জন্য configure করা হয়েছিল। কিন্তু কনফিগারেশন এর কারণে cluster এর প্রতিটি node resource-intensive API কল করতে শুরু করে। যত বড় cluster, তত বেশি computational power resource intensive API call। তত বেশি লোড। নতুন সার্ভিসটি বেশি computational power ব্যবহার করেছে infrastructure এ চাপ সৃষ্টি করেছে। সমস্যাটা তিনভাবে হয়: ১. Telemetry service এর কারণে হাজার হাজার node থেকে একসাথে API request যায় ২. Cluster যত বড়, প্রতিটি request এর complexity ততই বাড়ে ৩. DNS caching এর কারণে প্রথমে সমস্যাটা ধরা পড়েনি, যার ফলে problematic deployment টা ছড়িয়ে পড়ে (এটা নিয়ে বিস্তারিত পরে বলব) কিন্তু কেন এটা টেস্টিং এ ধরা পড়লো না? কেন এটা প্রোডাকশনে গিয়ে ধরা পড়ল? প্রথমত, Testing environment আর Production environment এর মধ্যে অনেক পার্থক্য থাকে। Testing environment এ যেখানে কয়েক হাজার request handle করা হয়, Production এ সেখানে মিলিয়ন মিলিয়ন request handle করতে হয়। OpenAI এর ক্ষেত্রে প্রতি সেকেন্ডে লাখ লাখ request handle করতে হয়। Testing environment এ এত বড় scale এ টেস্ট করা প্রায় অসম্ভব। দ্বিতীয়ত, Monitoring tool নিজেই system এর performance monitor করে। তাই এই tool নিজের performance টেস্ট করা একটা চ্যালেঞ্জিং ব্যাপার। এটা অনেকটা নিজের চোখ দিয়ে নিজের চোখ দেখার মতো! কীভাবে ঠিক করা হলো? লোডের কারণে সিস্টেমেই ঢুকা যাচ্ছিল না। সিস্টেমে ঢুকতে পারলে সহজেই এর সমাধান হত। তাই প্রথম কাজ ছিলো লোড কমানো। কিভাবে? ১. Cluster scale-down করে Kubernetes API load কমানো হয় ২. Kubernetes admin API access block করে নতুন expensive requests আটকানো হয় ৩. API server resources বাড়িয়ে pending requests handle করা হয় শেষমেশ সিস্টেমে ঢুকে সমস্যা সমাধান করা যায়। এই incident থেকে বড় শিক্ষাটা হলো - distributed systems এ simple changes ও catastrophic failure আনতে পারে। তাই large-scale systems এ যেকোনো পরিবর্তন খুব সাবধানে, gradually করা উচিত। emergency procedures সব সময় ready রাখা উচিত। #ChatGpt #CIRT_News #DevSecOps #CIRT&Infra
The CIRT Infra team's St. Martin's Island trip was a rejuvenating blend of adventure and dedication (vitamin_sea Refreshment). Our luxurious journey (Teamactivity), involving air, bus, and ship travel,...
1 week ago
Read more৩৫টি জনপ্রিয় গুগল ক্রোম এক্সটেনশন হ্যাক হয়েছে, ২৬ লক্ষ ব্যবহারকারী ঝুঁকিতে। হ্যাকাররা ম্যালওয়্যার প্রবেশ করিয়ে ব্যক্তিগত তথ্য চুরি করেছে। সতর্ক থাকুন ও আপনার একাউন্টের নিরাপত্তা নিশ্চিত করুন। ...
3 weeks ago
Read moreগুগলের নতুন কোয়ান্টাম চিপ সুপারকম্পিউটারের চেয়ে কোটি কোটি গুণ দ্রুত সমস্যা সমাধান করে, ভবিষ্যতের প্রযুক্তি ও নিরাপত্তায় বিপ্লব আনবে, তবে নিরাপত্তা ঝুঁকিও তৈরি করবে। ...
3 weeks ago
Read moreThe CIRT and Infra team celebrated past and present members with a magical Mexican-themed gala dinner in Dhaka and Rajshahi, fostering camaraderie and tech discussions. ...
4 weeks ago
Read morePosted by Hamayoun Kabir Hemel, 1 month ago