OpenAI-এর ChatGPT বন্ধ: একটি নতুন মনিটরিং টুলের ভুল কনফিগারেশনের ফলে বিপর্যয়
গত ১১ ডিসেম্বর, একটি নতুন মনিটরিং টুল আপডেটের কারণে OpenAI-এর ChatGPT, API সার্ভিস এবং Sora ৪ ঘণ্টার বেশি সময় বন্ধ ছিল। এই টুলটি সিস্টেমের নির্ভরযোগ্যতা বাড়ানোর জন্যই ডিপ্লয় করা হলেও, Kubernetes ক্লাস্টারে অত্যধিক API রিকোয়েস্টের সৃষ্টি করে সিস্টেমে চরম চাপ সৃষ্টি করে। প্রোডাকশন এনভায়রনমেন্টের বিশাল স্কেলের কারণে টেস্টিং এ এই সমস্যা ধরা পড়েনি। সমস্যা সমাধানের জন্য ক্লাস্টার স্কেল-ডাউন করা, API অ্যাক্সেস ব্লক করা এবং API সার্ভার রিসোর্স বাড়ানো হয়। এই ঘটনা থেকে শিক্ষা: বৃহৎ স্কেলের ডিস্ট্রিবিউটেড সিস্টেমে ছোট পরিবর্তনও বিরাট ব্যর্থতা ডেকে আনতে পারে, তাই ধাপে ধাপে পরিবর্তন আনতে হবে এবং জরুরী প্রক্রিয়া সর্বদা...