ساختارهای نوین مراکز پردازش داده
مشکلات جدید ذخیره اطلاعات پردازشی در مراکز داده، باعث اتخاذ راهحلهای جدید فناوری اطلاعات میشود. نیاز به فضای ذخیرهسازی اشتراکی ارزان برای مجازیسازی باعث ازدیاد شبکههای ذخیرهسازی (SAN) میشود که درنتیجه سیستمهای عظیم ذخیره اطلاعات اکنون در مراکز داده مدرن هستند. هزینه بالای فناوری اطلاعات برای اجرای برنامهها و ذخیره مقدار زیادی از دادههای ایجادشده و مدیریتشده توسط SAN باعث اتخاذ رایانش ابری میشود و به سازمانها امکان دسترسی اقتصادی به برنامهها و منابع گرانقیمت با ارزش بالا مانند ذخیرهسازی برای تأمین انرژی برنامههای بومی را میدهد.
چالش بزرگ پردازش الگوریتمها
اما چالش جدید استفاده از الگوریتمهای هوش مصنوعی و یادگیری ماشین با دادههای بسیار بزرگ است. توانایی به اشتراکگذاری منابع ذخیرهسازی فلاش NVMe با سرعت بالا دیگر نمیتواند با عملکرد موردنیاز برای محاسبه مؤثر آن دادهها در زمان واقعی برای عملیات AI + ML (هوش مصنوعی و یادگیری ماشین) مطابقت داشته باشد. منابع پردازش گرافیک (GPU) که میتوانند دادهها را بهصورت سهبعدی (یعنی محاسبات تصویری)، در مقابل محاسبات خطی و معاملات پردازندههای سنتی محاسبه کنند، برای بهبود عملکرد دادهها برای پاسخگویی به نیازهای AI + ML، در اکوسیستم مرکز داده وارد شدهاند.
این اعداد بهخوبی داستان این تحول مداوم مرکز داده را بیان میکنند. درآمد اخیر از ارائهدهنده GPU NVIDIA (یک شریک Liqid) نشان میدهد که این شرکت 167 درصد رشد درآمد سالانه را در تجارت مرکز داده خود با هوش مصنوعی و یادگیری ماشین (AI + ML) و استقرارهای محاسباتی با عملکرد بالا باعث رشد در صنعت تجربه کرده است. علاوه بر این، سال گذشته گروه تجزیهوتحلیل گارتنر پیشبینی کرد که تا سال 2023، پذیرش GPU در مرکز داده نسبت به بازیهای رایانهای بسیار سریعتر رشد خواهد کرد: 22.53٪ CAGR در مقابل 6.69٪.
GPU
GPU ها منابعی با ارزش و دارای برچسب قیمت متناسب با یکدیگر هستند. NVIDIA باز هم این مقدار را افزایش داده و چالش خوبی را برای انتخاب رقبای مرکز داده خود به راه انداخته است. پردازنده گرافیکی جدید A100 Tensor Core این شرکت 20 برابر سریعتر از نسل قبلی پردازنده گرافیکی آن است و آن را در میان سریعترین شتابدهندهها در هر محیط مرکز داده قرار میدهد. NVIDIA A100 را “شتابدهنده جهانی” برای عملیات هوش مصنوعی بعلاوه یادگیری ماشین، تحقیقات علمی و محاسبات بصری مبتنی بر ابر میدانند.
بهراحتی میتوان پیشبینی کرد که آن سازمانهایی که به دنبال یک مزیت رقابتی در محاسبات نسل بعدی و مبتنی بر هوش مصنوعی هستند، مشتاقانه این دستگاهها را در بیشترین مقدار مجاز بودجه مستقر خواهند کرد. باز هم، پول بهخوبی داستان را روایت میکند: گارتنر پیشبینی میکند که با افزایش معماریهای مرکز داده با هوش مصنوعی، 2.9 تریلیون دلار ارزش تجاری در سال 2021 ایجاد میشود.
موجی از نوآوری شتابدهنده، تصویب هوش مصنوعی را هدایت میکند
با توجه به اینکه GPU ها بهطور فزایندهای به جدول برای محیطهای رقابتی مرکز داده با بارهای متنوع هوش مصنوعی و یادگیری ماشین (AI + ML) تبدیل میشوند، مهم است که به یاد داشته باشید GPU ها بههیچوجه تنها شتابدهندههای داده نیستند که برای تأمین نیازهای روزافزون دادههای مرتبط با AI + ML تکامل مییابند.
علاوه بر پیشرفتهای عملکردی که توسط A100 فعال شده است، NVIDIA Mellanox اکنون در حال تولید پرسرعت ConnectX-6 SmartNIC است. ConnectX یک کنترلکننده اترنت قدرتمند و ایمن 25/50 گیگابایت بر ثانیه را ارائه میدهد. این دستگاه بهگونهای طراحی شده است که مدیریت سازگارترین سختافزار شبکه را در کل مرکز داده از طریق نرمافزار امکان پذیر میسازد و این فقط از عهده NVIDIA برآمده است. فناوری حافظه Intel Optane با استفاده از نرمافزاری که توسط هوش مصنوعی و یادگیری ماشین ساخته میشود، محصولات ذخیرهسازی حالتجامد (SSD) مبتنی بر Intel Core را به سرعت نزدیک به حافظه میدهد. PCI-Express (PCIe) یکی از اساسیترین و رابط فلزی مستقیم که دستگاههای مرکز داده جداگانه را از طریق CPU متصل میکند، اخیراً PCI-Express 4.0 بهروز شده است که عملکردی دو برابر مشخصات قبلی خود را ارائه میدهد. پروتکلهای ذخیرهسازی NVMe پیشرفتهای چشمگیری را نسبت به پروتکلهای قدیمی مانند SATA یا SaaS برای پیشرفتهای بیشتر در سرعت دادهها ارائه میدهند.اگر همه اینها را با هم گره بزنید: الزامات عملکرد جدید خواستار این سبک از معماری جدید است.
درحالیکه تمام این راهحلهای جدید برای متخصصان هوش مصنوعی و یادگیری ماشین مرکز داده هیجانانگیز است، اما معماری آنها در محیطهای موجود و پیشبینی عملکرد با سرعت در حال تغییر به سرعت موردنیاز است. معماریهای مرکز داده سنتی GPU و سایر منابع شتابدهنده را در هنگام خرید در تنظیمات قفل میکنند. بدون توانایی به اشتراکگذاری این منابع ارزشمند در یک محیط شبکهای، نتیجه آن میتواند عدم استفاده و اتلاف قابلتوجه باشد. مجدداً با استفاده از مثال A100، چندین A100 در حجم غیرممکن قبلی جمع میشوند تا کاربران بتوانند GPU ها را به روشی به اشتراک بگذارند که توانایی پشتیبانی نیازهای دادههای برنامههای هوش مصنوعی و یادگیری ماشین (AI + ML) را دارد.
سازمانهای دیگر به دنبال بهینهسازی بهتر منابع از طریق NVMe- و GPU-over Fabric (NVME- / GPU-oF) هستند، که از نرمافزار برای جمعآوری قدرت این منابع از طریق شبکههای اترنت با سرعتبالا و شبکههای نامحدود برای توزیع گستردهتر استفاده میکنند. قابلیتهای NVMe و GPU از راه دور و فراتر از تنظیمات ثابت سنتی است. نرمافزار ترکیبی امکان به اشتراکگذاری همه این منابع را در هر حجم موردنیاز، در تعادل کامل با سایر سختافزارهای با کارایی بالا فراهم میکند.