برای سال ها، داستان ازمرکز دادهمصرف انرژی از یک قوس قابل پیش بینی پیروی کرد. مطمئناً دیجیتالیسازی در حال رشد بود، اما افزایش کارآیی ناشی از سرورهای بهتر، مجازیسازی و یکپارچهسازی ابر، کل مصرف برق را بهطور شگفتآوری ثابت نگه داشت. تقاضای برق جهانی مرکز داده حدود 1 درصد از کل مصرف برق - تقریباً 200 تراوات ساعت در سال - برای بخش بهتری از یک دهه بود.
اون دوران داره تموم میشه
همگرایی هوش مصنوعی مولد، استخراج ارزهای دیجیتال، محاسبات لبه و رشد تصاعدی دستگاههای متصل، منحنی کارایی قدیمی را شکسته است. برآوردهای صنعت اکنون نشان می دهد که تقاضای برق مرکز داده با نرخی سالانه رشد می کند که از اوایل دهه 2000 مشاهده نشده است. در برخی از مناطق - ایرلند، ویرجینیای شمالی، سنگاپور - مراکز داده در حال حاضر 15 تا 25 درصد از کل مصرف برق را تشکیل می دهند و تنظیم کننده ها را مجبور می کند تا ساخت و سازهای جدید را متوقف کنند.
در مقابل این پسزمینه، انتخابهای زیرساختی که زمانی مانند جزئیات فنی به نظر میرسیدند - معماری خنککننده، توپولوژی توزیع برق، برنامهریزی تراکم رک - به تصمیمات اتاق هیئت تبدیل شدهاند. هزینه انرژی دیگر یک آیتم خطی نیست. این یک محدودیت برای رشد است.
اثربخشی مصرف انرژی یا PUE، برای نزدیک به دو دهه معیار استاندارد کارایی صنعت مرکز داده بوده است. این یک نسبت ساده است: توان کل امکانات تقسیم بر توان تجهیزات فناوری اطلاعات.
PUE 2.0 به این معنی است که به ازای هر وات تغذیه سرورها و ذخیره سازی، یک وات دیگر به سرمایش، روشنایی، تلفات تبدیل توان و سایر هزینه های سربار می رود. PUE 1.2 به این معنی است که سربار تنها 0.2 وات در هر وات IT مصرف می کند.
این صنعت به طور گسترده ای سطوح بر اساس PUE را پذیرفته است:
| سطح | PUE | DCiE | معنی آن چیست |
|---|---|---|---|
| پلاتین | <1.25 | > 0.80 | کارایی در سطح جهانی، معمولاً به خنک کننده رایگان یا خنک کننده مایع نیاز دارد |
| طلا | 1.25 - 1.43 | 0.70 - 0.80 | بسیار کارآمد، قابل دستیابی با طرح های مدرن در آب و هوای معتدل |
| نقره ای | 1.43 - 1.67 | 0.60 - 0.70 | قابل قبول برای امکانات قدیمی تر یا آب و هوای گرمتر |
| برنز | 1.67 - 2.00 | 0.50 - 0.60 | معمولی برای مراکز داده قدیمی بدون بازسازی عمده |
| منصفانه | 2.00 - 2.50 | 0.40 - 0.50 | راندمان ضعیف، هزینه عملیاتی بالا |
| بیچاره | >2.50 | <0.40 | ناکارآمدی بحرانی، احتمالاً نیازمند توجه فوری است |
مشکل این است که بسیاری از سازمان ها در واقع PUE خود را نمی شناسند. تخمین می زنند. حدس می زنند. یا فقط در کنتور برق اصلی اندازه گیری می کنند و بقیه را فرض می کنند.
یک نظرسنجی صنعتی در سال 2023 نشان داد که تقریباً 40 درصد از اپراتورهای مرکز داده هرگز PUE را در سطح رک اندازه گیری نکرده بودند. در میان کسانی که این کار را انجام دادند، اسپرد بین PUE گزارش شده و واقعی به طور متوسط 0.3 امتیاز بود - برای انتقال یک تسهیلات از طلا به نقره بدون اینکه کسی متوجه شود کافی است.
درک اینکه چرا PUE بسیار متفاوت است، با بررسی محل خروج نیرو از مرکز داده شروع می شود.
در یک تاسیسات معمولی هوا خنک با PUE در حدود 1.8، خرابی تقریباً به این صورت است:
بار خنک کننده بزرگترین متغیر است. یک تأسیسات در آب و هوای معتدل که از هوای بیرون برای خنکسازی رایگان استفاده میکند ممکن است تنها 15 درصد از توان غیر فناوری اطلاعات خود را صرف خنکسازی کند. همین تسهیلات در آب و هوای گرمسیری با خنک کننده مکانیکی در تمام سال ممکن است 40 درصد هزینه کند.
به همین دلیل است که ارائهدهندگان هماکومیشن PUE را در سطح تسهیلات تبلیغ میکنند اما PUE را در اندازهگیری مشتری ارائه میکنند - اعداد مختلف، پیامدهای متفاوت. مشتری هزینه تمام آن را پرداخت می کند.
مدیریت مرکز داده سنتی یک محیط نسبتاً ایستا را در نظر گرفت. قفسه ها در طول ماه ها یا سال ها پر می شدند. خنک کننده را می توان به آرامی تنظیم کرد. توزیع برق از روز اول بسیار زیاد بود.
عصر ابر فرضیات را تغییر داد. قفسه ها اکنون روزها پر می شوند. بارهای کاری به طور خودکار در سرورها جابجا می شوند. خوشه های هوش مصنوعی با چگالی بالا ممکن است سه برابر رک های محاسباتی همه منظوره مجاور را جذب کنند.
این تغییرات باعث شده است که مدیریت زیرساخت تجدید نظر شود. سه روند برجسته هستند.
اول، چگالی به طور ناموزون در حال افزایش است.یک رک سرور استاندارد یک دهه پیش 5-8 کیلووات می کشید. امروزه قفسه های همه منظوره 10-15 کیلووات می کشند. رک های آموزشی محاسباتی و هوش مصنوعی با کارایی بالا به طور معمول بیش از 30 کیلووات در هر رک هستند. برخی از آنها بیش از 50 کیلووات است.
این چالشهای مدیریت حرارتی را ایجاد میکند که خنککننده هوا برای حل آن تلاش میکند. با 20 کیلووات در هر رک، خنک کننده هوا با مهار مناسب همچنان موثر باقی می ماند. در 30 کیلووات، حاشیه ای می شود. در 40 کیلووات و بالاتر، خنک کننده مایع از اختیاری به ضروری حرکت می کند.
دوم، برنامه ریزی ظرفیت پیش بینی شده است.روش قدیمی - خرید ظرفیت بیشتر از نیاز و اجازه دادن به آن بیکار - دیگر در مقیاس کار نمی کند. ظرفیت بیکار هم هزینه سرمایه و هم هزینه نگهداری مداوم دارد.
سیستمهای مدیریت زیرساخت مدرن از دادههای تاریخی و پیشبینی حجم کار برای پیشبینی زمان تمام شدن برق، خنککننده یا فضای رک استفاده میکنند. بهترین سیستم ها می توانند توصیه کنند که آیا باید ظرفیت موجود را مجدداً پیکربندی کرد یا سخت افزار جدید سفارش داد، چند روز یا چند هفته قبل از اینکه یک محدودیت حیاتی شود.
ثالثاً، الزامات دید دارای سابق استلایه بندی شدهیک مرکز داده سنتی ممکن است قدرت را در سطح PDU ردیابی کند. یک تسهیلات مدرن نیاز به دید در سطح رک دارد، گاهی اوقات در سطح سرور، و به طور فزاینده ای در سطح بار کاری - دانستن اینکه کدام ماشین مجازی یا کانتینر کدام نیرو را هدایت می کند.
زیرساخت مرکز دادهنرم افزار مدیریت (DCIM) بیش از یک دهه است که وجود دارد، اما پذیرش نابرابر باقی مانده است. کمتر از نیمی از مراکز داده سازمانی یک سیستم کامل DCIM را مستقر کرده اند. بسیاری از آنها فقط از کسری از قابلیت های آن استفاده کردند.
یک سیستم DCIM به درستی اجرا شده چهار کار را انجام می دهد:
مدیریت دارایی.هر سرور، سوئیچ، PDU و واحد خنک کننده در یک پایگاه داده مدیریت پیکربندی (CMDB) ردیابی می شود. مکان، رتبهبندی برق، اتصالات شبکه، تاریخچه تعمیر و نگهداری - همه اینها. این به نظر اساسی می رسد، اما بسیاری از سازمان ها هنوز دارایی ها را در صفحات گسترده که ماه ها بین به روز رسانی ها فاصله دارند، ردیابی می کنند.
نظارت در زمان واقعیمصرف برق در سطح PDU یا رک، دما و رطوبت در نقاط عرضه و برگشت، وضعیت سیستم خنک کننده، سلامت باتری UPS. هنگامی که پارامترها از نقطه تنظیم منحرف می شوند، آلارم ها فعال می شوند. هدف این است که مشکلات را قبل از اینکه باعث خرابی شوند، شناسایی کنید.
برنامه ریزی ظرفیت.این سیستم می داند که چه مقدار توان و ظرفیت خنک کننده در دسترس است، چه مقدار در حال استفاده است، و چه مقدار برای استقرار آینده رزرو شده است. میتواند تأثیر افزودن یک رک جدید با چگالی بالا یا بازنشستگی مجموعهای از سرورهای قدیمیتر را مدلسازی کند.
تجسم.دوقلوی دیجیتالی مرکز داده - قفسه به رک، کاشی به کاشی - شرایط فعلی را نشان می دهد و به اپراتورها اجازه می دهد تا تغییرات را شبیه سازی کنند. اضافه کردن 10 کیلووات بار به ردیف سه، ستون چهار: آیا این مقدار از ظرفیت خنک کننده فراتر می رود؟ قبل از اینکه کسی تجهیزات را جابجا کند، سیستم پاسخ می دهد.
کاهش مصرف انرژی مرکز داده مرموز نیست. روش ها به خوبی درک شده است. چالش انضباط اجراست.
دمای هوای عرضه را افزایش دهید.اکثر مراکز داده سرد هستند - 18 تا 20 درجه سانتیگراد در بازگشت واحد خنک کننده - زیرا این همان کاری است که اپراتورها همیشه انجام می دادند. دستورالعمل های ASHRAE اکنون 24 تا 27 درجه را توصیه می کنند. هر درجه افزایش انرژی خنک کننده را تقریباً 4 درصد کاهش می دهد. دویدن در دمای 26 درجه به جای 20 درجه باعث صرفه جویی 20 تا 25 درصدی در قدرت خنک کننده می شود.
اختلاط هوای سرد و گرم را حذف کنید.محفظه راهروی گرم، محفظه راهروی سرد یا مجاری اگزوز عمودی، هوای خنککننده را مجبور میکنند تا به جای چرخش کوتاه در جلوی قفسهها، به جایی که لازم است برود. مهار به تنهایی معمولاً انرژی خنک کننده را 15 تا 25 درصد کاهش می دهد.
از درایوهای سرعت متغیر استفاده کنید.فن های با سرعت ثابت و پمپ ها انرژی را در بار جزئی هدر می دهند. درایوهای سرعت متغیر جریان هوا و جریان آب را با تقاضای واقعی مطابقت می دهند. دوره های بازپرداخت مقاوم سازی معمولاً 1-3 سال است.
بهینه سازی عملکرد یو پی اساکثر سیستمهای UPS در حالت تبدیل مضاعف به طور مداوم کار میکنند - AC را به DC تبدیل میکنند و به AC برمیگردانند حتی زمانی که برق شهری تمیز است. سیستمهای UPS مدرن زمانی که کیفیت برق اجازه میدهد میتوانند به حالت سازگار با محیط زیست تغییر کنند و به جای 94-96 درصد، 99 درصد راندمان را به دست آورند. در صورت قطع برق شبکه، زمان انتقال کوتاه به باتری است. برای بارهای IT با منابع تغذیه طراحی شده برای چنین انتقالی، خطر حداقل است.
توزیع ولتاژ بالاتر را اتخاذ کنید.توزیع برق در 415 ولت به جای 208 ولت تلفات توزیع را تقریباً 25 درصد کاهش می دهد. این به PDU های سازگار و منابع تغذیه سرور نیاز دارد، اما بسیاری از دستگاه های مدرن از آن پشتیبانی می کنند.
شرکت Shangyu CPSY، یک شرکت با فناوری پیشرفته با تمرکز بر زیرساخت مرکز داده، PUE 1.3 را برای راه حل های مرکز داده مدولار خود گزارش می دهد. این شرکت را در ردیف طلا قرار می دهد و به سمت پلاتینیوم حرکت می کند.
25 درصد صرفه جویی انرژی در مقایسه با طرح های معمولی ناشی از عوامل متعددی است. سیستم های UPS مدولار با راندمان 97.4 درصد در سطح سیستم، تلفات توزیع را کاهش می دهند که در غیر این صورت 15 تا 20 درصد کار می کنند. دستگاه های تهویه مطبوع دقیق با کمپرسورهای سرعت متغیر و فن های EC، خروجی خنک کننده را به جای کار با ظرفیت ثابت، مطابق با بار حرارتی واقعی تنظیم می کنند. و چیدمان فیزیکی - محفظه راهروی گرم، فاصله بهینه قفسه، کف بلند با کاشیهای سوراخدار با اندازه مناسب - به مدیریت جریان هوا میپردازد که بسیاری از امکانات کارآمد را تضعیف میکند.
مجموعه گواهینامه های این شرکت شامل ISO 9001 (مدیریت کیفیت) و ISO 27001 (مدیریت امنیت اطلاعات) است. استقرار مشتریان آن شامل مشارکت با Huawei، ZTE، و Inspur، با تاسیسات صادراتی در ایالات متحده، بریتانیا، آلمان، فرانسه و استرالیا است.
برای سالها، خنککننده مایع یک فناوری ویژه برای مراکز ابررایانه بود. که به سرعت در حال تغییر است.
کلاسترهای آموزشی هوش مصنوعی با استفاده از NVIDIA H100 یا پردازندههای گرافیکی B200 آینده 30 تا 50 کیلووات در هر رک در پیکربندیهای صرفاً خنککننده هوا تولید میکنند. در این تراکم ها، خنک کننده هوا به سرعت جریان هوای بالا نیاز دارد - فن های بلند، قفسه های عمیق، و کنترل حرارتی هنوز حاشیه ای.
خنک کننده مایع مستقیم به تراشه 60-80 درصد گرمای منبع را از بین می برد. تراشه ها خنک تر کار می کنند. هواداران کندتر می دوند. تهویه مطبوع اتاق تنها گرمای باقیمانده از منابع تغذیه، حافظه و سایر اجزا را کنترل می کند.
افزایش بهره وری قابل توجه است. امکانات با خنک کننده مستقیم به تراشه مقادیر PUE را از 1.1 تا 1.2 گزارش می دهند. معاوضه ها عبارتند از هزینه سرمایه بالاتر، مدیریت نشت پیچیده تر، و نیاز به تصفیه آب با درجه تسهیلات.
خنکسازی کامل غوطهوری - غوطهور کردن کل سرورها در سیال دی الکتریک - PUE را به زیر 1.1 میبرد اما تخصصی باقی میماند. اکثر مراکز داده تجاری ابتدا خنک کننده مستقیم به تراشه و بعداً برای مناطق با چگالی بالا غوطه ور می شوند.
پلت فرم مرکز داده SHANGYU شامل مقرراتی برای معماری های خنک کننده هوا و مایع است، با تشخیص این که استقرار با چگالی بالا در آینده بدون توجه به طراحی تاسیسات، نیازمند مدیریت حرارتی مبتنی بر سیال است.
اکثر تیم های عملیات مرکز داده هنوز به صورت واکنشی کار می کنند. زنگ خطر به صدا در می آید. یکی تحقیق میکنه یک اصلاح اعمال می شود. چرخه تکرار می شود.
گذار به مدیریت پیش بینی نیازمند سه قابلیت است که بسیاری از سازمان ها فاقد آن هستند.
داده های پیکربندی کاملدانستن آنچه در مرکز داده وجود دارد - هر سرور، هر سوئیچ، هر PDU، هر واحد خنک کننده - پایه و اساس است. بدون داده های دقیق CMDB، برنامه ریزی ظرفیت حدس و گمان است.
تله متری دانه ایاندازه گیری توان در سطح رک حداقل است. اندازه گیری توان هر سرور بهتر است. انتساب قدرت در سطح بار کاری بهترین اما سخت ترین است.
تجزیه و تحلیلی که سیگنال را از نویز تشخیص می دهد.افزایش دما در یک قفسه ممکن است به معنای خرابی فن باشد. افزایش دما در نیمی از مرکز داده ممکن است به معنای خرابی چیلر باشد. سیستم باید متمایز کند و پاسخ ها را بر این اساس توصیه کند.
پلت فرم DCIM از SHANGYU پشتیبانی از دستگاه SNMP و Modbus، رابط های کاربردی مبتنی بر وب و ویندوز، و ادغام با دوربین های شبکه را برای تصویربرداری با رویداد فراهم می کند. اهداف بیان شده ساده هستند: کاهش زمان توقف پرهزینه، کاهش هزینه های عملیاتی روزانه از طریق کنترل کامل محیطی، و بهبود دید مدیریت و قابلیت ردیابی.
مصرف انرژی مرکز داده تقریباً 1 درصد تقاضای جهانی برق را تشکیل می دهد. این عدد تا زمانی که در متن قرار نگیرد، کوچک به نظر می رسد. تقریباً معادل کل مصرف برق انگلستان است.
مهمتر از آن، سرعت رشد در حال افزایش است. پیشبینیهای صنعت نشان میدهد که تقاضای برق مرکز داده سالانه 10 تا 15 درصد تا سال 2030 افزایش مییابد که ناشی از هوش مصنوعی، پذیرش ابر و گسترش مداوم دستگاههای متصل است. با این نرخ، مراکز داده تا پایان دهه 3 تا 4 درصد از برق جهانی را مصرف خواهند کرد.
افزایش بهره وری که مصرف برق را در دهه قبل ثابت نگه داشت، از مجازی سازی سرور (کاهش تعداد سرورهای فیزیکی)، بهبود کارایی درایو (انتقال از دیسک های چرخان به SSD) و گسترش گسترده خنک کننده رایگان (استفاده از هوای بیرون به جای تبرید مکانیکی) حاصل شد. آن میوه های کم آویزان عمدتاً چیده شده اند.
موج بعدی کارآیی از خنکسازی مایع، توزیع ولتاژ بالاتر، کنترلهای خنککننده بهینهشده با هوش مصنوعی و - شاید مهمتر از همه - همسویی بهتر بین ظرفیت زیرساخت و بار واقعی فناوری اطلاعات حاصل میشود. این قطعه آخر به نوعی دید در زمان واقعی و تجزیه و تحلیل پیشبینیکننده نیاز دارد که سیستمهای DCIM ارائه میکنند، اما امکانات کمی به طور کامل استفاده میکنند.
آیا PUE واقعی خود را می دانید، نه عدد موجود در برگه مشخصات؟اگر در خروجی یو پی اس و در ورودی تجهیزات فناوری اطلاعات اندازه گیری نکرده اید، نمی دانید. تفاوت سربار واقعی شماست.
آیا سیستم های خنک کننده شما با یکدیگر می جنگند؟در بسیاری از مراکز داده، واحدهای CRAC با باندهای دما و رطوبت همپوشانی دارند. یک واحد رطوبت زدایی می کند در حالی که واحد دیگر مرطوب می کند. یکی خنک می شود و دیگری دوباره گرم می شود. این غیرعادی نیست. همچنین کارآمد نیست.
مصرف برق بیکار سرورهای شما چقدر است؟دادههای صنعت نشان میدهد که سرورهای سازمانی معمولی 30 تا 40 درصد از حداکثر توان خود را وقتی هیچ کاری انجام نمیدهند، جذب میکنند. خاموش کردن یا به خواب رفتن سرورهای استفاده نشده بالاترین میزان بهره وری موجود است. همچنین نادیده گرفته ترین است.
آیا می توانید بدون نقض مشخصات تجهیزات دمای هوای خود را دو درجه افزایش دهید؟به احتمال زیاد بله. اکثر تجهیزات برای دمای ورودی 25-27 درجه درجه بندی می شوند. اکثر مراکز داده در دمای 20-22 درجه کار می کنند. این شکاف شش درجه ای نشان دهنده سال ها انرژی خنک کننده غیر ضروری است.
آخرین باری که کارایی UPS خود را تأیید کردید چه زمانی بود؟راندمان پلاک نام در بار کامل با ضریب قدرت کامل اندازه گیری می شود. راندمان دنیای واقعی در بار جزئی با ضریب قدرت دنیای واقعی می تواند 5-10 امتیاز کمتر باشد.