וִידֵאוֹ: Diving into the TPU v2 and v3 (נוֹבֶמבֶּר 2024)
בשבועות האחרונים היו מספר מבואות חשובים של פלטפורמות מחשוב חדשות שתוכננו במיוחד לעבודה על רשתות עצביות עמוקות ללמידה של מכונות, כולל "TPUs" בענן של גוגל ועיצוב וולטה החדש של Nvidia.
בעיניי זו המגמה המעניינת ביותר בארכיטקטורת מחשבים - אפילו יותר מ- AMD וכעת אינטל מציגה מעבדי 16 ליבות ו -18 ליבות. כמובן, ישנן גישות אלטרנטיביות אחרות, אך Nvidia וגוגל ראויות לקבל תשומת לב רבה בגישות הייחודיות שלהן.
ב- I / O של גוגל ראיתי שהוא מציג מהי "ענן TPU" (ליחידת עיבוד Tensor, המעיד שהוא מותאם למסגרת הלמידה של מכונות TensorFlow של גוגל). הדור הקודם TPU, שהוצג בתערוכה בשנה שעברה, הוא ASIC המיועד בעיקר להסקה - הפעלת פעולות למידת מכונות - אך הגרסה החדשה מיועדת להסיק ולהדרכה של אלגוריתמים כאלה.
במאמר שפרסם לאחרונה גוגל מסרה פרטים נוספים על ה- TPU המקורי, אותו תיארה כמכילה מטריצה של 256 על 256 יחידות צבירה מרובות (MAC) (65, 536 בסך הכל) עם ביצועי שיא של 92 טרופות (פעולות טריליון לכל שנייה). זה מקבל את ההוראות שלו ממעבד מארח באמצעות אוטובוס PCIe Gen 3. גוגל אמרה כי מדובר במות של 28 ננומטר שגודלה היה פחות ממחצית ממעבד ה- Haswell Xeon 22nm של אינטל, וכי זה ביצע את ביצועיו של אותו מעבד ומעבד K80 של Nvidia.
הגרסה החדשה, המכונה TPU 2.0 או TPU בענן, (ראו למעלה), למעשה מכילה ארבעה מעבדים על הלוח, וגוגל אמרה כי כל לוח מסוגל להגיע ל -180 טרפלופים (180 טריליון פעולות נקודה צפה בשנייה). לא פחות חשוב, הלוחות נועדו לעבוד יחד, באמצעות רשת במהירות גבוהה מותאמת אישית, כך שהם פועלים כמכונה יחידה לומדת מחשב שגוגל מכנה "תרמיל TPU".
תרמיל TPU זה מכיל 64 מכשירי TPU מהדור השני ומספק עד 11.5 petaflops כדי להאיץ את האימונים של דגם למידה גדול אחד במכונה. בכנס אמר פיי פיי לי, העומד בראש המחקר בנושא ה- AI של גוגל, כי למרות שאחד ממודלי הלמידה הגדולים של החברה לתרגום לוקח יום שלם להתאמן על 32 מה- GPUs המסחריים הטובים ביותר שניתן להשיג, זה יכול להיות כעת הכשרה ל אותה דיוק בשעות אחר הצהריים באמצעות שמינית מפוד TPU. זו קפיצה גדולה.
להבין שמדובר במערכות לא קטנות - נראה כי פוד בערך בגודל של ארבע מתלי מחשוב רגילים.
ולכל אחד מהמעבדים הבודדים יש כיורי חום גדולים מאוד, כלומר לא ניתן לערום את הלוחות בצורה הדוקה מדי. גוגל טרם מסרה פרטים רבים על מה שהשתנה בגירסה זו של המעבדים או הקישוריות, אך סביר להניח שגם זה מבוסס על מחשבי MAC של 8 סיביות.
שבוע לפני כן הציגה Nvidia את הרשומה האחרונה שלה בקטגוריה זו, שבב מסיבי המכונה Telsa V100 Volta, אותו תיאר כמעבד המעבד הראשון עם ארכיטקטורת וולטה חדשה זו, שתוכננה עבור GPUים מתקדמים.
Nvidia אמרה כי השבב החדש מסוגל ל -120 טרה-פלופ של TensorFlow (או 15 TFLOPS של 32 סיביות או 7.5 64 סיביות.) זה משתמש בארכיטקטורה חדשה הכוללת 80 מעבד רב-מעבדים (SM), שכל אחד מהם כולל שמונה ליבות Tensor חדשות. והוא מערך 4x4x4 שמסוגל לבצע 64 פעולות FMA (Fused Multiply-Add) לשעון. Nvidia אמרה כי היא תציע את השבב בתחנות העבודה שלו DGX-1V עם 8 לוחות V100 ברבעון השלישי, בעקבות DGX-1 הקודמת של החברה שהשתמשה בארכיטקטורת P100 הקודמת.
מהחברה נמסר כי הקופסה הזו של 149, 000 דולר צריכה לספק 960 טרה-פלופ של ביצועי אימונים, באמצעות 3200 וואט. בהמשך, הראשון אמר, היא תשלח תחנת DGX אישית עם ארבע V100, וברבעון הרביעי אמרה כי ספקי השרתים הגדולים ישלחו שרתי V100.
השבב הזה הוא הראשון שהוכרז על שימוש במעבד 12nm של TSMC, והוא יהיה שבב ענקי עם 21.1 מיליארד טרנזיסטורים במות 815 מילימטר רבוע. Nvidia ציין את מיקרוסופט ואת אמזון כלקוחות מוקדמים עבור השבב.
שימו לב שיש הבדלים גדולים בין גישות אלה. מכשירי ה- TPU של גוגל הם שבבים באמת מותאמים אישית, המיועדים ליישומי TensorFlow, ואילו ה- Nvidia V100 הוא שבב כללי יותר, המסוגל לסוגים שונים של מתמטיקה ליישומים אחרים.
בינתיים, ספקיות הענן הגדולות האחרות בוחנות אלטרנטיבות, כאשר מיקרוסופט משתמשת בשני ה- GPUs לצורך הדרכה ומערכי שערים הניתנים לתכנות שדה (FPGA) לצורך מסקנות, ומציעה את שניהם ללקוחות. שירותי האינטרנט של אמזון הופכים כעת למפתחים מקרי GPU וגם FPGA זמינים. ואינטל דוחפת FPGA ושלל טכניקות אחרות. בינתיים, מספר סטארט-אפים חדשים עובדים על גישות אלטרנטיביות.
במובנים מסוימים, זהו השינוי הדרסטי ביותר שראינו במעבדי תחנות עבודה ובשרתים מזה שנים, לפחות מאז שהמפתחים התחילו להשתמש לראשונה ב- "GPU compute" לפני מספר שנים. יהיה מרתק לראות איך זה מתפתח.