בית חשיבה קדימה מדוע למידת מכונות היא העתיד

מדוע למידת מכונות היא העתיד

2024

תוכן עניינים:

תחרות למידת מכונה

וִידֵאוֹ: ª (נוֹבֶמבֶּר 2024)

בכנס SC16 Supercomputing החודש החודש, בלטו שני מגמות. הראשון הוא הופעת ה- Xeon Phi האחרונה של אינטל (אבירי נחיתה) והטסלה האחרונה של Nvidia (ה- P100 מבוססת פסקל) ברשימת Top500 של המחשבים המהירים בעולם; שתי המערכות נחתו בראש 20. השנייה היא דגש גדול על האופן בו יצרני השבבים והמערכות לוקחים מושגים ממערכות למידת מכונות מודרניות ומיישמים אותם על מחשבי-על.

על העדכון הנוכחי של רשימת Top500, המתעדכנת פעמיים בשנה, החלק העליון של התרשים נמצא עדיין בידי המחשב Sunway TaihuLight ממרכז מחשבי העל הלאומי של סין בוואשי, ומחשב Tianhe-2 ממחשב העל הלאומי של סין. מרכז בגואנגג'ואו, כפי שהיה מאז המופע ISC16 של יוני. אף מחשבים אחרים אינם קרובים לביצועים הכוללים, כאשר מערכות הדירוג השלישי והרביעי - עדיין מחשב העל של טיטאן באוק רידג 'ומערכת הסקויה בלורנס ליברמור - שניהם מספקים כמחצית מהביצועים של טיאנה -2.

הראשון שבהם מבוסס על מעבד סיני ייחודי, 1.45GHz SW26010, העושה שימוש בליבת RISC של 64 סיביות. יש לזה 10, 649, 600 ליבות ללא תחרות המספקות 125.4 פטפלופים עם תפוקת שיא תיאורטית ו -93 פטפלופים עם ביצועים מקסימליים מדודים במדד Linpack, תוך שימוש ב 15.4 מגה וואט כוח. יש לציין כי בעוד שמכונה זו ממוקמת בטבלאות בביצועי Linpack בהפרש עצום, היא לא מסתדרת לא פחות טוב במבחנים אחרים. ישנן אמות מידה אחרות כמו מדד HPCG (High Performance Conjugate Gradients), בו מכונות נוטות לראות רק 1 עד 10 אחוזים מהביצועים השיאיים התיאורטיים שלהם, ואיפה המערכת העליונה - במקרה זה, מכונה Riken K - עדיין מספקת פחות יותר מפטלופ 1.

אבל מבחני Linpack הם הסטנדרט לדבר על מחשוב בעל ביצועים גבוהים (HPC) ועל מה שמשמש ליצירת רשימת Top500. באמצעות בדיקות Linpack, מכונה מספר 2, Tianhe-2, הייתה מספר 1 בתרשים במשך השנים האחרונות, ומשתמשת במאיצי Xeon E5 ובמאיצי Xeon Phi (פינת האבירים) הישנה יותר. זה מציע 54.9 פטפלופים עם ביצועים שיא תיאורטי, ומדדים ב -33.8 פטפלופים בלינק. צופים רבים מאמינים כי איסור על ייצוא הגרסאות החדשות יותר של Xeon Phi (Knights Landing) הביא את הסינים ליצור מעבד מחשב-על משלהם.

נייטת אבירים, רשמית Xeon Phi 7250, מילאה תפקיד גדול במערכות החדשות ברשימה, החל ממחשב העל של קורי במעבדה הלאומית לורנס ברקלי הגיע למקום החמישי, עם ביצועי שיא של 27.8 פטפלופים וביצוע מדוד של 14 פטפלופים. זוהי מערכת Cray XC40, המשתמשת בחיבור הקשרים של טלה. שימו לב ש- Knights Landing יכול לשמש מעבד ראשי, כאשר 68 ליבות לכל מעבד מספקות 3 טרפלופים שיאים. (אינטל מציגה גרסה נוספת של השבב עם 72 ליבות ב -3.446 טרה-פלופ של ביצועים בעלי דיוק כפול תיאורטי כפול ברשימת המחירים שלה, אך אף אחת מהמכונות ברשימה לא משתמשת בגרסה זו, אולי מכיוון שהיא יקרה יותר ומשתמשת באנרגיה רבה יותר.)

מוקדם יותר Xeon Phis יכול היה לפעול רק כמאיץ במערכות שנשלטו על ידי מעבדי Xeon המסורתיים. במקום השישי ניצבה מערכת Oakforest-PACS של המרכז המשותף של יפן למחשבים מתקדמים עם ביצועים גבוהים, ורשמה 24.9 שיאים בפטפלופים. זה נבנה על ידי Fujitsu, באמצעות Knights Landing וחיבורי ה- Omni-Path של אינטל. נחיתה של אבירים משמשת גם במערכת מספר 12 (מחשב מרקוני באוניברסיטת CINECA באיטליה, שנבנה על ידי לנובו ומשתמש ב Omni-Path) ובמערכת מספר 33 (קמפור 2 באוניברסיטת קיוטו היפנית, שנבנתה על ידי קריי והשתמש במזל טלה. להתחבר).

Nvidia היה מיוצג היטב גם ברשימה החדשה. מערכת מספר 8, Piz Daint במרכז המחשוב השוויצרי הלאומי של שוויץ, שודרגה ל- Cray XC50 עם Xeons ו- Nvidia Tesla P100, והיא מציעה כעת פחות מ -16 פטפלופים עם ביצועי שיא תיאורטיים ו -9.8 פטפלופים של ביצועי Linpack - ביצועים גדולים שדרג מ -7.8 petaflops עם ביצועים שיא ו -6.3 petaflops של ביצועים של Linpack באיטציה הקודמת שלה, המבוססת על Cray XC30 עם מאיצי Nvidia K20x.

המערכת האחרת מבוססת P100 ברשימה הייתה ה- DGX סטורן V של Nvidia עצמה, המבוססת על מערכות DGX-1 של החברה עצמה וחיבור בין אינפיניבנד, שנכנס למקום מספר 28 ברשימה. שימו לב כי Nvidia מוכרת כעת גם את המעבדים וגם את מכשיר DGX-1, הכולל תוכנה ושמונה טסלה P100s. מערכת DGX Saturn V, אותה משתמשת Nvidia למחקר AI פנימי, מציגה קרוב ל -4.9 petaflops בשיא ו -3.3 petaflops של Linpack. אך מה שציינה Nvidia הוא שהיא משתמשת רק ב -350 קילוואט כוח, מה שהופך אותה לחסכונית הרבה יותר אנרגטית. כתוצאה מכך, מערכת זו נמצאת בראש רשימת Green500 של המערכות היעילות ביותר באנרגיה. Nvidia מציין כי מדובר באנרגיה פחותה משמעותית ממערכת קמפור 2 מבוססת Xeon Phi, אשר בעלת ביצועים דומים (כמעט 5.5 שיא petaflops ו- 3.1 petaflops 3.1 Linpack).

זו השוואה מעניינת, כאשר Nvidia מציגה יעילות אנרגיה טובה יותר ב- GPUs ואינטל מציגה מודל תכנות מוכר יותר. אני בטוח שנראה יותר תחרות בשנים הבאות, שכן האדריכלות השונות מתחרות כדי לראות מי מהן תהיה הראשונה להגיע ל"מחשוב מופלא "או אם הגישה הביתית הסינית תגיע לשם. נכון לעכשיו, פרויקט מחשוב Exascale של משרד האנרגיה האמריקני מצפה שמכונות האקססקלס הראשונות יותקנו בשנת 2022 ויופעלו בשנה שלאחר מכן.

אני מעניין לציין שלמרות הדגש על מאיצים רבים-ליבתיים כמו פתרונות Nvidia Tesla ו- Intel Xeon Phi, רק 96 מערכות משתמשות במאיצים כאלה (כולל אלה המשתמשים ב- Xeon Phi בלבד); לעומת 104 מערכות לפני שנה. אינטל ממשיכה להיות ספקית השבבים הגדולה ביותר, עם השבבים שלה ב 462 מתוך 500 המערכות המובילות, ואחריהם מעבדי כוח של IBM ב 22-. Hewlett-Packard Enterprise יצרה 140 מערכות (כולל אלה שנבנו על ידי סיליקון גרפיקס, שאותה רכשה HPE), בנתה לנובו. 92, וקריי 56.

תחרות למידת מכונה

היו מספר מודעות בהופעה או בסביבותיה, רובן עסקו בסוג כלשהו של בינה מלאכותית או למידת מכונות. Nvidia הודיעה על שיתוף פעולה עם יבמ על ערכת כלים חדשה ללימוד עמוק בשם IBM PowerAI שמפעילה שרתי IBM Power באמצעות קישוריות NVLink של Nvidia.

AMD, שהיה מחשבה לאחר מכן הן בסביבות HPC והן בסביבות למידת מכונות, פועלת לשינוי זה. בתחום זה, החברה התמקדה ב- Radeon GPUs משלה, דחפה את ה- GPUs לשרת ה- FirePro S9300 x2 שלה, והכריזה על שיתוף פעולה עם פלטפורמת הענן של גוגל שתאפשר להשתמש בה מעבר לענן. אבל AMD לא השקיעה כל כך הרבה בתוכנה לתכנות GPU, שכן היא הדגישה את OpenCL בגישה הקניינית יותר של Nvidia. בתערוכה הציגה AMD גרסה חדשה לפלטפורמת ה- Radeon Open Compute שלה (ROCm), והציגה תוכניות לתמוך ב- GPUs שלה בתרחישים מחשוביים הטרוגניים עם מספר מעבדי CPU, כולל מעבד ה- "Zen" x86 המתוכנן שלה, ארכיטקטורות ARM החל מ- ThunderX ו- Cavium של Cavium מעבדי Power 8 של יבמ.

בתוכנית דיברה אינטל על גרסה חדשה לשבב ה- Xeon E5v4 (Broadwell) הנוכחי שלה המותאם לעומסי עבודה בנקודה צפה, וכיצד אמורה לצאת הגרסה הבאה המבוססת על פלטפורמת Skylake בשנה הבאה. אבל באירוע מאוחר יותר באותו שבוע, אינטל פרסמה סדרת מודעות שנועדו למקם את השבבים שלה במרחב הבינה המלאכותית או למידת המכונה. (להלן התייחסות ל- ExtremeTech.) חלק גדול מהעניין הזה יש השלכות על מחשוב בעל ביצועים גבוהים, אך הוא ברובו נפרד. ראשית, בנוסף למעבדי Xeon הסטנדרטיים, החברה גם מקדמת FPGA עבור עשיית חלק ניכר מההסקה ברשתות עצביות. זו אחת הסיבות הגדולות שהחברה רכשה לאחרונה את אלדרה, ו- FPGA כאלה משמשים כיום חברות כמו מיקרוסופט.

אבל ההתמקדות ב- AI בשבוע שעבר עסקה בכמה שבבים חדשים יותר. ראשית, יש את Xeon Phi, שם אינטל העידה כי גרסת האבירים הנוכחית תושלם בשנה הבאה בגירסה חדשה בשם Knights Mill, שמכוונת לשוק "למידה עמוקה". הודיעה בצה"ל, זוהי גרסה נוספת של 14 ננומטר, אך עם תמיכה בחישובי חצי דיוק, המשמשים לעתים קרובות בהכשרת רשתות עצביות. אכן, אחד היתרונות הגדולים של שבבי ה- Nvidia הנוכחיים בלמידה עמוקה הוא התמיכה שלהם בחישובי דיוק למחצה וביצוע פעולות שלמים שלמים של 8 סיביות, אשר Nvidia מכנה לעיתים קרובות "טרה-אופס". אינטל אמרה כי מיל אבירים יספק עד פי ארבעה את הביצועים של אבירי נחיתה למידה עמוקה. (השבב הזה עדיין אמור להיות מאוחר יותר על ידי גרסת 10 ננומטר בשם Knights Hill, ככל הנראה מכוונת יותר לשוק המחשוב המסורתי בעל ביצועים גבוהים.)

המעניין ביותר לשנה הבאה הוא עיצוב של נרוונה, אותה רכשה אינטל לאחרונה, המשתמש במערך של אשכולות עיבוד שנועדו לבצע פעולות מתמטיות פשוטות המחוברות לזיכרון רוחב פס גבוה (HBM). ראשית במשפחה זו יהיה לייק קרסט, שתוכנן לפני שאינטל קנתה את החברה ויוצרה בתהליך TSMC של 28 ננומטר. עקב גירסאות הבדיקה במחצית הראשונה של השנה הבאה, אינטל אומרת שהיא תביא לביצועי מחשוב גולמיים יותר מאשר ל- GPU. אחרי זה יבוא בסופו של דבר Knights Crest, שאיכשהו מיישם את הטכנולוגיה של נרבנה לצד קסון, כאשר הפרטים עדיין לא הודיעו.

מנכ"ל אינטל, בריאן קרזניץ ', כתב מנכ"ל אינטל, "אמר כי" אנו מצפים מהטכנולוגיות של נרבנה לייצר עלייה פורצת דרך פי 100 בביצועים בשלוש השנים הבאות, להכשיר רשתות עצביות מורכבות, מה שמאפשר למדעני נתונים לפתור את האתגרים הגדולים ביותר שלהם ב- AI מהר יותר.

אינטל הודיעה לאחרונה על תוכניות לרכוש את Movidius, מה שהופך שבבים מבוססי DSP למותאמים במיוחד להסקת ראייה ממוחשבת - שוב, ולקבל החלטות על סמך דגמים שהוכשרו בעבר.

זה סיפור מסובך ומתפתח - בטח לא פשוט כמו הדחיפה של Nvidia אחר ה- GPUs שלה בכל מקום. אך מה שמבהיר הוא רק כמה מהר הלמידה של מכונות ממריאה, והדרכים הרבות והשונות בהן חברות מתכננות לטפל בבעיה, החל מ- GPUs כמו אלה של Nvidia ו- AMD, ועד למעבדי ליבה רבים של x86 כמו Xeon Phi, ועד FPGAs, למוצרים ייעודיים לאימונים כמו נרבנה ו- TrueNorth של יבמ, למנועי הסקה מותאמים אישית כמו DSP כמו יחידות עיבוד הטנסור של גוגל. יהיה מעניין מאוד לראות האם בשוק יש מקום לכל הגישות הללו.