בית חשיבה קדימה צ'יפס חם: למידת מכונה מתרחשת במרכז הבמה

צ'יפס חם: למידת מכונה מתרחשת במרכז הבמה

Anonim

הנושא החם ביותר במחשוב בימינו הוא למידת מכונות וזה בהחלט נראה בצד החומרה. בשבועות האחרונים שמענו רבות על שבבים חדשים המיועדים ללמידה מעמיקה, החל מטסלה P100 של Nvidia ו- Drive PX 2 ועד יחידות עיבוד הטנסור של גוגל ועד Xeon Phi של אינטל. אז אין זה מפתיע שבוועידת הוט צ'יפס בשבוע שעבר שמענו ממספר חברות שונות עם כמה גישות שונות מאוד לעיצוב המותאמות ללמידה של מכונה ועיבוד חזון.

אולי החדשות הגדולות ביותר היו גילויו של Nvidia על פירוט רב יותר על שבב פארקר שלו, ששימש במודול Drive PX 2 שלו למכוניות בנהיגה עצמית ומכוון ללמידה מעמיקה עבור מכונות אוטונומיות. שבב זה משתמש בשתי ליבות מעבד מעבד תואמות ARM מובנות בהתאמה אישית ARM, ארבע ליבות ARM Cortex-A57, ו -256 ממה ש- Nvidia מכנה את ליבות ה- Pascal CUDA (גרפיקה).

Nvidia אמרה כי זהו השבב הראשון שלו שתוכנן ודירוג לשימוש רכב, עם תכונות גמישות מיוחדות, ודיבר את המהירות והזיכרון המהירים יותר שלו, וציין כי ליבת דנוור מספקת שיפור משמעותי בביצועים לכל וואט. בין התכונות החדשות ניתן למנות וירטואליזציה בסיוע חומרה, עם עד 8 VMS המאפשר שילוב של תכונות לרכב הנעשות באופן מסורתי במחשבים נפרדים. בסך הכל, החברה אמרה כי לדגם Drive PX 2 יכול להיות שניים משבבי פארקר ושני GPUים נפרדים, עם ביצועים כוללים של 8 טרפלופים (דיוק כפול) או 24 פעולות למידה עמוקות (8 סיביות, או חצי דיוק.) החברה כללה אמות מידה שהשוו אותה לטובה מול עיבוד סלולרי שוטף באמצעות SpecInt_2000, מדד ישן יחסית. אך הביצועים אכן נראים מרשימים, וולוו אמרה לאחרונה כי תשתמש בה בכדי לבחון רכבים אוטונומיים החל מהשנה הבאה.

כמובן שישנן גישות רבות אחרות.

ההפעלה הסינית DeePhi דנה בפלטפורמה מבוססת FPGA לרשתות עצביות, עם שני ארכיטקטורות שונות בהתאם לסוג הרשת המעורבת. אריסטו מיועד לרשתות עצביות מפותלות יחסית יחסית ומבוסס על ה- Xilinx Zynq 7000, ואילו דקארט מיועד לרשתות עצביות גדולות וחוזרות ונשנות המשתמשות בזיכרון לטווח קצר (RNN-LSTM), מבוסס על ה- FPGA של Kintex Ultrascale. DeePhi טוען כי המהדר והארכיטקטורה שלה קיצצו את זמן הפיתוח בהשוואה לרוב השימושים ב- FPGA וגם כי השימוש ב- FPGA יכול לספק ביצועים טובים יותר מאשר פתרונות Tegra K1 ו- K40 של Nvidia.

גישה נוספת היא להשתמש במעבד איתות דיגיטלי או DSP, שמבצע בדרך כלל פונקציה ספציפית או מערכת פונקציות זעירה במהירות רבה, תוך שימוש במעט אנרגיה. לעתים קרובות אלה מוטמעים בשבבים אחרים ומורכבים יותר כדי להאיץ פונקציות מסוימות, כגון עיבוד ראייה. מספר חברות, בהן מובידיוס, CEVA וקיידנס שיתפו את הפתרונות שלהן ב- Hot Chips.

Movidius הציג את הפיתרון מבוסס ה- DSP שלו המכונה יחידת עיבוד הראייה Myriad 2, והוצג אותו במל"ט DJI Phantom 4. זה גם הראה כיצד ה- Myriad 2 עולה על ביצועי ה- GPU והרשת העצבית העמוקה של GoogLeNet ששימשה בתחרות ImageNet משנת 2014.

CEVA קידמה את ה- CEVA-XM4 Vision DSP שלה, המותאמת במיוחד לעיבוד ראייה ומכוונת לשוק הרכב, יחד עם פלטפורמת CEVA Deep Neural Network 2 שלה, שלדבריה יכולה לקחת כל מה שנכתב למסגרות Caffe או TensorFlow ולייעל אותה להפעלה. ב- DSP שלה. המעבד החדש אמור להיות ב- SoCs בשנה הבאה.

בינתיים, קדנס, שהופכת את משפחת מעבדי הראייה טנסיליקה (שניתן להטמיע במוצרים אחרים), דנה בגרסא החדשה ביותר שלה, Vision P6, שהוסיפה תכונות חדשות כמו תמיכה בנקודות צף וקטור ותכונות אחרות לרשתות עצביות מפותלות.. המוצרים הראשונים אמורים לצאת בקרוב.

מיקרוסופט דיברה על פרטי החומרה עבור אוזניות ה- HoloLens שלה ואמרה שהיא השתמשה במעבד אינטל 14 אטם דובדבן של אינטל, שמריץ את Windows 10, ומרכז חיישנים מותאם אישית של הולוגרפיה (HPU 1.0), המיוצר על ידי TSMC בתהליך 28nm. זה כולל 24 ליבות DSP של טנסיליקה.

נלקחתי במיוחד על ידי אחת השקופיות של קאדנס שהראתה את ההבדלים בתפוקה ויעילות של GPUs, FPGAs, וסוגים שונים של DSPs מבחינת פעולות הכפלת תוספות, אחד מאבני הבניין המפתח לרשתות עצביות. למרות שברור ששירות עצמי (כמו כל מצגות הספקים), הוא ציין כיצד הטכניקות השונות משתנות מבחינת המהירות והיעילות (ביצועים לוואט), שלא לדבר על עלות וקלות התכנות. יש כאן המון פתרונות לגישות שונות, ומעניין יהיה לראות כיצד הדבר מתנדנד במהלך השנים הקרובות.

צ'יפס חם: למידת מכונה מתרחשת במרכז הבמה