תוכן עניינים:
וִידֵאוֹ: Biocheck.ai - Startup Voucher 2020 IAPMEI (נוֹבֶמבֶּר 2024)
נתונים ומודיעין עסקי (BI) הם שני צדדים של אותו מטבע. ההתקדמות באחסון, עיבוד וניתוח דמוקרטיזציה של נתונים עד כדי כך שאתה לא צריך להיות איש מקצוע במאגר או מדען נתונים כדי לעבוד עם מערכי נתונים מאסיביים ולהפיק תובנות. עדיין קיימת עקומת למידה, אך כלים לשירות עצמי של BI ושירותי הדמיית נתונים מגדירים מחדש את האופן שבו עסקים ממנפים את כל הנתונים שהם אוספים לניתוח פעילתי. עם זאת, יש הבדל בין חברת BI או חברת מסד נתונים העוקרת ניתוחים מתקדמים לבין בסיס נתונים של בינה מלאכותית (AI) המיועד למטרת הכשרה למידת מכונות (ML) ומודלים של למידה עמוקה.
אלגוריתמים של ML נשזרים במרקם של חלק גדול מהתוכנה של ימינו. חוויות צרכנים מתמזגות עם AI באמצעות עוזרים וירטואליים, ובתוכנה עסקית יש דוגמאות כמו Salesforce איינשטיין המשמשות כשכבה נבונה מתחת לכל תיק ניהול קשרי הלקוחות (CRM) של החברה. ענקיות הטכנולוגיה, כולל גוגל ומיקרוסופט, דוחקות עוד יותר את עתידנו האינטליגנטי, לא רק עם מחקר אלא על ידי כותבים מחדש כיצד הטכנולוגיה שלהם עובדת מהיסוד עם AI.
אחד האתגרים עם מכונות הכשרה ומודלים של למידה עמוקה הוא נפח הנתונים העצום וכוח העיבוד הדרוש לך בכדי להכשיר רשת עצבית, למשל, על זיהוי דפוסים מורכב בתחומים כמו סיווג תמונות או עיבוד שפה טבעית (NLP). מכאן שמאגרי AI מתחילים לצוץ בשוק כדרך לייעל את תהליך הלמידה וההדרכה של AI לעסקים. שוחחנו עם ספק מאגרי המידע היחסי המואץ על ידי GPU, Kinetica, שבנה מסד נתונים AI משל עצמו, ועם ה- BI ומומחה מסד הנתונים של PCMag, Pam Baker, כדי להרוס מה זה בסיס נתונים של AI וכיצד הוא עובד בהשוואה למסדי נתונים מסורתיים. חשוב מכך, ביקשנו את עזרתם במיון ההייפ ושיווק דיבור כדי לקבוע אם הטכנולוגיה המתעוררת הזו היא בעלת ערך עסקי אמיתי.
מהם מסדי נתונים AI?
אופיו המשתנה במהירות של חלל ה- AI יכול להקשות על קביעת המינוח. לעיתים קרובות אתה שומע מונחים כמו ML, למידה עמוקה ו- AI שמשתמשים זה בזה כאשר הם למעשה מפתחים טכניקות תחת המטריה הגדולה יותר של AI. כיוון שכך, בייקר אמר שיש שתי הגדרות שונות בהרבה של בסיס נתונים של AI, תלוי עם מי אתה מדבר: האחת מעשית והשנייה יותר פאי-בשמיים.
"יש סוג של קונצנזוס רופף בענף שמסד נתונים AI יהיה כזה שיעבוד כולו מחוץ לשאילתות בשפה טבעית. ממשק המשתמש יהיה כזה שלא תצטרך להסתמך על מונחי חיפוש וביטויי מפתח כדי למצוא את מידע שאתה צריך, ומאפשר למשתמש לזמן מערכי נתונים באמצעות NLP, "אמר בייקר. "אתה יכול לטעון מאוד מצומצם שיבמ ווטסון יכולה להעלות שאילתות לשפה טבעית למערכת, אבל אתה צריך להיות מחובר לנתונים ולבחור את הנתונים בעצמך. אז נכון לעכשיו, ההגדרה הזו היא מתיחה."
ההגדרה המעשית יותר, ונושא מסביר זה, היא בעצם שימוש בבסיס נתונים שנבנה למטרה כדי להאיץ את הכשרות מודל ה- ML. מספר חברות טק כבר מפתחות שבבי AI ייעודיים כדי להקל על עומס העיבוד הכבד במוצרי חומרה חדשים ככל שהספקים מפעילים תכונות נוספות מבוססות AI הדורשות כוח מחשוב משמעותי. בצד הנתונים, שימוש במאגר נתונים AI יכול לעזור לך לסובב טוב יותר את הנפח, המהירות ואתגרי הניהול והניהול המורכבים של נתונים הקשורים באימוני ML ומודלים של למידה עמוקה כדי לחסוך זמן ולייעל את המשאבים.
קרדיט תמונה: טוד ג'קית 'ב- Futurism.com. לחץ כדי להרחיב את האינפוגרפיה המלאה
"כרגע יש הרבה מאמצים להאיץ את אימוני ה- ML באמצעות מספר טקטיקות שונות", הסביר בייקר. "אחת היא להפריד בין התשתית לחוקרי AI שעושים את הקידוד, כך שפונקציות אוטומטיות מטפלות בתשתיות והדרכות מודל ML. אז במקום לבזבז משהו כמו שלושה חודשים, יתכן שאתה מסתכל על 30 יום או 30 דקות."
Kinetica מפרק את הרעיון לפלטפורמת מסד נתונים משולבת המותאמת למודלים של ML ולמודלים עמוקים. בסיס הנתונים של AI משלב אחסנת נתונים, ניתוחים מתקדמים והדמיות בבסיס נתונים בזיכרון. מט רדאלג ', סגן נשיא ומהנדס תוכנה ראשי בקבוצת הטכנולוגיה המתקדמת של קינקטיקה, הסביר כי מסד נתונים של AI אמור להיות מסוגל להכיל, לחקור, לנתח ולדמיין נתונים מורכבים הנעים במהירות תוך אלפיות השנייה בו זמנית. המטרה היא להוריד עלויות, לייצר הכנסות חדשות ולשלב דגמי ML כך שעסקים יוכלו לקבל החלטות יעילות יותר מונעות נתונים.
"מסד נתונים AI הוא תת-בסיס של בסיס נתונים כללי", אמר רדאלג. "כרגע, מסדי נתונים של AI פופולריים מאוד. אבל הרבה פתרונות משתמשים ברכיבים מבוזרים. ניצוץ, MapReduce ו- HDFS תמיד מסתובבים קדימה ואחורה ולא בזיכרון. אין להם מפגש של גורמים כמו מסד הנתונים שלנו, אשר נבנה מהיסוד עם מעבד ומעבדי GPU משולבים היטב בפלטפורמה יחידה.היתרון ברמה הגבוהה ביותר עבורנו הוא הקצאה מהירה יותר וטביעת רגל חומרה נמוכה יותר של הכשרה מבוססת מודל, עם תפנית מהירה ואנליטיקה המשולבת באותה פלטפורמה."
כיצד עובד מסד נתונים AI
ישנן מספר דוגמאות למסדי נתונים של AI בפועל. Microsoft Batch AI מציע תשתית מבוססת ענן להכשרה של למידה מעמיקה ומודלי ML הפועלים על גבי GPUs של Azure של מיקרוסופט. לחברה יש גם את המוצר Azure Data Lake שלה כדי להקל על עסקים ומדעני נתונים על עיבוד וניתוח נתונים על פני ארכיטקטורה מבוזרת.
דוגמא נוספת היא גישת ה- AutoML של גוגל, שהיא מהונדסת מחדש באופן בסיסי את האופן בו מתאמנים דגמי ML. Google AutoML אוטומציה של עיצוב מודלים של ML ליצירת ארכיטקטורות רשת עצביות חדשות המבוססות על מערכי נתונים מסוימים, ולאחר מכן בוחנים ומחזרים אותם אלפי פעמים כדי לקוד מערכות טובות יותר. למעשה, ה- AI של גוגל יכול כעת ליצור מודלים טובים יותר מחוקרי אנוש.
"תסתכל על Google AutoML: ML כותב קוד ML כך שאתה אפילו לא צריך אנשים", אמר בייקר. "זה נותן לך מושג מה ההבדל הקיצוני שיש בספקים. חלק מנסים להעביר ניתוחים מתקדמים כ- ML - וזה לא. ואחרים עושים ML ברמה כל כך מתקדמת שזה מעבר למה שהכי עסקים יכולים להבין כרגע."
ואז יש קינקטיקה. ההפעלה מבוססת סן פרנסיסקו, שגייסה מימון של 63 מיליון דולר בהון סיכון (VC), מספקת מסד נתונים SQL בעל ביצועים גבוהים המותאם במיוחד לביצוע מהיר של נתונים ולניתוח נתונים. Kinetica הוא מה שרדאלג תיאר כמסד נתונים ועיבוד מחשוב מבוזרים (MPP) המופצים באופן מאסיבי, ובו כל צומת כולל נתוני זיכרון, מעבד ו- GPU המצויים במשותף.
מה שהופך את מסד הנתונים של AI למאגר מסורתי, הסביר רדאלג, לשלושה מרכיבי ליבה:
- בליעת נתונים מואצת,
- יישוב משותף של נתוני זיכרון (עיבוד מקביל על פני צמתי מסד נתונים), ו-
- פלטפורמה נפוצה עבור מדעני נתונים, מהנדסי תוכנה ומנהלי מסדי נתונים לאיתור ובדיקת מודלים מהר יותר ולהחיל תוצאות ישירות על ניתוח.
עבור כל מומחי ההדרכה למודלים שאינם מסד נתונים ו- AI שקראו את זה, רדאלג שבר את כל אחד משלושת אלמנטים הליבה הללו והסביר כיצד מסד הנתונים של AI קשור לערך עסקי מוחשי. זמינות נתונים וביצוע נתונים הם המפתח, לדבריו, מכיוון שהיכולת לעבד נתוני סטרימינג בזמן אמת מאפשרת לעסקים לנקוט בפעולה מהירה על תובנות מונעות AI.
"יש לנו לקוח קמעוני שרצה לעקוב אחר מחירי המכירה לפי חנות, כל חמש דקות, " אמר רדלג. "רצינו להשתמש ב- AI כדי לחזות, על סמך השעות האחרונות של הנתונים ההיסטוריים, האם עליהם לחדש מלאי ולייעל את התהליך הזה. אבל כדי לבצע את זה חידוש מלאי מונע מכונה דורש התמיכה של 600-1200 שאילתות בשנייה. אנחנו אנחנו בסיס נתונים SQL ובסיס נתונים AI, כדי שנוכל להכניס נתונים בקצב כזה. אותנו שנפגשנו עם אותה משימה עסקית הביאו ליישום שהניע יותר ROI."
בייקר הסכים כי ML דורש כמות עצומה של נתונים, כך שהבליעה שלהם במהירות תהיה חשובה מאוד עבור מסד נתונים AI. הגורם השני, המושג "יישוב משותף של נתונים בזיכרון", מקבל הסבר קצת יותר. מסד נתונים בתוך הזיכרון שומר נתונים בזיכרון הראשי ולא באחסון דיסק נפרד. זה עושה כדי לעבד שאילתות במהירות רבה יותר, במיוחד במאגרי מידע אנליטיים ו- BI. לפי יישוב משותף, Radalj הסביר כי Kinetica אינה מפרידה בין צמתים ומעבדי GPU למחשבים לעומת צמתי אחסון.
כתוצאה מכך, מסד הנתונים של ה- AI תומך בעיבוד מקביל - המחקה את יכולתו של המוח האנושי לעבד גירויים מרובים - ובמקביל להישאר מופץ על פני תשתית מסדי נתונים ניתנת להרחבה. זה מונע את טביעת הרגל החומרה הגדולה יותר, כתוצאה ממה שרדאלג כינה "משלוח נתונים" או מהצורך לשלוח נתונים קדימה ואחורה בין רכיבי מסד נתונים שונים.
"חלק מהפתרונות משתמשים בתזמור כמו IBM Symphony כדי לתזמן עבודה על פני רכיבים שונים ואילו Kinetica מדגיש את התפקוד למשלוח מול משאבים הממוקמים בשיתוף פעולה, תוך אופטימיזציה מתקדמת כדי למזער את העברת הנתונים, " אמר Radalj. "אותו יישוב משותף נועד לביצועים ותפוקה מעולים, במיוחד לשאילתות כבדות במקביל במערכות נתונים גדולות."
מבחינת חומרת מסד הנתונים בפועל, Kinetica שותפה עם Nvidia, שיש לה מערך מתרחב של GPUs AI והיא בוחנת הזדמנויות עם אינטל. רדאלג אמר עוד כי החברה מפקחת עין על חומרת AI מתפתחת ותשתיות מבוססות ענן כמו יחידות עיבוד Tensor של גוגל (TPU).
לבסוף, יש רעיון של תהליך אימון למודל אחיד. מסד נתונים AI יעיל רק אם היתרונות של בליעה ועיבוד מהירים משרתים יעדים גדולים יותר ומכוונים עסקיים למאמצי ML של החברה וללמידה מעמיקה. רדלאלג מתייחסת למאגר המידע AI של Kinetica כאל "פלטפורמת צנרת מודל" המבצעת אירוח מודלים מונע מדעי נתונים.
כל זה נועד לבדיקות ומהירות יותר לפיתוח דגמי ML מדויקים יותר. בנקודה זו, בייקר אמר כי שיתוף פעולה בצורה אחידה יכול לעזור לכל המהנדסים והחוקרים העובדים על הכשרת מודל ML או למידה עמוקה לחזור מהר יותר על ידי שילוב של מה שעובד, בניגוד להמציא מחדש כל הזמן את כל השלבים בתהליך ההדרכה. רדאלג אמר כי המטרה היא ליצור זרימת עבודה שבה בליעה מהירה, הזרמה ושאילתת אצווה מהירה יותר מייצרים תוצאות מודל הניתנות ליישום מיידי על BI.
"מדעני נתונים, מהנדסי תוכנה ומנהלי מסדי נתונים יש פלטפורמה יחידה בה ניתן לתאר בצורה נקייה את מדעי הנתונים עצמם, כתיבת תוכנות, ומודלים ושאילתות SQL של נתונים", אמר ראדאלג. "אנשים עובדים בצורה נקייה יותר בתחומים השונים האלה כשזו פלטפורמה משותפת. המטרה לעתים קרובות יותר מאשר הפעלת ML ולמידה מעמיקה היא שאתה רוצה להשתמש בתוצאות של זה - המשתלמים המשתנים - בשילוב עם ניתוחים., והשתמש בפלט לדברים כמו ניקוד או כדי לחזות משהו מועיל."
הייפ או מציאות?
הערך בשורה התחתונה של מסד נתונים AI, לפחות באופן בו Kinetica מגדיר אותו, הוא באופטימיזציה של משאבי מחשוב ומסד נתונים. זה, בתורו, מאפשר לך ליצור מודלים טובים יותר של ML ולמידה עמוקה, לאמן אותם במהירות וביעילות רבה יותר ולשמור על קו דרך לאופן בו ה- AI יושם על העסק שלך.
רדאלג 'נתן את הדוגמא של חברת ניהול צי או הובלות. במקרה זה, מסד נתונים AI יכול לעבד זרמים מאסיביים של מידע בזמן אמת מצי כלי רכב. ואז, על ידי דוגמנות נתונים גאוגרפיים אלה ושילובם עם ניתוחים, מסד הנתונים יכול לנתב מחדש באופן דינמי משאיות ולבצע אופטימיזציה של נתיבים.
"קל יותר לספק אספקה, אב-טיפוס ובדיקה במהירות. המילה 'דוגמנות' נזרקת ב- AI, אבל הכל קשור באופניים דרך גישות שונות - ככל שיש יותר נתונים, כן ייטב - להפעיל אותם שוב ושוב, לבחון, להשוות, ו מגיע עם הדגמים הטובים ביותר, "אמר רדלג. "רשתות עצביות קיבלו חיים מכיוון שיש יותר נתונים מאי פעם. ואנחנו לומדים להיות מסוגלים לחשב את זה."
בסופו של דבר, מסד הנתונים של פורטל צינורות הדגם של Kinetica הם גישה אחת בלבד במרחב שיכולה להיות הרבה דברים שונים, תלוי למי אתם שואלים. בייקר אמר כי האתגר עבור הקונה בשוק שעדיין מתפתח וניסיוני הוא להבין בדיוק מה מכיר ספק מסדי נתונים של AI.
"כמושג עסקי, למידה עמוקה, ML, וכל זה הוא מושג סולידי. מה שאנחנו עובדים על זה הם נושאים טכניים שאפשר לפתור, אפילו אם עוד לא פתרנו אותם", אמר בייקר. "זה לא אומר שזה מרחב בוגר מכיוון שהוא בהחלט לא. הייתי אומר 'היזהר מקונה' מכיוון שמשהו מצומצם כמו ML עשוי או לא יכול להיות. זה יכול להיות פשוט ניתוח מתקדם במגוון גינות."
באשר למסדי נתונים של AI הם כל ההייפ כרגע או שמא הם מייצגים מגמה חשובה לאן העסק הולך, אמר בייקר שזה קצת משניהם. היא אמרה שביג דאטה, כמונח שיווקי, אינה טובה כעת. בייקר אמר כי כעת יש איזשהו התנגשות בשוק בין ניתוחים מתקדמים, מונעי נתונים ואלגוריתמים למידה עמוקה של ML ולימוד עמוק. בלי קשר, בין אם אתה מדבר על בסיס נתונים למודלים של ML או על מכשירי AI המודעים לעצמם שחלמו על ידי תרבות הפופ, הכל מתחיל ונגמר בנתונים.
"נתונים ישמשו בעסק עד לסיום הזמן; הם פשוט כל כך מרכזיים בעסק", אמר בייקר. "כשאתה מדבר במונחים של מדע בדיוני, AI הוא אינטליגנציה שמתממשת בעצמה. זה כשאתה מתחיל לדבר על יחידים ורובוטים שמשתלטים על העולם. אם זה יקרה או לא, אני לא יודע. אני אעזוב. את זה לסטיבן הוקינג."