וִידֵאוֹ: Как это устроено. Big Data. Большие данные (נוֹבֶמבֶּר 2024)
עסקים אינם מקבלים נקודות לגבי יעילותן של התשתית שלהם או כמה גבוה הם יכולים לערום את כל ה- Big Data שהם אוספים. מה שקובע הוא איכות הניתוח והאינטליגנציה שהנתונים מייצרים.
במהלך השנים האחרונות, Hadoop היא המילה שהפכה שם נרדף ביותר לבליעה, עיבוד והפיכת נתונים. מסגרת קוד פתוח זו לאחסון ועיבוד נתונים מבוזרים הצמיחה מרחב ארגוני משלה ושילבה את דרכה בכל פלטפורמות הענן הגדולות. Hadoop רחוקה מלהיות טכנולוגיית ה- Big Data היחידה ששווה לדבר עליה, אך היא הפכה לזו שעליה בנויים רבים אחרים.
הבעיה לעסקים היא שמרחב Hadoop מלא בפיזור ואפשרויות כלים וכפי שהסביר מנהל המחקר של גרטנר ניק הודקר, רבים מהם נראים אותו דבר. הודקר, שמחקריו מכסים את ניהול המידע כולל מרחבי ה- Big Data ו- NoSQL, אמר שאם אתה בוחן את אפשרויות עיבוד הנתונים הכלליות, הרבה ספקים מציעים תכונות דומות מאוד.
פירוק השוק
ישנם שלושה סטארט-אפים עיקריים של Hadoop - Cloudera, Hortonworks ו- MapR - וכולם צמחו בהתמדה בשנת 2015. לדברי גרטנר, לכל אחד מהם כ- 700 לקוחות, נותנים או לוקחים 10 אחוזים, ומעמידים את השוק העולמי בין 2, 100-2, 400 לקוחות Hadoop ברחבי העולם. שלושתם מציעים הן נדבך בחינם והן רמה ארגונית של הפצת Hadoop שלהם, וכל אחד מהם תורם תרומות קוד פתוח משמעותיות לפרויקטים תחת הכותרת ASF (Apache Software Foundation).
"הנתונים שלנו מצביעים על כך ש -44 אחוזים מהשימוש בהודו אינם כרגע בתשלום", אמר הודקר. "האם יש מנהיג ברור? אני לא חושב כך. כולם תופסים נתח שוק כי זה חלל מאוד חדש."
בחודשים האחרונים חלק ניכר מהתחרות בין השלושה הגיעה לתחרות על יכולות ניתוח נתונים ודרכים יצירתיות לשילוב Apache Spark, מנוע עיבוד קוד פתוח של Big Data עם מקרי שימוש מזרמי נתונים בזמן אמת ועד למידת מכונה.. MapR הודיעה לאחרונה על זרמי MapR כחלק מ"פלטפורמת נתונים מתכנסת "המשלבת את Hadoop, עיבוד זרמים מבוסס ניצוץ ואנליטיקה. Hortonworks הוציאה עדכון לפלטפורמת ה- Hortonworks Data (HDP) באמצעות ניתוח Spark בזיכרון, וקלודרה מציעה מגוון שילובי Spark עם קוד פתוח באמצעות יוזמת ה- One Platform שלה, יחד עם הצעת שיעורי הכשרה של Spark.
"קורה הרבה בחללי ניהול המידע ותשתיות המידע, וזה לא הכל בהודופ", הסביר הודקר. "יש תנופה אדירה מאחורי המודל המהיר של Spark ועיבוד זיכרון מרכזי זיכרון, למרות שפיתוחו של Spark עדיין בשלביו המוקדמים. ניצוץ יהיה לשון פרנקה נוספת בעיבוד נתונים, ממש כמו SQL כיום, והוא בהחלט מראה סימנים שיש לו כמה רגליים ככל שיותר ויותר חברות משקיעות בזה."
הודקר הדגיש גם את החשיבות של שחקני הענן ב- Big Data; ענקיות הטכנולוגיה ששילבו את Hadoop וטכנולוגיות ביג דאטה אחרות בהיצע התשתיות הקיימות שלהן (IaaS).
שירותי האינטרנט של אמזון (AWS) משתמשים בשירות אמזון Elastic MapReduce (EMR) שלה לצורך תזמורת Hadoop מבוססת ענן. מיקרוסופט מציעה שורה שלמה של שירותי ביג דאטה בפלטפורמת הענן שלה Azure, ומשתפת פעולה עם Hortonworks בשירות HDInsight שלה לניהול Apache Hadoop, Spark, HBase ו- Storm, יחד עם Azure Data Lake מבוסס SQL ו- Azure Data Analytics. ליבמ יש לה הן את הפלטפורמה הפתוחה של יבמ עבור Hadoop והן עבור IBM BigInsights, חבילת ניתוח שתפעל עליה, יחד עם Hadoop מנוהלת ו- Apache Spark-as-service בענן Bluemix שלה. הרשימה נמשכת, ועסקים מוצאים את מקרי השימוש החלים יותר בענן.
"אנו מעריכים של- AWS לבדה יש כ -5, 000 לקוחות, כך שזה יותר מפי שניים מבסיס הלקוחות של ההצגות הטהורות יחד", אמר הודקר. "אחד היתרונות של מעבר לענן הוא בכך שאתה מקבל מערכת אקולוגית. אתה יכול לקבל את הפצות Hadoop-play-pure על כל אחת מההיצע של IaaS. MapR זמין בכל העננים שאתה יכול לחשוב עליהם, למעט אלה של IBM; אותו דבר עבור קלודרה והורטונוורקס. לא ראינו שזמינות הענן הופכת להיות יותר מדי גורם בבחירת ספק אחד למשנהו."
בחירת אסטרטגיית נתונים ארגונית
עבור עסקים קטנים עד בינוניים (SMB) וגם עסקים ארגוניים צומחים, בעת השקעה בפתרונות לעיבוד נתונים וניתוח, הודקר אמר כי הגורם המכריע הוא איזו פלטפורמה יכולה לספק את רמת השירות הגבוהה ביותר. האתגר הגדול ביותר לעסקים, לטענת גרטנר, הוא פער הכישורים - להבין מי עומד לנהל את הפלטפורמה ברגע שתותקן ויוצב.
"אם חברות מחפשות שותף לפלטפורמת נתונים, מי הולך לעזור להן בבליעת נתונים? מי הולך לעזור להן לבנות את האפליקציה האנליטית? בכל הקשור לשלושת ההודופים-טהורים, קריטריוני ההערכה נוטים להיות סביב בשלות כלי הניהול והקונסולות, כלי ניהול הנתונים והביצועים."
ההיבט המעניין האחר בבחירת פלטפורמת Hadoop הוא חוסר נאמנות. חברות מעריכות מחדש את פלטפורמת Hadoop שלהן לעתים קרובות כל 6-12 חודשים כדי לבדוק אם רכיבי עיבוד הנתונים עדיין מתאימים, בגלל כמה מהר החלל משתנה וכמה מעט השחקנים הגדולים הבדילו עצמם. הודקר אמר כי 20 אחוז מהחברות בהן דיבר עברו הפצות מרובות של Hadoop הפועלות במרכזי הנתונים או בענן שלהן, או מאפשרות לצוותים שונים לבחור במצע הבחירה שלהם או לגוון בכוונה כדי להימנע מלהיתקע עם הפצה אחת בלבד של Hadoop.
סוג זה של פלטפורמות מגוונות ניזון ממה שפרנק בוינדניידק, סמנכ"ל המחקר של גרטנר ואנליסט מכובד המתמקד באסטרטגיה דיגיטלית, מכנה "מידע כנכס." כמו שאינך יכול לנהל עסק ללא הון, עבודה, חומרים ומתקנים פיזיים או וירטואליים, בויטנדייק אמר שאתה לא יכול לנהל עסק ללא מידע.
"פעם התבוננו בעסקים מבחינת שלושת הזרמים: הזרימה העיקרית הייתה סחורות, הזרימה המשנית הייתה כסף, והתזרים השלושיים היו מידע כדי לוודא שהסחורה והכסף מיושרים. עכשיו ברוב העסקים זה הפוך. הזרימה העיקרית היא מידע, החל מזיהוי וקביעת תצורה וכלה בשיווק תוכן וכו '. בין אם אתה קורא לביג דאטה ובין אם זה לא ממש משנה.
"ביג דאטה" מיושן
בויטנדג'יק אמר שהוא לא רואה את Big Data כטכנולוגיה נפרדת לעסקים, אלא כנושא או הלך רוח אחד בתוך האסטרטגיה הדיגיטלית הכוללת שלך.
"אני לא מאמין שיש לי אסטרטגיית ביג דאטה", אמר בויטנדג'יק. "אין כמעט אסטרטגיה עסקית ללא רכיבים דיגיטליים, כך שאני מאמין שיש אסטרטגיה דיגיטלית בה כל מיני טכנולוגיות מספקות יכולות קריטיות. זה כולל מכשירים ניידים, חברתיים, עננים, IoT, חכמים ו- Big Data."
הודקר מאמין שנתחיל לדבר על "ביג דאטה" פחות ופחות, כי עכשיו זה רק נתונים. זו הדרך בה עושים עסקים. נפחים עצומים ומהירות גבוהה של נתונים כבר לא מפחידים.
"ביג דאטה הופך שוב לעומק על ידי מידע ואנליטיקה", אמר הודקר. "הקטגוריה של ביג דאטה לא מבדילה בכנות. תמיד נשאלים את גודל שוק הביג דאטה, אבל מה זה אפילו אומר? ביג דאטה הוא לא באמת שוק, זה מושג. עבור עסק, לחשוב על ביג דאטה כ משהו מיוחד ומיוחד ששונה באופן קיצוני ממה שעשית בעבר הוא טעות. בשלב זה, הנתונים הם פשוט נורמליים."