מדוע ניצוץ הוא פלטפורמת הביג-נתונים העתידית

תוֹכֶן

מה זה ניצוץ אפאצ'י?
מדוע הניצוץ כה חשוב על פני Hadoop
מהן התכונות הייחודיות לניצוצות?
מדוע ניצוץ אינו מהווה תחליף לחדרו
מה חברות חושבות על ניצוץ והדופ
יישומים מעשיים
סיכום

מקור: Snake3d / Dreamstime.com

להסיר:

Apache Spark הוא כלי עם קוד פתוח לעיבוד נתונים גדולים המתגנבים על Hadoop (ובמובנים מסוימים).

אפאצ'י חאופ הוא הבסיס ליישומי Big Data כבר זמן רב, ונחשב לפלטפורמת הנתונים הבסיסית לכל ההצעות הקשורות ל- Big Data. עם זאת, מסד הנתונים והחישוב בזיכרון צוברים פופולריות בגלל ביצועים מהירים יותר ותוצאות מהירות. Apache Spark היא מסגרת חדשה המשתמשת ביכולות הזיכרון בכדי לספק עיבוד מהיר (כמעט פי 100 יותר מהיר מ- Hadoop). לכן, השימוש במוצר Spark הולך וגובר בעולם של נתונים גדולים ובעיקר לעיבוד מהיר יותר.

מה זה ניצוץ אפאצ'י?

Apache Spark הוא מסגרת קוד פתוח לעיבוד נפחי נתונים עצומים (Big Data) במהירות ובפשטות. זה מתאים ליישומי ניתוח המבוססים על נתונים גדולים. ניצוץ יכול לשמש בסביבת Hadoop, עצמאית או בענן. זה פותח באוניברסיטת קליפורניה ואז הוצע לאחר מכן לקרן תוכנת אפאצ'י. לפיכך, היא שייכת לקהילת הקוד הפתוח ויכולה להיות מאוד חסכונית, מה שמאפשר עוד יותר למפתחי חובבים לעבוד בקלות. (למידע נוסף על קוד פתוח של Hadoops, ראה מה ההשפעה של קוד פתוח במערכת האקולוגית של Apache Hadoop?)

המטרה העיקרית של Spark היא שהיא מציעה למפתחים מסגרת אפליקציה העובדת סביב מבנה נתונים מרוכז. הניצוץ הוא גם חזק ביותר ובעל יכולת מולדת לעבד במהירות כמויות אדירות של נתונים בפרק זמן קצר, ובכך מציע ביצועים טובים במיוחד.זה עושה את זה הרבה יותר מהר ממה שנאמר כמתחרה הקרוב ביותר שלו, Hadoop.

מדוע הניצוץ כה חשוב על פני Hadoop

מאז ומתמיד ידוע כי אפאצ'י ספארק גובר על Hadoop במספר תכונות, מה שמסביר ככל הנראה מדוע הוא נשאר כל כך חשוב. אחת הסיבות העיקריות לכך היא לשקול את מהירות העיבוד שלה. למעשה, כאמור לעיל, Spark מציעה עיבוד מהיר פי מאה יותר מאשר MapReduce של Hadoop עבור אותה כמות נתונים. זה גם משתמש בפחות משאבים באופן משמעותי בהשוואה לחאדופ, ובכך הופך אותו לחסכוני.

היבט מרכזי נוסף שבו יש את Spark על העליונה הוא מבחינת תאימות למנהל משאבים. אפאצ'י ספארק ידוע כי הוא פועל עם Hadoop, בדיוק כפי שעושה MapReduce, אולם זו האחרונה מתאימה רק לחדופ. אולם לגבי Apache Spark, זה יכול לעבוד עם מנהלי משאבים אחרים כמו YARN או Mesos. מדעני נתונים מציגים את זה לעתים קרובות כאחד האזורים הגדולים שבהם ספארק גובר על Hadoop.

כשמדובר על קלות השימוש, שוב ניצוץ Spark טוב בהרבה מה Hadoop. לספארק יש ממשקי API למספר שפות כמו סקאלה, ג'אווה ופייתון, מלבד העובדה שיש להם Spark SQL. זה פשוט יחסית לכתוב פונקציות המוגדרות על ידי המשתמש. זה קורה גם להתפאר במצב אינטראקטיבי להפעלת פקודות. Hadoop, לעומת זאת, כתוב ב- Java וזכה למוניטין של להיות די קשה לתכנות, אם כי יש לו כלים המסייעים בתהליך. (למידע נוסף על ניצוץ, ראה כיצד Apache Spark עוזר לפיתוח מהיר של יישומים.)

מהן התכונות הייחודיות לניצוצות?

לאפצ'י ספארק יש כמה תכונות ייחודיות המבדילות אותו באמת מרבים ממתחרותיה בתחום עיבוד הנתונים. חלקם הובאו בקצרה להלן.

אתה לא יכול לשפר את כישורי התכנות שלך כאשר לאף אחד לא אכפת מאיכות התוכנה.

לספארק יש גם יכולת מולדת לטעון מידע נחוץ לליבה בעזרת אלגוריתמים למידת מכונה. זה מאפשר לו להיות מהיר ביותר.

Apache Spark מגיע עם היכולת לעבד גרפים או אפילו מידע שהוא גרפי באופיו, ובכך מאפשר ניתוח קל בהרבה דיוק.

ל- Apache Spark יש את ה- MLib שהוא מסגרת המיועדת ללמידה מובנית של מכונות. זה גם מהיר יותר ביישום מאשר Hadoop. MLib מסוגלת גם לפתור מספר בעיות, כגון קריאה סטטיסטית, דגימת נתונים ובדיקת הנחות יסוד, כדי להזכיר כמה.

מדוע ניצוץ אינו מהווה תחליף לחדרו

למרות העובדה שלספארק יש כמה היבטים שבהם הוא מפשיל את ידו של Hadoop, עדיין יש כמה סיבות לכך שהוא לא יכול באמת להחליף את Hadoop עדיין.

ראשית, Hadoop פשוט מציעה מערך כלים גדול יותר בהשוואה לספארק. יש לו גם מספר פרקטיקות המוכרות בענף. אפצ'י ספארק, למרות זאת, עדיין צעיר יחסית בתחום ויידרש זמן מה בכדי להגיע לעלות עם Hadoop.

MapReduce של Hadoop קבעה גם סטנדרטים מסוימים בתעשייה בכל הקשור לניהול פעולות מן המניין. מצד שני, עדיין מאמינים ש- Spark אינו מוכן לחלוטין לפעול באמינות מלאה. לעיתים קרובות, ארגונים המשתמשים בספארק צריכים לכוונן אותה בכדי להפוך אותה מוכנה לסט הדרישות שלהם.

גם MapReduce של Hadoop, שקיים זמן רב יותר מ- Spark, קל יותר להגדיר אותו. זה לא המקרה של ספארק, בהתחשב בכך שהיא מציעה פלטפורמה חדשה לגמרי שלא באמת בדקה תיקונים גסים.

מה חברות חושבות על ניצוץ והדופ

חברות רבות כבר החלו להשתמש בספארק לצרכי עיבוד הנתונים שלהן, אך הסיפור לא נגמר שם. זה ללא ספק יש כמה היבטים חזקים שהופכים אותו לפלטפורמת עיבוד נתונים מדהימה. עם זאת, זה מגיע גם עם נתח הוגן של החסרונות שצריכים לתקן.

זוהי תפיסה בענף כי אפצ'י ספארק כאן כדי להישאר והיא אפילו העתיד לצורכי עיבוד נתונים. עם זאת, היא עדיין צריכה לעבור הרבה עבודות פיתוח וליטוש שיאפשרו לה לרתום באמת את הפוטנציאל שלה.

יישומים מעשיים

Apache Spark הועסק ועובד עדיין על ידי חברות רבות המתאימות לדרישות עיבוד הנתונים שלהם. אחד היישומים המוצלחים ביותר בוצע על ידי Shopify, שחיפשה לבחור חנויות כשירות לשיתופי פעולה עסקיים. עם זאת, מחסני המידע שלה המשיכו למועד הזמן בו היא רצתה להבין את המוצרים שלקוחותיהם מכרו. בעזרת Spark הצליחה החברה לעבד כמה מיליוני רשומות נתונים ואז לעבד 67 מיליון רשומות תוך מספר דקות. כמו כן נקבע אילו חנויות היו זכאיות.

באמצעות Spark, Pinterest מסוגלת לזהות מגמות מתפתחות ואז משתמשת בה כדי להבין את התנהגות המשתמשים. זה מאפשר עוד יותר ערך טוב יותר בקהילה של Pinterest. ניצוץ משמש גם את TripAdvisor, אחד מאתרי המידע הנסיעות הגדולים בעולם, כדי להאיץ את המלצותיו למבקרים.

סיכום

אי אפשר לפקפק בעוצמתו של אפאצ'י ספארק, אפילו לא כרגע, ובמערכת התכונות הייחודית שהוא מביא לשולחן. כוח העיבוד והמהירות שלו, יחד עם התאימות שלו נותנים את הטון למספר דברים שיבואו בעתיד. עם זאת, יש לה גם כמה תחומים עליהם היא צריכה לשפר, אם היא אמורה לממש את מלוא הפוטנציאל שלה. בעוד שחדר עדיין ממשיך לחוק את התרנגול נכון לעכשיו, אפצ'י ספארק אכן יש עתיד מזהיר ונחשב בעיני רבים לפלטפורמה העתידית לדרישות עיבוד נתונים.