נגישות

גיליון 53 – Big Data – ינואר 2018

Big-Data - המהפכה שתשנה את הדרך בה אנו חיים, עובדים וחושבים

אייל בנימין PhD, 
ראש מסלול היזמות במכללה האקדמית תל אביב יפו, ומנהל אקדמי של תכנית החדשנות בלהב הכשרת מנהלים באוניברסיטת תל-אביב

Big-Data הוא מושג מופשט, אשר פרץ לשיחה בסביבות 2011, והפך לאחד המושגים ה'חמים' בתחומי השיווק, המחקר, הניהול והחיזוי, תוך שהוא נוגע כמעט בכל תחום העולה על הדעת.
למערכות Big-Data מגוון שימושים, החל בהנגשת מידע מרשויות ציבוריות, עבור דרך ניהול רצפות ייצור, יישומים חברתיים, פרסום מקוון, וכלה ביישומים למחקר ורפואה.
לצד הפוטנציאל העצום של השימוש בBig Data  בהווה ובעיקר בעתיד, גם מגבלות ואתגרים רבים.

Big-Data הוא מושג מופשט, אשר פרץ לשיחה בסביבות 2011, והפך לאחד המושגים ה'חמים' בתחומי השיווק, המחקר, הניהול והחיזוי, תוך שהוא נוגע כמעט בכל תחום העולה על הדעת. בספרם "Big-Data – המהפכה שתשנה את הדרך בה אנו חיים, עובדים וחושבים"[i], מתארים ויקטור מאייר-שונברגר וקנט קוקייר  את Big-Data בתור "היכולת לעבד כמויות עצומות של מידע, לנתח אותו בעצימות גבוהה ולהפיק מסקנות חדשות, חלקן מפתיעות".
Big-Data הצטרף למושגים קודמים כגון מסדי נתונים (Databases) או מחסני נתונים (Data Warehouses), וסולל את הדרך לנושאים נוספים כגון אנליזות מידע (Data Analytics), אנליזות חיזוי (Predictive Analytics), מדעני מידע (Data Scientists) ועוד. תחום הBig-Data אינו מחליף או מייתר את השימוש במאגרי המידע הקלאסיים והמוכרים, אלא מייצג רובד נוסף בהתייחסות למידע הנצבר ולאופן השימוש בו[ii]. מסדי הנתונים משמשים לאחסון סדור של נתונים, לרב במבנה טבלאי יחסי (Relational Database), ומאפשרים אכסון ושליפה של הנתונים ליישום ספציפי (למשל ניהול מלאי או פציינטים בקליניקה). לעומתם, מחסני הנתונים מאגדים נתונים ממספר מסדי נתונים, ומאפשרים שליפה, הצלבה, וניתוח מידע ממספר מקורות. אולם בסביבה הדיגיטלית של ימינו נוצרו הזדמנויות ודרישות נוספות מעולם המידע, שרובן נוגעות לשלושה מאפייני ליבה: נפח המידע המאוכסן הצומח למימדי ענק (Volume), התפתחות מגוון סוגי המידע, הכוללים כיום למשל גם תמונות וקבצי קול (Variety), ומהירות הנגישות למידע או לנגזרותיו, שהיא נגזרת מכמות ומגוון המידע (Velocity).   מאפיינים אלו הם ליבת המעבר לעולם הBig-Data לצורך יצירת ערך (Value) חדש[iii].
מכאן, שמערכות Big-Data מסוגלות לאחסן כמויות עצומות של מידע מסוגים שונים ולנתח את המידע ,בין אם לצורך קבלת החלטות או לשם הפקת תובנות, בזמן קצר יחסית.
עולם זה מתקיים בשלושה מימדים: (א) התהליכים לבניה ושימוש שוטף במערך Big-Data, (ב) הטכנולוגיה הנדרשת לצורך כך, (ג) היישום או השימוש אשר מפיק תועלת ממערך הBig-Data שנבנה[iv]. לדוגמא, יישום Big-Data לעולם הקמעונאות יתבסס על איגום מידע צרכני והתנהגותי של קהל מטרה, כגון רשומות כרטיסי האשראי, רשימות הקניות שנערכו ורשימת אתרי האינטרנט בהם ביקרו הצרכנים; וישמש לצורך חיזוי ביקושים של סגמנטים בקהל, זיהוי מגמות ומתאמים בין התנהגויות וכד'. לצורך כך יהיה צורך בבנייה של מערכת אחסון ושרתי ניתוח מתאימים, ויידרשו מקורות שונים של מידע שיזרום באופן תקין למערכת הניתוח וקבלת ההחלטות.

שלבים בשימוש בBig Data
תהליכי ה Big-Data מורכבים מ 4 שלבים: יצירת המידע, איסוף המידע, אחסון המידע וניתוח המידע.
שלב יצירת המידע עוסק בהמרת המידע לשטף של נתונים דיגיטליים בפורמט בר אכסון. הנתונים יכולים להגיע מחיישנים, מצלמות, מיקרופונים או כל אלמנט אחר. אמנם חלק גדול מהמידע נוצר דיגיטלית (למשל היסטורית הגלישה באינטרנט), וניתן לאכסון ושימוש כמעט מידי, אולם סוגי מידע רבים אחרים נדרשים לעבור דיגיטליזציה בטרם ניתן יהיה לעשות בהם שימוש (למשל נתוני מזג אוויר, נתונים ביולוגיים, וכד').
מערך האיסוף מזרים את המידע שנוצר אל מערכות האכסון. במקרים בהם המידע נוצר בסמוך למערכות האכסון, למשל בקווי הייצור של מפעל, תהליך האיסוף הוא מובן מאילו. אולם במקרים בהם המקורות הם מרוחקים (אנשים הנמצאים בביתם) או ניידים (מכוניות חכמות) יש צורך בבניית מנגנון המזרים בשטף רציף, או במנות, את המידע העדכני אל אמצעי האחסנה. במהלך האיסוף יש לשמור גם על הלימה ואינטגרציה של המידע שנאסף עם מבנה ומנגנוני האחסנה הקיימים והמידע שכבר נמצא בהם. ההחלטה על קצב העדכון תלויה במידה רבה בסוג הערך הנדרש ממערכת הBig-Data. יישומי זמן אמת, כגון החלטה על הפרסומת שתוצג בעמוד אינטרנט או החלטת ניהוג לרכב אוטונומי, יידרשו מערכת איסוף מהירה ועדכנית; מערכות המחפשות חוקיות או סיבתיות בתוך המידע, יוכלו להסתפק במערך איסוף איטי יותר.
אכסון המידע הוא שלב ביניים מהותי בין האיסוף לעיבוד. באופן טבעי אכסון מידע לשימושי Big-Data דורש נפחים עצומים, בסדרי גודל של פטהביטים (1015bit) ואף יותר של מידע. מכאן שסוגיית האכסון דורשת התייחסות חדשה לאמינות, זמינות, ומהירות הגישה למידע. התפתחות הBig-Data הובילה לפיתוח של גישות חדשות לאכסון המידע כגון מסדי אחסנה מבוזרת (Distributed Storage)[i], המאפשרים פיצול האחסנה לשרתים/אזורים שונים, שיטות עיבוד חדשות[ii], ומעבר למסדים מכווני מסמכים (Document-Oriented Database)[iii], המאפשרים אחסון מידע מובנה חלקית (Semi Structured Database).
ניתוח מידע Big-Data מיועד לשתי תפוקות מרכזיות: חיזוי מדויק ככל האפשר של תופעה, ו/או הפקת תובנות לגבי קשרים בין אלמנטים שונים. שתי תפוקות נוספות, המתאפשרות מגודל המאגר, הינן היכולת לאתר תבניות משמעותיות בתת-קבוצות, וכן היכולת לאתר מכנים משותפים באופן החוצה תת קבוצות במאגר, גם כאשר יש שונות גבוה בין הפרטים[iv]. היות ומדובר בכמויות מידע ומהירות עיבוד אשר מעבר ליכולת מעבד בודד בטכנולוגיה הקיימת היום ובציפייה לביצועים סבירים, הפך הניתוח לאתגר כשלעצמו. תשתית העיבוד המקובלת היא פתרון בעיה באמצעות עיבוד מבוזר על גבי מקבץ (Cluster) של מחשבים. הגישה הנפוצה כיום היא שימוש בטכנולוגית MapReduce אשר פותחה על ידי צוות מגוגל[v], ומשמשת את החברה במגוון אפליקציות. כמשתמע משמה, MapReduce מורכבת משני שלבים: מיפוי הבעיה לסדרה של תת בעיות הנשלחות למחשבים שונים במקבץ, וצמצום הפתרונות המתקבלים מכל מחשב לתוך פתרון אחד של הבעיה המרכזית.
ניתוח מידע Big-Data מתקשר גם לשני מושגים נוספים שהם 'בינה מלאכותית' (Artificial Intelligence – AI) המתייחס לאלגוריתמיקה המדמה בינה טבעית (לרוב אנושית) בתחומי קבלת החלטות, זיהוי ואיתור תבניות; וכן ל 'למידה מכונה' (Machine Learning – ML) המתייחסת להתנהגות מכונה אשר אינה מבוססת תכנות יישיר אלא תוצאה של הישנות, חיזרור (Iterations) ותוצאות קודמות. שני התחומים קיימים ומפותחים כבר משנות התשעים, אולם עד לאחרונה יושמו בסביבות קלאסיות, והמעבר ליישום מבוזר בנפחים גדולים האו אתגר חדש. מצד שני, ליישומי AI ו ML  במערכות Big-Data יש פוטנציאל להפקת תובנות חדשנות כמעט בכל תחום[vi]. אחת הדוגמאות המוכרות לשימוש ב AI וML הוא כמובן סירי של אפל, והמקבילות לה (אלכסה באמאזון וקורטנה במיקרוסופט).

מדוע זה טוב?
למערכות Big-Data ישנן כמה חזקות משמעותיות אשר חשוב להתייחס אליהן.
הראשונה שבהן היא גמישות ביחס למבנה הנתונים הזורם אל תוך המערכת. בעוד מערכות יחסיות (Relational Database) מצפות לקבל את המידע בפורמט ידוע מראש, מערכות Big-Data מסוגלות לאכסן את המידע בפורמט המגיע אליהן בפועל. דבר המוריד את הצורך לצפות מראש את כל סוגי המידע העתידיים, או לחילופין, לעדכן את כל מבנה מסד הנתונים בהינתן מידע מסוג חדש.
לצד הגמישות באופן בו נשמרים הנתונים, ולמבנה העלויות הנגזר מכך, מצטרפת גמישות יחסית בפיתוח האפליקציות הנדרשות. עם התפתחות התחום, ירדה כמות הקוד הנדרשת כדי לפתח אפליקציה. פעילות קהילת המפתחים סביב הקוד הפתוח הובילה לשכלול ועלייה ביעילות וגמישות כתיבה הקוד, כמו גם ביכולת לפיתוח משותף של פרויקטים (Collaboration)[i].
חוזקה נוספת היא סולמיות או מדרגיות (Scalability/סקילביליות) המערכת. היכולת האינהרנטית של מערכות Big-Data לפעול באחסון/ניתוח מבוזר מאפשרות שמירה על אותה רמת ביצועים עם הגדלת יחידות העיבוד, זאת בניגוד למערכות קלאסיות אשר לרוב מגיעות אל נקודה בה תוספת של יחידות עיבוד מעלות את הביצועים במידה שולית בלבד. יכולת זו מאפשרת גמישות תכנונית כמו גם השקעה מדורגת בהתאם לצרכי המידע המתפתחים.
מהירות הינה עוד סיבה טובה להשתמש במערכות Big-Data. אולם לא תמיד. מחקרים מראים שלמערכות Big-Data, ובמיוחד למסדים מכווני מסמכים (לרב ממשפחת NoSQL), יש יתרון משמעותי כאשר מדובר במידע בנפחים גבוהים או מספר גדול מאוד של פעולות, ביחס למסדי נתונים רלציונים [ii], אולם יש לציין כי היתרון אינו אחיד על פני מגוון הפעולות ומסדי הנתונים השונים.
עלות היא מרכיב משמעותי במערכות נתונים. עלותה הכוללת של מערכת Big-Data מכילה מרכיבים רבים של חומרה, תוכנה כ"א וכד', אולם מרכיב מסד הנתונים עצמו ניתן למידור באמצעות בשימוש בתוכנות קוד פתוח. ישנו מגוון פתרונות רחב הזמין כיום לארגונים המעוניינים להיכנס לתחום בעלות סבירה כגון: MongoDb, Couch DB, Cassandra  ואחרים[iii].

שימושים ל Big-Data
כאמור, למערכות Big-Data מגוון שימושים. החל בהנגשת מידע מרשויות ציבוריות, עבור דרך ניהול רצפות ייצור, יישומים חברתיים, פרסום מקוון, וכלה ביישומים למחקר ורפואה. קצרה היריעה מלתאר את כולם, אולם ישנם כמה תחומים מרכזיים בהם ההשפעה כבר ניכרת:
בעולם הניהול העיסקי נוצרת הסטת ערך הנוצר ממידע עמוק אל ליבת העסקים[i]. אם בעבר מערכות המידע היוו בעיקר מערכת תיעוד למטרות תפעוליות וחשבונאיות כגון ניהול מלאי, חיזוי מלאי, תמחור ודיווח, הרי שבארגונים בהם נוצרת כמויות גדולות של מידע, כגון מערכות קמעונאיות, כרטיסי אשראי וכד', מאפשרות מערכות Big-Data לייצר ערך מוסף משמעותי וחדש, אשר לא היה קיים בעבר בתצורה של ניתוח התנהגויות, חיזוי והשפעה על התנהגות צרכנים ושווקים. שחקני סחר הגדולים כגון אמזון ואחרים משתמשים ביכולות אלו כדי ליצור יתרונות תחרותיים ולביצור מקומם בשוק.
בעולם הפיננסים והכלכלה משמשים נתוני סחר, נתוני בורסה ונתונים כלכלים אחרים כבסיס לניתוח, מדידה וקבלת החלטות כגון החלטות השקעה, סחר, ייעוץ וניהול סיכונים[ii]. ניתוח בתחום כלכלת המקרו, בהם מספר הפרמטרים צומח באופן מעריכי עם הגדלת המודל, הופכים להיות מעשיים יותר עם השימוש בכלי Big-Data.
עולם הרפואה היישומי איטי יותר באימוץ הBig-Data לחיי היום יום[iii] ביחס למערכות הפיננסיות. הסיבות לכך נובעות כנראה משמרנות טבעית של התחום בשינוי פרוטוקולים, לצד העדר היסטוריה של תשתיות מידע שניתן לבנות עליה מערכי Big-Data, וכמובן נושאים רגולטוריים כגון סודיות רפואית, זכות שימוש ובעלות על המידע, חשיפה לבעלי עניין מסחריים וכד'. יחד עם זאת, בעולם המחקר הרפואי נעשה כבר שימוש ביכולות הBig-Data בתחומים כגון גנטיקה ונוירולוגיה. מגבלות המשאבים של מעבדות המעוניינות לבנות מודלים ולנתח מידע גנומי, מובילות אותן להתחבר למאגרים מרכזיים, כגון אלו של השוק האירופאי המשותף ואחרים, כדי לבצע מחקר. חשוב לציין שלמרות השימוש הרב של חוקרים בתחום הביולוגיה והגנטיקה במערכות Big-Data, הם עדיין נאלצים להתמודד עם אתגרים רבים.[iv]
המעורבות הרגולטורית הנמוכה ברמת הפרט, לצד המודעות לבעיות הנובעות מחשיפה של נתונים אישיים, חברו ליכולות הטכנולוגיות של חיישני גוף זעירים ותקשורת מקוונת, אפשרו את התפתחות ה"אני הכמותי" (Quantified Self)[v]. גישה זו מאפשרת לאסוף מידע מן האדם הבודד, בין אם באמצעות חיישנים  ( מד צעדים הינו הדוגמא הפשוטה ביותר), דגימות (הפרשות, טמפ', משקל ועוד) או הזנה (סקירת קבצי MRI) לאורך זמן, ובהצלבה עם גורמי מידע אחרים לתת תובנות המותאמות אישית. מיזמים כגון DayTwo [vi]  העוסק בתזונה מותאמת אישית או Patients like me[vii] העוסק בהתמודדות עם מחלות יתום  (Orphan disease), מחלות עם מספר חולים קטן אשר אינו מצדיק את ההשקעה במחקר לתרופות) , ניגשים לבעיות רפואיות מוכרות באמצעות איסוף פרטני והשוואה לקבוצה גדולה ומגוונת.

מגבלות של Big-Data
לפלטפורמות Big-Data, על כל מעלותיהן, ישנן גם מספר מגבלות. למשל מערכת ,[i]Google Flu Trends החוזה את מגמות התפשטות השפעת על בסיס ניתוח מילות חיפוש מסוימות בגוגל, התבררה עם הטיה חזקה לאורך השנים אי דיוקים בחיזוי, כנראה בגלל הטיות הנובעות מהשפעות צולבות של מידע עונתי אחר והדינמיות של האלגוריתמים השונים  המעורבים בחיזוי [ii].
בויד וקראופורד[iii] מתארים מספר אתגרים הנובעים מBig-Data: ראשית, אימוץ רחב של יישומי Big-Data ככלי עבודה עשוי להשפיע על מהות המחקר, תפיסת המציאות, ואף להשפיע על המציאות עצמה, בדיוק כפי שהשימוש בחשבונאות בעולם העסקי הפך מכלי המייצג את הפעילות לכלי המשפיע עליה, ועל החלטות המנהלים מעצם קיומו.
שנית, השימוש בכמות עצומה של מידע דיגיטלי עשוי לייצור אשליית דיוק ואובייקטיביות, בעוד שלב ליבו של העניין שהוא הפרשנות ועומק הניתוח, אשר אמורים להגן בפני זיהוי תבניות והקשרים חסרי משמעות, הנובעים רק מעצם גודלו של בסיס המידע.
איכות מקורות המידע המזינים את האלגוריתמים עשויה גם היא להוות אבן נגף בפעילות Big-Data, קרי השימוש בטכנולוגיה חדשה ועוצמתית אינה מסירה את האחריות הנדרשת מהחוקרים בכל הקשור לתוקף מחקרי, כגון גודל ורלוונטיות המדגם ובחינת מידת הרלוונטיות של Big-Data לשאלת המחקר. למשל האם ניתוח מגמות הנובע מהמידע הזורם באפליקציית טוויטר אכן מייצג את האוכלוסייה?
בעיות אלו מצטרפות לסוגיות נוספות של הקשרים (Context) הנובעים מהתאמת המידע העשיר לתוך מודלים מתמטיים; סוגיות הנובעות מאתגרים אתיים של שימוש במידע הנאגר למטרה אחת לייעוד אחר לחלוטין באופן העשוי לפגוע באדם או קהילה; וסוגיות הנובעות מזמינות מידע מסוים וייחודי בידי גופים, כגון חברות. גופים רבים, חלקם מסחריים גרידא, שולטים בנגישות אל המידע ו/או בחתכים ומידע אותו הם מעוניינים לחלוק עם אחרים ובכך עשויים להשפיע על הממצאים הנחשפים לחברה בכללותה.

 העתיד של Big-Data
למרות ההתפתחות העצומה של תחום הBig-Data, זוהי כנראה רק ההתחלה. בעוד ישנם העושים שימוש ביכולות חדשות אלו בכדי להתמודד עם האתגר עתיק היומין של חיזוי מזג אוויר[i], אחרים חוששים מעתיד בו יכולות הBig-Data מסכנות את עצם קיומן של דמוקרטיות כפי שאנו מכירים אותן כיום[ii]. בכל מקרה, כמו בתחומים אחרים, אנו נמצאים בעינה של מהפכה. הBig-Data מניע שינויים בחברה, במדע ובכלכלה, אך בו זמנית גם ניזון מהם. תחומים חדשים כמו גרפיקה מרובת נתונים (Big Graph Data)[iii] יאפשרו הצגה בהירה וברורה יותר של מגמות ונתונים,  התקנים אוטונומיים כגון רכבים, אלגוריתמים ורובוטים יעשו שימוש מקוון בהשוואת מצב קיים למספר עצום של השוואות לקבלת החלטות[iv], אך סקירה של התחום והמגמות[v] מעלה שעדיין ישנם אתגרים רבים לפנינו.

מקורות

[1] Viktor Mayer-Schönberger ,‎ Kenneth Cukier  (2013). Big data: A revolution that will transform how we live, work, and think., John Murray, UK

[1] Madden, S. (2012). From databases to big data. IEEE Internet Computing, 16(3), 4-6.

[1] Zikopoulos, P., & Eaton, C. (2011). Understanding big data: Analytics for enterprise class hadoop and streaming data. McGraw-Hill Osborne Media.

[1] Chen, M., Mao, S., & Liu, Y. (2014). Big data: A survey. Mobile Networks and Applications, 19(2), 171-209.

[1] Hang, F., Dean, J., Ghemawat, S., Hsieh, W. C., Wallach, D. A., Burrows, M., … & Gruber, R. E. (2008). Bigtable: A distributed storage system for structured data. ACM Transactions on Computer Systems (TOCS), 26(2), 4.

[1] Dean, J., & Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM, 51(1), 107-113.

[1] Moniruzzaman, A. B. M., & Hossain, S. A. (2013). Nosql database: New era of databases for big data analytics-classification, characteristics and comparison. arXiv preprint arXiv:1307.0191.

[1] Fan, J., Han, F., & Liu, H. (2014). Challenges of big data analysis. National science review, 1(2), 293-314.

[1] Dean, J., & Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM, 51(1), 107-113.

[1] O'Leary, D. E. (2013). Artificial intelligence and big data. IEEE Intelligent Systems, 28(2), 96-99.

[1] https://spark.apache.org/

[1] Li, Y., & Manoharan, S. (2013, August). A performance comparison of SQL and NoSQL databases. In Communications, computers and signal processing (PACRIM), 2013 IEEE pacific rim conference on (pp. 15-19). IEEE.

[1] http://bigdata-madesimple.com/18-free-and-widely-used-open-source-nosql-databases/

[1] Davenport, T. H., Barth, P., & Bean, R. (2012). How big data is different. MIT Sloan Management Review, 54(1), 43.

[1] Stock James, Watson Mark. Forecasting using principal components from a large number of predictors. J. Am. Stat. Assoc. 2002;97(460):1167–1179.

[1] Groves, P., Kayyali, B., Knott, D., & Kuiken, S. V. (2016). The 'big data' revolution in healthcare: Accelerating value and innovation.

[1] Marx, V. (2013). Biology: The big challenges of big data. Nature, 498(7453), 255-260.

     https://www.nature.com/articles/498255a

[1] Swan, M. (2013). The quantified self: Fundamental disruption in big data science and biological discovery. Big Data, 1(2), 85-99.

[1] https://www.daytwo.com/

[1] https://www.patientslikeme.com/

[1] https://www.google.org/flutrends/about/

[1] Lazer, D., Kennedy, R., King, G., & Vespignani, A. (2014). The parable of Google Flu: traps in big data analysis. Science, 343(6176), 1203-1205.

[1] Boyd, D., & Crawford, K. (2012). Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon. Information, communication & society, 15(5), 662-679.

[1] Schnase, J. L., Duffy, D. Q., Tamkin, G. S., Nadeau, D., Thompson, J. H., Grieg, C. M., … & Webster, W. P. (2017). MERRA analytic services: meeting the big data challenges of climate science through cloud-enabled climate analytics-as-a-service. Computers, Environment and Urban Systems, 61, 198-211.

[1] Helbing, D., Frey, B. S., Gigerenzer, G., Hafen, E., Hagner, M., Hofstetter, Y., … & Zwitter, A. (2017). Will Democracy Survive Big Data and Artificial Intelligence. Scientific American. Feb, 25.

[1] Junghanns, M., Petermann, A., Neumann, M., & Rahm, E. (2017). Management and Analysis of Big Graph Data: Current Systems and Open Challenges. In Handbook of Big Data Technologies (pp. 457-505). Springer International Publishing.

[1] https://www.gartner.com/newsroom/id/3143521

[1] Gandomi, A., & Haider, M. (2015). Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management, 35(2), 137-144.

http://www.sciencedirect.com/science/article/pii/S0268401214001066