נגישות

גיליון 53 – Big Data – ינואר 2018

השימוש בביג דאטה בשירות הרפואה

פרופ' גדעון קורן,  מאיה עדולמי ופרופ' ורדה שלו
מכון קאהן – מכבי למחקר וחדשנות

השנים האחרונות מתאפיינות בפיתוחן של שיטות מחשוב, שמסוגלות לנתח כמויות נתונים ענקיות (Big Data), ולהבחין בגילויים רפואיים ומדעיים שלא התגלו בניתוחי נתונים קלאסיים עד היום.
ה”ביג דאטה” ולמידת המכונה עתידים לשנות את עולם הרפואה מן היסוד, ולהביא לפריצות מדעיות בכל הנוגע לפיתוח רפואה מותאמת אישית, גילוי מוקדם, דיוק מוגבר באבחנות ומניעת מחלות. אלו יתאפשרו על בסיס אלגוריתמים סטטיסטיים מתוחכמים המסוגלים "ללמוד" כמויות אדירות וסוגים שונים של נתונים (כגון שדות מובנים, טקסט חופשי, תמונה וקול)  ולהסיק מסקנות מדויקות, במהירות ולעתים ללא הקשר ידוע מראש. העושר העצום של מאגרי המידע הרפואיים הדיגיטליים בישראל, בשילוב עם חוקרים וחברות העוסקים בפיתוח אלגוריתמים מורכבים, מעמידים את ישראל בחזית המחקר העולמית של ביג דאטה.

בשנים האחרונות מתקיים שיח משמעותי בקהילה הרפואית אודות השינויים וההבטחות שנושא עמו תחום נתוני עתק (Big Data). תחום עיסוק חדשני זה הינו בעל פוטנציאל להשפעה משמעותית ולמעשה – שינוי מן היסוד של האופן שבו מתנהלים המחקר והטיפול הקליני בתחומי הרפואה בשנים הקרובות.
עולם הרפואה מתבסס כיום על ניסיון קליני שנצבר לאורך מאות שנים, תצפיות על חולים וממצאי מחקר מדעי בסיסי.  עם השנים נוצרו פריצות דרך רפואיות רבות, והתפתחו טכנולוגיות רפואיות חדשניות. המורכבות הגדלה והולכת של גוף הידע הקליני בעולם הרפואה, במקביל לכניסת המחשבים לעולם הרפואה, הביאה ליצור כמויות אדירות של מידע דיגיטלי בפורמטים שונים – נתוני עתק.
טכנולוגיות מבוססות נתוני עתק יכולות לסייע בגילוי מוקדם ומניעה של מחלות, לשנות את הדרך בה אנו מבצעים סקר לאיתור מוקדם של מחלות,  להפוך את הטיפול הקליני למותאם אישית ומדויק יותר, לצמצם טעויות אנוש, לשפר את איכות החיים של המטופלים ורמת השירות ולהעלות את טיב המחקר הרפואי המתקיים.
מטרת מאמר זה היא להדגים כיצד, ובאילו עולמות תוכן, יכולים כלים מבוססים נתוני עתק לתרום לרופא המטפל ולחוקר. במאמר נסקור מושגי יסוד בתחום נתוני העתק ולמידת מכונה, ונציג את השימושים בתחומים אלו בעולם העסקי ובעולם הרפואי, תוך מתן דוגמאות ממחקרים וטיפולים חדשניים אשר מתקיימים כיום בישראל ובעולם.

Machine Learning, Big Data ומה שביניהם
בעולם נתוני העתק, מקובל לתאר את המידע לפי 5 קטגוריות:
Volume: כשמו כן הוא, מדובר בכמויות המידע.  ההערכה היא שמדי חודש נוצרים כ 2.5 Exabytes של נתונים חדשים (Exabyte אחד מכיל מיליארד Gigabytes).
Variety: סוגים שונים של מידע. דאטה מסורתי הוא דאטא מובנה (structured data) אשר מאורגן בטבלאות מוגדרות מראש. מידע לא מובנה כולל למעשה את כל היתר – נתוני טקסט חופשי, תמונות, קבצי PDF, הקלטות שמע, נתונים מתוך מכשירים לבישים (מדי סוכר, מדי דופק כדוגמת שעוני כושר) ועוד.
Veracity: איכות ואמינות המידע – עד כמה ניתן להסתמך על המידע בקבלת החלטות מקצועיות. נכון להיום, אחד מכל שלושה מנהלים לא סומכים על המידע וניתוחו בקבלת החלטות, והמשמעות היא שרוב ההחלטות מתקבלות שלא על בסיס מידע אלא על סמך אינטואיציה, היכרות עם הארגון וכיו"ב.
Velocity: מהירות ההגעה של המידע החדש המצטבר מדי יום במערכות שיש לעבד.  מקובל לומר כי 90% מהמידע בעולם הצטבר בשנתיים האחרונות [1]. מדי יום מצטברות כמויות אדירות של מידע במערכות (במהלך דקה נשלחים כ-150 מיליון מיילים, 2.4 מיליון שאילתות בגוגל, 21 מיליון הודעות בwhatsapp  וכו'. בעולם האקדמי בלבד מתפרסמים כ-8,000 מאמרים ביום). עקב הצורך לקבל תשובות מהירות, בזמן אמת, נדרשת יכולות ניתוח גבוהות בכדי לעבד את המידע.
Value: יצירת ערך עסקי ומטרות ברורות באמצעות תובנות כתוצאה מהמידע.
המידע לבדו אינו מספיק. על מנת להפוך את המידע  לידע (Knowledge) בר שימוש עבור הארגון, ולהפיק ממנו תובנות, יש צורך בניתוח סטטיסטי חדשני, המסוגל למצוא במידע הקשרים ודפוסים, שבדרך כלל קשה לאתר באופן אחר.
פיטר סנודגרד, סמנכ"ל בכיר בחברת המחקר גרטנר, כותב במאמר שהתפרסם ב 2015 ב Forbes: "נתוני עתק הם הנפט של המאה ה 21. למרות כל הערך שלהם, הנתונים הם טיפשים. הם אינם עושים כלום עד שאתה לומד כיצד להשתמש בהם. גם הנפט הגולמי הוא חסר ערך עד שמזקקים אותו והפכים אותו לדלק. גרסת הביג דאטה של נפט מזוקק – אלגוריתמים ייחודיים שנועדו לפתור בעיות מסוימות וניתן לתרגם אותם להחלטות ופעולות. זהו המתכון הסודי של הארגונים המצליחים בעתיד. הבהלה לזהב של העידן הדיגיטלי תהיה ממוקדת כיצד ניתן לעשות דברים בעלי ערך עם הנתונים" [2].

Machine Learning
Machine Learning (למידת מכונה) היא תחום המחקר, המאפשר למחשבים את היכולת ללמוד חוקיות מנתונים, מבלי להיות מתוכנתים באופן ספציפי [3]. מודלים מבוססים למידת מכונה מסוגלים ללמד עצמם למצוא הקשרים, לדייק ולטייב מגמות ללא הקשר ידוע מראש. זאת בניגוד למודלים מבוססי חוקיות ידועה, אליהם מוזנים הכללים מבעוד מועד ומיושמים לאחר מכן. באופן זה, נחשפות בפנינו אפשרויות חדשות למציאת קשרים בלתי צפויים בין משתנים וזיהוי תבניות שימושיות [4]. למידת המכונה כוללת בתוכה אלגוריתמים מודרניים שונים – שיטות סטטיסטיות מגוונות, אשר מסוגלות להסתמך על כושר החישוב הגבוה של מחשבים כיום, על מנת למצוא את אותם קשרים ודפוסים חדשים בנתונים [5]. שיטות אלו פורצות דרך באפשרות ליצור מודלים לקשרים בעלי התפלגות שאינה לינארית, או אינה דומה להתפלגות ידועה, שימוש במידע הכולל ערכים חסרים וניצול מספר רב מאוד של משתנים לצורך חיזוי או זיהוי דפוסים. בניגוד למודלים המיועדים לשימוש ידני אנושי, ומחייבים מספר מועט של פרמטרים ושיטות חישוב קלות, אין צורך להגביל מודלים מחשוביים, וניתן להעשירם במספר רב של משתנים ופירוט רב אודותיהם, ובכך לאפשר להם רבדים רבים יותר ורב מימדיות.

מידה עמוקה (Deep Learning)
למידה עמוקה (Deep Learning) היא אחת מהשיטות המובילות בתחום למידת המכונה אשר נשענת על רעיון חיקוי פעולת המוח האנושי באופן ממוחשב, באמצעות רשתות נוירונים מלאכותיות. נתונים הנוספים כל העת למערכות אלו מאפשרים לשפר ולטייב את האלגוריתם הנבנה במהלך הזמן, בדומה למוח אנושי המשפר ומעדכן את הבנתו ככל שלומד מידע חדש. שיטות הלמידה העמוקה מיושמות בהצלחה בעולמות תוכן רבים כולל ניתוח תמונה, זיהוי קול וניתוח שפה טבעית (natural language processing) ועוד [6].
מרבית האלגוריתמים המודרניים ללמידת מכונה סובלים ממגבלה משמעותית ביכולת הפרשנות. תוצר מודל הניבוי מכונה לעתים רבות "קופסא שחורה" ( Black Box), על שום הקושי להתחקות אחר גורמי הסיכון או משקלותיהם אשר הביאו בסופו של דבר למסקנות או ההקשרים שנמצאו במודל. מודל למידת מכונה מספק לרוב הקשרים תוצאתיים, אך לא סיבתיים-  מדוע הקשר מסוים מתקיים ולא אחר. על כן, במובנים רבים  הוא יכול לשמש כלי עזר לקבלת החלטות אך האלמנט האנושי – מומחה תוכן, תמיד יידרש בכדי לאתר טעויות אפשריות, להבין ולהכווין את התוצאות ולקבל החלטות מושכלות על בסיסן.

נתוני עתק בעולם העסקי
בעידן הדיגיטלי הנתונים עוברים לחזית העסקית, בין אם מדובר בתעשיות מסורתיות או בחברות חדשניות, מתחומי הבנקאות דרך הטכנולוגיה, קמעונאות ותעשיית התרופות. הנתונים זוכים לכבוד הראוי להם, והופכים למשאב משמעותי ביכולת הארגון לייצר יתרון תחרותי, לחשוף תובנות עסקיות ולייצר מוצרים חדשניים ומקורות הכנסה חלופיים [1].
השימוש המסחרי המוכר ביותר כיום בתחום נתוני העתק הינו בעולמות השיווק והמכירות – הצעת מוצרים לרכישה פוטנציאלית על פי רכישות קודמות, והשוואתן לרוכשים דומים במשתנים דמוגרפיים, חברתיים וכיו"ב מהווה תשתית משמעותית בעולמות ה-e-commerce. לאחרונה, צוטט חבר הנהלה בכיר ב-Citi bank  באומרו "האינפורמציה חשובה בדיוק כמו הכסף"[7].
השימוש במידע מאפשר גם יצירת מודלים עסקיים חדשים: חברת UBER למשל, ערכה פיילוט בבריטניה בו ניטרה  את רמות זיהום האוויר בעיר באמצעות התקנת מד זיהום אוויר במכוניות אשר בשירותה. בכך הפכה UBER לתחנת ניטור הזיהום הגדולה והמדויקת ביותר בעולם, עם יכולות שימוש חדשות למידע שנאסף. באנלוגיה לעולם הרפואי, מידע הנאסף במערכות הבריאות לצרכי טיפול משמש באופן משני גם כמידע לצרכי מחקר. במקומות רבים בעולם, גם דגימות ביולוגיות הנאספות בכל מקרה, מאוחסנות ומשמשות לצרכים דומים, במה שמכונה ביו- בנק. דגימות אלו הן בעלות ערך מחקרי וכלכלי שלא יסולא בפז.
Patients like me הוא דוגמא לאתר, בו חולים מספקים מרצונם מידע אודות מצבם הרפואי בכדי לסייע לחולים אחרים, למחקר ולטיפול במצבם. למעלה מ מ-500,000 איש חולקים באתר מידע אודות מחלתם, הטיפול בהם, התסמינים שהם חווים ועוד. האתר הופך את הנתונים  לתובנות עבור חולים אחרים במצב דומה, ומאפשר לחולים המעוניינים בכך ליצור קשר ישיר עם חולים אחרים במצבם. הרעיון הוא להעצים את החולה, לסייע לו בקבלת מידע על מצבו הרפואי, ועל החלטות אודות הטיפול בו. הרישום והשימוש באתר הוא ללא תשלום, כאשר מודל ההכנסות מבוסס על שיתופי פעולה מחקריים ועסקיים עם חברות תרופות, ציוד רפואי, ממשל וכו', על בסיס המידע. המידע אודות תופעות לוואי של תרופות, למשל, משותף עם חוקרי מנהל המזון והתרופות של ארה"ב ועם מחקרים נוספים [8].

נתוני עתק בעולם הרפואה
עולם הרפואה עתיד להשתנות ולהרוויח מן ההתקדמות בתחום נתוני עתק יותר מכל. כבר היום, הדוגמאות המעניינות והמעשירות ביותר לשימושים יישומיים בנתוני עתק הינן בתחומי הרפואה הקלינית והמחקר הרפואי.  מערכות אלו ישנו פרדיגמות ודרכי חשיבה שמלווים אותנו שנים רבות. עבור רופאים, הן יוכלו לשמש ככלי עזר מתקדם לקבלת החלטות המבוססות על מודלים סטטיסטיים מורכבים. עבור החוקר, הן יאפשרו ביצוע מחקרים פורצי דרך, הן בתוכנם, והן באופן ביצועם.
התחום הראשון בו ניכרים ניצני השינוי הוא טיפול רפואי מותאם אישית, ודיוק מוגבר באבחון ובטיפול: בשנות ה-70 של המאה הקודמת החלו להתפתח בעולם הרפואה מערכות תומכות החלטה קליניות (decision support systems). מטרתן היא לסייע לרופא לשפר את איכות הטיפול, למנוע טעויות רפואיות, לנהל באופן מושכל את משאבי הבריאות, ולהעלות את רמת השירות הניתן למטופלים. כיום, מערכות תומכות החלטה אלו מתבססות על כללים מוסכמים  (rule based) בכדי לספק מידע ומסקנות לגבי כלל החולים במצבים שהוגדרו והוזנו מראש למערכות המידע. לצד התועלת הרבה של מערכות אלו, הכללים לפיהם הן עובדות אינם  ספציפיים לחולה מסוים, אלא לקבוצות חולים כפי שהוגדרו מראש. כמו כן, מערכות אלו אינן מערכות לומדות, ואינן מתאימות את עצמן באופן אוטומטי לשינויים בגוף הידע הקיים, או למאפייני האוכלוסייה המטופלת, ודורשות תחזוקה אינטנסיבית ומתמדת.
המהפכה המתהווה עם הכנסת נתוני עתק משנה את הסטטוס קוו. על בסיס מערכות למידת מכונה מבוססות נתוני עתק ניתן להתמודד עם כמויות אדירות של מידע, ולהסיק מסקנות מתוך הדאטה הקיים באופן בלתי תלוי, לעתים אפילו ללא ידע קליני או מחקר קודם; מערכות אלו מאפשרות "עידון" והתאמה של הכללים המקובלים לאוכלוסייה ספציפית או למצבים ספציפיים, הוספת כללים חדשים המבוססים על המידע הנחקר ומציאת חוקיות שונה ולעתים בלתי צפויה בין פריטי המידע מזו שהייתה ידועה עד כה.
במחקר שפורסם לאחרונה, בהתבסס על מאגר מידע בריטי שמכיל כ-380,000 מטופלים, ניסו החוקרים לנבא אירועים קרדיו-וסקולריים. הבסיס להשוואה היה ההנחיות הקליניות המקובלות של איגוד בריאות הלב האמריקאי הכוללות גורמי סיכון מסורתיים כגון גיל, כולסטרול, לחץ דם וסוכרת. החוקרים הרחיבו את המודל כך שיכלול גורמי סיכון נוספים מתוך התיקים הרפואיים, והפעילו מספר שיטות למידת מכונה (random forest, logistic regression, gradient boosting, neural networks) על מנת לנבא אירוע לבבי תוך עשור. כל המודלים חזו מעט יותר אירועים לבביים ביחס להנחיות הקליניות המקובלות, כאשר מודל הלמידה העמוקה (neural networks) חזה באופן המיטבי מבינהם- 7.6% יותר אירועים. מעניין לציין שהמודל החדש דירג מחלות נפש חמורות כגורם סיכון משמעותי על אף שאינן נכללות בהנחיות המקובלות של איגוד הלב האמריקאי. לעומת זאת, סוכרת לא היוותה גורם משמעותי במודל החדש, אף שבהנחיות היא נחשבת לגורם סיכון משמעותי [9]. עובדה זו עשויה להעלות תהיות בקרב קלינאים לגבי המודל, ומדגימה את הבעייתיות המכונה Black Box בהקשרים של שימוש בכלי נתוני עתק. על כן, נכון להיום, על מנת להסיק מסקנות ולחפש הקשרים בתוך המידע, נדרש צוות רב מקצועי, הכולל מומחי תוכן ומומחי אלגוריתמיקה ולמידת מכונה, בכדי לנטרל שימוש בלתי מדויק במערכות, והסקת מסקנות שגויה.
תחום נוסף בעולם הרפואה בו ניתוח נתוני עתק יתפוס מקום משמעותי כבר בשנים הקרובות הוא בפיענוח תמונה המבוסס על קשר עין – מוח, כגון רדיולוגיה ופתולוגיה. התועלות בתחומים אלו נובעות מיכולת הדיוק הגבוהה של מערכות מבוססות נתוני עתק, ומיכולתן לזהות ולהציף אלמנטים מסוימים בתמונה שעין אנושית אינה יכולה להבחין בהם. הדבר דומה מאוד לתחום הנהיגה האוטונומית, הסיבה שמערכות כגון Mobileye  ודומותיה מצליחות היא בזכות שתי יכולות שמשתלבות: היכולת "לראות" ולנתח באופן בלתי אמצעי את הסביבה והגורמים האפשריים לתאונה, בשילוב עם האפשרות לפעול על סמך ניתוח סטטיסטי בלתי מוטה, ולנטרל את החסרונות האנושיים של הנהג כגון עייפות או הסחות דעת בזמן הנהיגה. פוטנציאל השימושים הקליניים והמחקריים בתחום זה הינו גבוה בכל הנוגע לרמת הדיוק וייעול האבחון אך נכון להיום, אינו יכול לבטל את הצורך בגורם האנושי בכדי לקבל החלטות.
לאחרונה פורסמו תוצאות ניסוי של חטיבת המחקר של חברת Google בתחום הרטינופתיה-  פגיעה ברשתית העין אצל חולי סכרת, ומהגורמים המובילים בעולם לעיוורון, שניתנת למניעה באבחון מוקדם. האלגוריתם שפותח בגוגל לניתוח תמונות רשתית העין הצליח להגיע לאותה רמת דיוק באבחון כמו זו של הרופאים המומחים, והמשמעות היא שבעתיד ניתן יהיה להשתמש בו ככלי עזר בכדי להפחית עומס על הרופאים, לאתר ולטפל מוקדם וביעילות במחלה [10].
מחקר עדכני בתחום זה נוגע לזיהוי ואבחנה של נגעים עוריים באופן אוטומטי. סרטן העור הינו הסרטן הנפוץ ביותר, ואובחן עד היום באופן ויזואלי ובאמצעות ביופסיה. המחקר, שנערך באוניברסיטת Stanford, אימן בשיטות למידת מכונה את האלגוריתם שפותח בכדי להבחין באופן בינארי בין נגעים ממאירים לכאלו שאינם ממאירים (קרצינומה של תאי הקריטנין – הנפוצה ביותר מבין סוגי סרטן העור לעומת קרטוזיס סבוראי שפיר וכן מלנומה ממאירה – הקטלנית ביותר מבין סוגי סרטן העור לעומת נבוס שפיר). האימון כלל 129,450 תמונות ובהן 2,032 מחלות שונות ותוצאותיו נבחנו אל מול 21 רופאים מומחי עור. בשני סוגי האבחנות האלגוריתם הגיע לתוצאות זהו לאלו של רופאי העור. תוצאות אלו מדגימות שבעתיד, ניתן יהיה לאבחן מרחוק נגעים עוריים (אולי אף באמצעות טלפון סלולרי בלבד), להוריד עלויות האבחון, להביא לאבחון מהיר יותר ולהנגישו לאוכלוסיה רחבה יותר שאולי לא הייתה מגיעה אליו בדרכים אחרות [11].
אחת הדוגמאות הידועות ביותר לשימושי נתוני עתק ברפואה היא של IBM Watson. Watson ותוכנות אחרות, המשתמשות בשיטות למידה עמוקה, הוכיחו יכולת עיבוד וסיכום טובה של כמויות טקסט גדולות, בפרט לסקירת ספרות מדעית. Watson מסוגל לקרוא שפה טבעית במהירות אדירה (כ-25 מיליון מאמרים רפואיים בשבוע) מבלי להחסיר אף פרט, וכן לסרוק את כלל אתרי האינטרנט הרלוונטיים. כתוצאה מכך, נפתחות בפני הרופא המטפל אפשריות טיפול רחבות יותר בהתבסס על המידע הרב המצטבר כל העת ברחבי העולם.
במחקרים שנערכים כעת ב- Lineberger Comprehensive Cancer, נדרש ווטסון להציע חלופות טיפול במצב הדורש קבלת החלטה קלינית (ללא סטנדרטי טיפולי ברור). מתוצאות ראשוניות עולה, כי המערכת מציעה אופציות טיפוליות דומות לאלו שהומלצו על ידי ועדת המומחים של המרכז הרפואי, אך בכ-30% מהמקרים המערכת הציעה אופציות נוספות לטיפול שלא הועלו על ידי ועדת המומחים. בדרך כלל מדובר בטיפולים חדישים, שאושרו רק לאחרונה או שמצויים במסגרת מחקרים קליניים [12].

ביג דאטה במכבי – אלגוריתם לאבחון מוקדם של סרטן המעי הגס
החל מתחילת שנות ה-90, החלה מכבי שירותי בריאות לעבור תהליך מחשוב מקיף, כולל הקמת מאגרי מידע דיגיטליים. הייחודיות במאגר המידע של מכבי הוא בקיומו של בסיס נתונים מרכזי המכיל מיליוני רשומות אודות כ-25% מאוכלוסיית המדינה באופן מייצג, לאורך שנים רבות, ותוך איסוף של כל סוגי המידע (אבחנות, בדיקות מעבדה, מדדים, נתונים דמוגרפיים, הדמיות ועוד). שילוב של גורמים אלו מעמיד את ישראל ואת מכבי שירותי בריאות בחזית המחקר העולמית ומהווה כר פורה לשיתופי פעולה, למחקרים חדשניים ופריצות דרך מדעיות ומחקריות.
להדגמת הפוטנציאל העצום של מחקר ביג דאטה ברפואה, נביא בפניכם מחקר פורץ דרך שהתנהל במכון המחקר של מכבי, ואשר הביא לשינוי משמעותי ביכולת לזיהוי מוקדם של סרטן המעי הגס.

סיפור פיתוח ויישום הקולונסקור
בסוף שנת 2006, אובחן חולה בן 70 בסרטן המעי הגס. בדומה לחולים אחרים, גם חולה זה לא התייצב לבדיקות השגרתיות של דם סמוי בצואה, למרות הזמנות חוזרות ונשנות לעשותן.  בדומה לכ-60% מהחולים, גם חולה זה אובחן בשלב מתקדם של המחלה אחרי שסבל מכאבי בטן ונפיחות. בזמן האבחנה היתה מחלתו מפושטת עם גרורות לריאות ולעצמות, והוא נפטר תוך שנתיים מאבחנתו. לאחר האבחנה בדקה רופאת המשפחה שלו את כל ממצאי התיק הרפואי כדי לוודא ששום סימן או סמן מעבדתי לא הוחמץ. בשנים טרם אבחנתו נעשו לחולה 5 ספירות דם וכולן היו בתחום הנורמה, ועל כן לא הביאו לחשד  כלשהוא. אולם בהסתכלות יותר מדוקדקת הסתבר שספירות הדם השגרתיות של המטופל  הדגימו ירידה קטנה ומתמשכת ברמות ההמוגלובין לאורך 3 שנים טרם האבחנה, למרות שנותרו במסגרת הטווח הנורמלי (ללא אנמיה) ולא עוררו חשד.
כתוצאה מהתצפית הקלינית של חולה אחד, הותנע במכון המחקר של מכבי מחקר אפידמיולוגי רטרוספקטיבי, שנועד לבדוק אפשרות לאיתור מוקדם של חולי סרטן המעי הגס, באמצעות תוצאות ספירות הדם השגרתיות ובפרט רמות ההמוגלובין.   במסגרת המחקר נבדקו תוצאות בדיקות המעבדה של מטופלים שאובחנו בגילאי 45-75 בין השנים 2004-2009, ואכן נמצא כי כ-3 שנים טרם האבחנה בסרטן המעי הגס, החלו רמות ההמוגלובין לרדת בתוך טווח הנורמה (גרף א') [13].
בשלב זה התפתח הרעיון להשתמש בשיטות של למידת מכונה, שתודגמנה בהמשך, ולפתח מודל פרוספקטיבי לאיתור והתרעה מבעוד מועד. לצורך כך נוצר שיתוף הפעולה עם חברת מדיאל – Medial CS, אשר פיתחה אלגוריתם ("קולון סקור" Colon Score) הבוחן את כלל המדדים המצויים בספירות הדם, בשילוב גיל ומין. אימון המודל ותיקופו נערך בישראל על בסיס המידע של מכבי שירותי בריאות (180,000 איש), ובהמשך בוצע  גם תיקוף חיצוני על בסיס מאגר מידע בריטי (אוכלוסייה של כ-35,000 איש).
אופן פיתוח ה"קולון סקור" מדגים היטב את האפקטיביות שבשימוש בנתוני עתק ולמידת מכונה: בעוד שהמחקר הראשון התקיים בשיטות המקובלות, תוך התבססות על תצפית בודדת והיפותזה הנוגעת לירידה בהמוגלובין לאורך זמן, האלגוריתם שפותח לקח בחשבון פרמטרים רבים נוספים, ומצא הקשרים שלא נצפו מראש. במהלך הפיתוח נמצא כי האלגוריתם תומך גם בזיהוי על פי ספירת דם בודדת ברמה סבירה, אם כי פחותה מאשר במספר ספירות עוקבות (ראה טבלה ב').
לאור תוצאות המחקר החיוביות, הוטמע האלגוריתם בתחילת שנת 2016 במכבי שירותי בריאות. הוא נחשף  לנתוני ספירות הדם של מבוטחי הקופה בגילאים 50-75 שלא עברו בדיקות סקר, ומתריע בפני הרופא כאשר מתקבל ציון קולון סקור גבוה (0.5% העליונים עפ"י האלגוריתם) כלומר סיכון מוגבר לממצא ממאיר. במהלך החודשים הראשונים לאחר הטמעת הקולון סקור, אותרו כ-50 חולים רלוונטיים בחודש וההפניות לבדיקות קולונוסקופיה עלו ב-1% [14].
התוצאות מראות כי ברמת סגוליות של 99.6%, האלגוריתם מביא לתוצאות טובות יותר מאלו של בדיקות דם סמוי בצואה (ראה גרף ג'): בסינון שנעשה באמצעות קולון סקור התגלו ממצאים ממאירים ב- 11% מבדיקות הקולונוסקופיה, לעומת 5% בלבד מסינון באמצעות בדיקת דם סמוי בצואה. נכון לחודש יוני 2017, אותרו באמצעות ה"קולון סקור" 104 חולים עם ממצאים (פוליפים) ו-25 חולים עם ממאירות. כאמור, מדובר בחולים שאותרו למרות שלא ביצעו בדיקות סקר.
מכבי שירותי בריאות וחברת מדיאל רשמו פטנט על המודל החדשני, אשר ממשיך לעורר עניין ברחבי העולם.
לראשונה בישראל, המכון מפתח פלטפורמה טכנולוגית חדשנית אשר תנגיש את המידע הקיים במסד הנתונים של מכבי שירותי בריאות עבור חוקרים מכל מקום- באמצעות האינטרנט. המידע שיונגש באמצעות הפלטפורמה יעבור תהליכי אנונימיזציה ו"ערבול נתונים" – מה שיביא למאגר נתונים סינטטי אך מייצג סטטיסטית המאפשר שמירה על חסיון הפרט.

סיכום
עולם הרפואה הקלינית והמחקרית דרש מאז מעולם התמודדות עם כמויות עצומות של מידע מסוגים שונים. ככל שמצבם הרפואי של החולים נעשה מורכב יותר, כמויות המידע גדלות והטכנולוגיה מתקדמת, עולמות נתוני העתק ולמידת המכונה הופכים לרלוונטיים ואף הכרחיים לרופאים קליניים ולחוקרים, לטובת שיפור הרפואה [5]. השינוי לא יהיה מהיר וחד כפי שקרה בתעשיות אחרות. נוכחות הרופא, שיקול דעתו ויכולותיו המקצועיות יישארו החלק המרכזי והמהותי בטיפול בחולה ואף יתעצמו ויתחדדו עם התפתחות מגמות אלו. עבור המטופלים והמחקר הרפואי, מדובר בבשורה של ממש שתשפר את הגישה והאיכות לשירותים הרפואיים.  

גרפים וטבלאות:
גרף א': רמות המוגלובין ממוצעות במשך 10 שנים לפני אבחנת סרטן מעי-גס, בהשוואה בין חולים ובריאים.

table3

טבלה ב': יחס הסיכויים לאפשרות ממצאים מסוכנים במעי הגס באמצעות ספירת דם בודדת לעומת מספר ספירות דם.

table4

גרף ג': תוצאות בדיקות קולונוסקופיה שהתקיימו על סמך בדיקת דם סמוי בצורה לעומת על סמך קולון סקור במחקר פרוספקטיבי.

table5

 

מקורות

פרופ' ישע סיוון, רז הייפרמן, הנתונים- הנפט של העידן הדיגיטלי- על חשיבות הנתונים באסטרטגיה הדיגיטלית של ארגונים. אנשים ומחשבים. 2016

Peter Sondergaard, Big Data Fades to the Algorithm Economy. Forbes 2015.

Phil Simon. Too Big to Ignore: The Business Case for Big data. Wiley. 2013.

תומר זיו, דניאל כהן, גליה רהב, משנה לשנו, כיצד לשפר את התוצא של מחקרי עוקבה. הרפואה, 2011.

Ziad Obemeyer, Ezekiel J. Emanuel. Predicting the Future – Big Data, Machine Learning and Clinical Medicine. New England Journal of Medicine. 2016.

Krizhevsky, Alex, Sutskever, Ilya, Hinton, Geoffry. "ImageNet Classificatiion with Deep Convolutional Neural Networks" NIPS 2012: Neural Information Processing Sustems, Lake Tahoe, Nevada

Don Callahan, James Kaplan, Asheet. Rewiring CITI for the Digital Age. McKinsey Quarterly, December 2016.
Patients like me.com

Stephan F. Weng, Jenna Reps, Joe Kai &Al. Can Machine learning improve cardiovascular risk prediction using routine clinical data?. Plos one, 2017

Varun Gulshan, Lily Peng, Marc Corman, & Al. Development and Validation of a Deep Learning Alrorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs. The JAMA netwotk. 2016.

Andrea Esteva, Brett Kuprel, Roberto A. Novoa &Al Dermatologist – level Classification of skin cancer with deep neural networks. Nature. 2017

Ned Sharpless. Artificial Intelligence Making a Difference in cancer care. CBS 60 minutes. 2016

13. Goldshtein I, Neeman U, Chodick G, Shalev V. Variations in hemoglobin before colorectal cancer diagnosis. Eur J  Cancer Prev. 2010;19(5):342-4.

14. Varda Shalev, Inbal Goldshtein, Gideon Koren. Enhancing earlier diagnosis for colorectal cancer by algorithmic analysis of trends in complete blood counts