סטטיסטיקה הפכה למרכיב של החברה המודרנית. אנחנו קוראים אותם בכתבות חדשותיות והם משמשים לקביעת מדיניות שתשפיע על כל היבט בחיינו. למרבה הצער, אנשים רבים מפרשים אותם בצורה לא נכונה בדרכים בסיסיות.
הכשל בשיעור הבסיס שמוצא יותר מדי מחבלים
הנה איך עובדת הכשל בשיעור הבסיס: נניח שיש לך חברה עם 25% עובדות ו-75% עובדים. מבחוץ, נראה כי מדובר בבחירה מוטה של מועמדים גברים. אנו מניחים זאת מכיוון שבארצות הברית, ההתפלגות המגדרית היאשווה בערך. עם זאת, הדבר מתעלם ממאגר הפונים. אם רק 10% מהמועמדים היו נשים, אזי נבחר אחוז גבוה יותר של נשים שהגישו מועמדות לעומת אחוז הגברים שהגישו מועמדות.
אַחֵרדוגמה נפוצהכרוך במכשיר המיתולוגי לאיתור טרוריסטים. תארו לעצמכם קופסה בעלת אחוזי הצלחה של 99% בזיהוי חיובי של מחבל וסיכוי של 99% בזיהוי נכון של מי שאינו מחבל. אפשר להניח שאם - מתוך אוכלוסיה של מיליון איש, מתוכם 100 טרוריסטים - התיבה מזהה אדם כמחבל, יש סיכוי של 99% שזה נכון. במציאות, זה הרבה יותר קרוב ל-1%. הסיבה היא שהקופסה צלצלה באופן שקרי ל-1% מהלא-מחבלים (9,999 אנשים), וכן צלצל נכון ל-99% מהמחבלים האמיתיים (99 אנשים).
אקסטרפולציה שמובילה לפוליגמיה
אקסטרפולציה היא המועדפת על כל מי שצופה מגמות כלכליות או חוזה את העתיד. "הדבר הזה קרה על פני פרק זמן מוגדר, אז הוא ימשיך לקרות". אלא שאולי זה לא נכון. בעת ניתוח מגמות עבר, עלינו לזכור כי הגורמים שיצרו את המגמות הללו כפופים לשינויים.
קחו, למשל, את חיזוי נתח השוק של הסמארטפונים. עוד ב-2009, גרטנר חזה שעד 2012, סימביאן תהיה מערכת ההפעלה המובילה לסמארטפונים בעולם, עם 39% מהשוק, בעוד לאנדרואיד יהיו רק 14.5%. כמו כן, Windows Mobile תנצח את בלקברי, ממש מאחורי האייפון. מיותר לציין את זהזה אפילו לא היה המקרה.
אז למה גרטנר הייתה כל כך רחוקה? מכיוון שהאקסטרפולציה לא לוקחת בחשבון את הנסיבות המשתנות. מיקרוסופט הרגה את Windows Mobile לטובת Windows Phone, פלטפורמה שנוקיה אימצה במקום סימביאן. בצעד אחד גדול, כל התחזית הוצגה לא רק שגויה, אלא בלתי אפשרית לחלוטין. דברים תמיד משתנים, וזו הסיבה שכמעט כל התחזיות המבוססות על מגמות סטטיסטיות יש לעקוב באופן סביר עם הביטוי "...בהנחה ששום דבר לא משתנה".
מתאם שלא תמיד מרמז על סיבתיות (אבל אולי)
הימנעות מהכשל "מתאם אינו מרמז על סיבתיות" היא מועדפת ישנה. כל כך ישן, למעשה, שהוא מגיע עם פתגם לטיני משלו:עם זה, לפיכך, אני מציע זאת.עם זאת, הקונטרה לכך שלעתים קרובות מתעלמים ממנה היא המתאם הזהמעלה שאלותעל קשר סיבתי. או, אם לצטטxkcd(שוב): "מתאם אינו מרמז על סיבתיות, אבל הוא כן מכשכש בגבותיו במרמז ומחווה בגנבה תוך כדי "תסתכל לשם".
שקול דוגמה אחת מאוד שנויה במחלוקת מאוניברסיטת מיזורי למדע וטכנולוגיה שמצאה סוגים מסוימים של שימוש באינטרנט בקורלציה לדיכאון. נמצא שמשתמשים הסובלים מדיכאון בודקים אימייל בתדירות גבוהה יותר, צופים בעוד סרטונים או מתמכרים ליותר שיתוף קבצים.
ההנחה הראשונית של רבים מהקוראים הייתה שהמחקר טען ששימוש באינטרנט הוביל לדיכאון. המנטרה ש"מתאם אינו מרמז על סיבתיות!" אפשר לטעון שהמחקר אינו נכון, אבל הוא גם זורק את התינוק עם מי האמבטיה. כאשר אין הסבר ישיר מדוע דבר אחד מתאם לאחר, מחקר נוסף - לא פיטורים על הסף - מתבקש.
הפרדוקס של סימפסון שגם מעלה וגם מפחית את השכר
הפרדוקס של סימפסון הוא כזה שמכופף את המוח, אבל זו בעצם רק מתמטיקה מורכבת. הגרסה הקצרה היא שלפעמים כאשר בוחנים נתונים בתתי קבוצות, ניתן לראות מגמה אחת, אך לראות מגמה הפוכה לחלוטין כאשר רואים את אותם נתונים במצטבר. לדוגמה, השכר החציוני, מותאם לאינפלציה, עלה בארצות הברית מאז שנת 2000. עם זאת, השכר החציוני למעשהנפל על כל תת קבוצת עובדים.
ההשלכות של הפרדוקס הזה הן שמדי פעם, אם אתה מסתכל על נתונים בצורה משולבת, אתה עלול להוביל למסקנה סותרת מאשר אם תסתכל עליהם בחלקים. דוגמה מפורסמת אחת, מבוססת עלמחקר אמיתי, מצאו שטיפול באבנים בכליות א' הצליח יותר בטיפול באבני כליה גדולות וקטנות גם יחד כשהוא צופה בנפרד, אבל טיפול ב' הצליח יותר כששתי הקבוצות שולבו.
למרבה הצער, זה גורם להחלטות המבוססות על נתונים הכפופים לפרדוקס סימפסון להיות מורכבות יותר. מצד אחד, אם אתה יודע את גודלה של אבן כליה, ברור שטיפול א' עדיף. עם זאת, כאשר אתה מתחיל לחלק נתונים כדי להניב תוצאות שונות, אתה יכול לחתוך את הנתונים כדי להציג כל מה שתרצה.
דרך הפעולה הטובה ביותר עם הפרדוקס של סימפסון (ולמעשה, עם כל נתונים סטטיסטיים), היא להשתמש במידע כדיעיין בחזרה לסיפור הנתונים. הסטטיסטיקה מבוססת במידה רבה על מתמטיקה, אך היא משמשת לניתוח תרחישים ומצבים בעולם האמיתי. בהפרדה מהמציאות, לסטטיסטיקה יש ערך מוגבל. הסתמכות על מספרים כייצוג חסר פניות של המציאות מנחמת, אך מבלי לקשור אותה לאנשים ולמצבים מהחיים האמיתיים, המידע גובל בחסר ערך.