שימוש לרעה בסטטיסטיקה הואאחת הדרכים החזקות ביותר לשקר. בדרך כלל, אנו מלמדים אותך כיצד לעשות זאתהימנע מפירוש שגוי של סטטיסטיקות, אבל לדעת איך מספרים עוברים מניפולציה יכולה לעזור לך לזהות מתי זה קורה. לשם כך, אנחנו הולכים להראות לך איך לגרום לנתונים לומר מה לעזאזל אתה רוצה לגבות כל רעיון שגוי שיש לך.
הפוסט הזה הוא חלק מהפוסט שלנושבוע הרשעסדרה ב-Lifehacker, שבה אנו מסתכלים על הצד האפל של ביצוע דברים. לפעמים הרוע מוצדק, ופעמים אחרות, לדעת את הרוע פירושו לדעת איך לנצח אותו. רוצה עוד? בדוק את דף תג השבוע המרושע שלנו.
אסוף נתונים לדוגמה שמוסיפים הטיה לממצאים שלך
הצעד הראשון לבניית סטטיסטיקה הוא לקבוע מה אתה רוצה לנתח. סטטיסטיקאים מתייחסים לזה כ"אוּכְלוֹסִיָה". לאחר מכן אתה מגדיר תת-קבוצה של הנתונים האלה כדי לאסוף, שכאשר הם מנותחים, הם צריכים להיות מייצגים את האוכלוסייה כולה. ככל שהמדגם גדול ומדויק יותר,כך המסקנות שלך יכולות להיות מדויקות יותר.
כמובן, יש כמה דרכים גדולות לדפוק סוג זה של דגימה סטטיסטית, בטעות או בכוונה. אם נתוני המדגם שאתה אוסף הם גרועים, בסופו של דבר תקבל מסקנות שגויות ויהי מה. יש הרבה דרכים שבהן אתה יכול לבלבל את הנתונים שלך, אבל הנה כמה מהגדולים שבהם:
הטיית בחירה עצמית:סוג זה של הטיה מתרחש כאשר האנשים או הנתונים שאתה לומד מכניסים את עצמם מרצונם לקבוצה שאינה מייצגת את כל האוכלוסייה שלך. לדוגמה, כאשר אנו שואלים את הקוראים שלנו שאלות כמו "מהי אפליקציית ההודעות המועדפת עליך?"אנחנו מקבלים רק תגובות מאנשים שבוחרים לקרוא את Lifehacker. התוצאות של סקר לא רשמי כמו זה כנראה לא יהיו מייצגות את האוכלוסייה בכללותה, כי כל הקוראים שלנו חכמים יותר, מצחיקים ומושכים יותר מהאדם הממוצע.
דגימת נוחות:הטיה זו מתרחשת כאשר מחקר מנתח כל מידע שיש לו, במקום לנסות למצוא נתונים מייצגים. לדוגמה, רשת חדשות בכבלים עשויה לסקור את צופיה לגבי מועמד פוליטי. בלי לסקור אנשים שצופים ברשתות אחרות (או לא צופים בטלוויזיה בכלל), אי אפשר לומר שתוצאות הסקר ייצגו את המציאות.
הטיית אי תגובה:זה קורה כאשר חלק מהאנשים בקבוצה שנבחרה אינם מגיבים לסקר סטטיסטי, מה שגורם לשינויים בתשובות. לדוגמה, אם בסקר על פעילות מינית נשאל "האם אי פעם בגדת בבן הזוג שלך?" ייתכן שחלק מהאנשים לא ירצו להודות בבגידה, מה שגורם לזה להיראות כאילו בגידה היא נדירה יותר ממה שהיא.
סקרים בגישה פתוחה:סקרים מסוג זה מאפשרים לכל אחד לשלוח תשובות, ובמקרים רבים, אפילו לא מאמתים שאנשים שולחים תשובה פעם אחת בלבד. למרות שהם נפוצים, הם מוטים ביסודו מכיוון שהם לא מנסים לשלוט בקלט בשום דרך משמעותית. לדוגמה, סקרים מקוונים שפשוט מבקשים ממך ללחוץ על האפשרות המועדפת עליך נופלים תחת הטיה זו. למרות שהם יכולים להיות מהנים ושימושיים, הם לא טובים בלהוכיח נקודה אובייקטיבית.
אלו הם רק חלק מההרבה מאוד דרכים שבהן מדגם יכול להיות מוטה. אם אתה רוצה ליצור רושם מטעה, בחר את הרעל שלך. לדוגמה, ניתן להשתמש בסקרים בגישה פתוחה באתרי אינטרנט כדי "להוכיח" זאתכל המועמד שאתה הכי אוהב זכה בוויכוחאו זהUndertale הוא המשחק הטוב בכל הזמנים. היופי בהטיות דגימה הוא שמישהו, איפשהו לוקח סקר לא מדעי שיגיד כל מה שתרצו. אז פשוט חפש בגוגל עד שתמצא סקר לא מדעי שאתה אוהב, או לעזאזל - צור משלך.
בחר את הניתוח התומך ברעיונות שלך
הרביעייה של אנסקום מציגה ארבעה תרשימים שונים שיש להם כמעט אותם סיכומים סטטיסטיים בדיוק.
מכיוון שסטטיסטיקה משתמשת במספרים, קל להניח שהם הוכחה קשה לרעיונות שהם מתיימרים לתמוך בהם. במציאות, המתמטיקה שמאחורי הסטטיסטיקה מורכבת, וניתוח שלה בצורה לא נכונה יכול להניב מסקנות שונות או אפילו סותרות לחלוטין. אם רצית לסובב נתונים סטטיסטיים כדי שיתאים לצרכים שלך, עזוב את המתמטיקה.
כדי להדגים את הפגמים בניתוח נתונים, סטטיסטיקאיפרנסיס אנסקוםנוצרהרביעייה של אנסקום(תרשים למעלה). הוא מורכב מארבעה גרפים שבצפייה בתרשים מציגים מגמות שונות בתכלית. תרשים X1 מציג עלילת פיזור בסיסית עם מגמת עלייה. X2 מציג מגמה מעוקלת שעלתה, אך כעת היא יורדת. X3 מציג מגמה קטנה יותר כלפי מעלה, אך עם חריג אחד על ציר ה-Y. X4 מציג נתונים שטוחים לחלוטין על ציר X, מלבד חריג אחד שהוא סופר גבוה בשני הצירים.
כאן זה נעשה מטורף. עבור כל ארבעת התרשימים הללו, ההצהרות הבאות נכונות:
ערך x הממוצע הוא 9 עבור כל מערך נתונים
ערך ה-y הממוצע הוא 7.50 עבור כל מערך נתונים
השונות עבור x היא 11 והשונות עבור y היא 4.12
המתאם בין x ו-y הוא 0.816 עבור כל מערך נתונים
אם ראית את הנתונים האלה רק בצורת טקסט, אתה עשוי לחשוב שכל ארבעת המצבים היו זהים. לדוגמה, נניח שהיה לך תרשים כמו X1 שהראה את משכורות הגברים בחברה שלך לאורך השנים, ואחד כמו X2 שמציג משכורות לנשים באותה תקופה באותה חברה. אם תראה רק את הטקסט, תראה שהם עשו את אותה משכורת ממוצעת! עם זאת, אם תציג את התרשימים, אנשים יראו ששכר הנשים נמצא במגמת ירידה מסיבה כלשהי.
Anscombe הציע שכדי להימנע מהטעיית אנשים, עליך תמיד לדמיין את הנתונים שלך לפני הסקת מסקנות ולהיות מודע לאופן שבו חריגים משפיעים על הניתוח. קשה לפספס חריג בתרשים מתואר כהלכה, אבל הם יכולים להיות בעלי השפעה מסיבית אך בלתי נראית על טקסט. כמובן, אם המטרה שלך היא להטעות אנשים, אתה יכול פשוט לדלג על שלב זה.
צור תרשימים שרק מדגישים את המסקנה המוקדמת שלך
לרוב האנשים אין זמן לעשות ניתוח סטטיסטי משלהם, אז הם סומכים עליך שתראה להם תרשימים המסכמים את המסקנות שלך. אם אתה יוצר את התרשימים שלך כראוי, הם צריכים להציע רעיונות התואמים את המציאות. אם אתה רוצה לדפוק אותם, אתה יכול להדגיש את הנתונים שאתה הכי אוהב.
אחד התרשימים המפורסמים והלא מדויקים ביותר בזיכרון האחרון הגיע מחבר קונגרס בפגישה בנושא הורות מתוכננת.במהלך הפגישה הזו, נציג ג'ייסון חפץ (R-Utah) ניסה לטעון ששירותי ההפלות של PP עלו מאז 2006, בעוד ששירותי הסרטן שלה ירדו באותה תקופה. זה הטבלה שבה השתמש כדי להדגים זאת:
זה אחד הגרפים הגרועים שראיתי אי פעם. וזה הוצג לוועדת הפיקוח של הבית.
במבט ראשון, זה נראה כאילו ההפלות זינקו בעוד שירותי הסרטן ירדו באופן דרמטי. אנו יכולים להודות למספר פגמים בתרשים זה על המסקנה הזו:
אין תווית על ציר ה-Y.בעוד שציר ה-X התחתון מסומן במשך שנים, לציר ה-Y אין תווית כלל. האם זה מספר הליכים? כמות הכסף שהוצאה על הליכים? מי יודע! אתה לא חייב.
סולמות ציר Y כולם שגויים.בנוסף לתווית השגויה, קנה המידה של ציר Y שגוי. נקודת הנתונים הסופית של הקו האדום היא 327,000 שהוא גבוה באופן בלתי מוסבר בתרשים מנקודת הנתונים הסופית של הקו הוורוד 935,573. מבחינה טכנית כל קו הולך בכיוון הנכון, אבל קנה המידה הוא כל מיני שגוי.
זה חסר הקשר.נקודות הנתונים האלה (כגון שהן) רק מעידות על מה שקורה, לא למה זה קורה. לדוגמה, בשנת 2009כוח המשימה של שירותי מניעה בארה"בעדכן את שלההמלצה לעבור בדיקות ממוגרפיה כל שנתיים, במקום הצעתו הקודמת של כל שנה. זה יכול להסביר את הירידה בהקרנות סרטן.
רוב התרשימים אינם שגויים בעליל, אבל זו דוגמה מצוינת כיצד להטעות פשוט על ידי השארת כמה מרכיבים מרכזיים בתרשים. אתר החדשות Quartzהראה איך תרשים זה היה נראה אם הוא היה מיוצג כראוי(שים לב שנתוני 2008 אינם מסופקים ולכן חסרים בתרשים):
זה הרבה יותר מדויק. אם אתה בעניין כזה.
בקנה מידה זה, העלייה בהליכי הפלות היא שטוחה יחסית, בעוד שבדיקות הסרטן ירדו. עם זאת, מכיוון שמוצגות נקודות נתונים בודדות, אנו יכולים לראות שהירידה החלה ממש בסביבות 2009, בדיוק כפי שחזינו. כך אתה מציג מידע מדויק בהקשרו הנכון! אז אם אתה רוצה להטעות אנשים, כל מה שצריך זה קצת התעסקות בתרשים. עזוב את התוויות שלך, תעשה מניפולציות על הציר וגם אתה יכול להערים על אנשים לחשוב שיש לך נקודה טובה יותר ממך.
לטשטש את המקורות שלך בכל מחיר
ככל שקל יותר לראות את המקורות שלך, כך אנשים אחרים יכולים לאמת או להפריך את המסקנות שלך. אם ניתן לאמת את המסקנות שלך, אז בכל אופן תן לאנשים לראות את הנתונים שלך ואיך הגעת לשם. עם זאת, אם המטרה שלך היא להטעות אנשים, לעולם אל תיתן לאף אחד לגלות איך הגעת למסקנות שהגעת.
למקור נכון, כל אדם שמזכיר אי פעם נתון יכלול הפניה למקור. אתרי חדשות צריכיםקישור למחקרים או למחקר שהם מצטטים(לא מאמרים על הלימודים). חוקרים אולי לא מציגים את כל מערך הנתונים שלהם, אבל המקור של המחקר צריך לענות על כמה שאלות בסיסיות:
כיצד נאספו הנתונים?התקשרת לאנשים בטלפון? לעצור אותם מחוץ לקניון? זה היה סקר בטוויטר? השיטה שבה אתה משתמש כדי לאסוף את הנתונים שלך עשויה להצביע על הטיית דגימה (או להפריך).
מתי נאספו הנתונים?מתי אספת את הנתונים וכמה זמן לקח לאסוף? דוחות יכולים להתעלם מהר ומגמות יכולות להשתנות לאורך זמן. הכללת מסגרת הזמן שממנה מגיעים הנתונים יכולה לומר הרבה על המסקנות שאתה מסיק.
מי אסף את הנתונים?האדם או הקבוצה שאוספים נתונים עשויים לספק רמזים לגבי מידת מהימנות הנתונים. מחקר של חברת טבק הטוען שסיגריות בטוחות עשוי להיות לא נכון אלא אם מישהו אחר יכול לאמת זאת.
את מי שאלו?במיוחד בתחום הסקרים והסקרים, חשוב לדעת מי נחקר. אם פוליטיקאי יסקר רק אנשים שכבר ידידותיים לו, הם לא יקבלו נתונים שמייצגים את האוכלוסייה כולה.
המקור משמש לא רק כדי למנוע הטיה, אלא כדי לתת לאחרים את ההזדמנות לאמת את הטענות שלך. זה פותח את הנתונים שלך, את השיטות שלך ואת המסקנות שלך לביקורת. זה מאפשר לאחרים לנסות לנעוץ חורים ברעיונות שלך. אם המסקנות שלך לא יכולות לעמוד בביקורת, אז הן מתפרקות. הסטטיסטיקה המדויקת ביותר היא זו שאחרים יכולים לראות ולאשש במחקר שלהם. עם זאת, אם המטרה שלך היא להטעות את עצמך או מישהו אחר, אל תטרחו לשתף את המקורות. למעשה, ההגנה הטובה ביותר שלך היא פשוט לומר "חפש את זה!" וללכת משם. אף אחד לא יכול להפריך את זה.
איור מאת אנג'ליקה אלזונה. תמונות מאתויקימדיה קומונס,האמריקאים מאוחדים לכל החיים, וקְוָרץ.