זרקור קריירה: מה אני עושה כמדען נתונים


שבו בכל בית קפה בעמק הסיליקון לזמן מה, וללא ספק תשמע מישהו מדבר על ניתוח נתונים. מה זה ומי מקלקל את המספרים האלה? תפקידו של מדען נתונים הוא למצוא דפוסים בכמויות גדולות של נתונים ולחבר אותם להחלטות בעולם האמיתי.

חיפוש אחר מגמות בנתונים גדולים הוא רעיון פשוט מספיק אבל בהחלט קשה לביצוע. כדי ללמוד עוד על מה שעושה מדען נתונים, דיברנו עםדן מלינגר, שעובד עםתרגול מדעי הנתונים של Think Bigומשתמש ברקע האקדמי שלו כדי לסייע בהתייעצות עם החלטות עסקיות והנדסיות.

ספר לנו קצת על עצמך ועל הניסיון שלך.

אני מדען נתונים עם תארים במדעי המתמטיקה ופסיכולוגיה ארגונית; יש לי גם הכשרה אקדמית משמעותית במדעי המחשב ובסוציולוגיה. ביליתי את הקריירה שלי בתפקידי סטטיסטיקה, אנליטיקה וטכנולוגיה, אבל כמעט לגמרי תחת קבוצות עסקיות, מה שמסגרת חלק גדול מההשקפה המקצועית שלי. היום אני מנהל מדעי הנתונים עבורתחשוב בגדולועובדים בחברה כבר ארבע שנים.

מה הניע אותך לבחור במסלול הקריירה שלך?

הייתה לי סקרנות לגבי ארגון אנושי ואהבה לקבלת החלטות כמותית במשך רוב חיי. במכללה, הייתי הסטודנט שרצה להגיש מועמדותאקסלרודושל המילטוןלעבוד לסוציולוגיה ופסיכולוגיה חברתית לקורסי תורת המשחקים. נראה שהעבודה לעזור לעסקים להפוך מונעי נתונים היא הרחבה מקצועית של זהות זו.

איך הגעת לעבודה שלך? איזה סוג של השכלה וניסיון היית צריך?

מבחינה מקצועית, עברתי תפקידים שונים בביצוע סטטיסטיקה, מחקר וטכנולוגיה בתחילת הקריירה שלי. אכן עבדתי בדומה למה שאני עושה עכשיו, כלומר ניתוח נתונים מהעולם האמיתי עם טכנולוגיות קוד פתוח, אבל לפני שהמונח "מדען נתונים" היה קיים. משם, נכנסתי ל-Big Data בשנת 2010. אבל לקח לי שנה בערך להעריך באמת מהHadoopוכלים דומים יכולים לעשות עבור מדעי הנתונים. לאחר מכן הצטלבתי דרכיים עם ריק פרנל, נשיא Think Big, שעורר בי התרגשות רבה לבנות צוות מדעי נתונים בשירותים מקצועיים בגלל ההשפעה שמדע הנתונים יוצר בארגון. בעוד שהסטטיסטיקה והניסיון שלי בטכנולוגיה היו קריטיים, אני חושב שההשכלה שלי במדעי החברה והניסיון בעבודה עם צוותים עסקיים היו קריטיים ביותר לתפקידי. הם מאפשרים לי לחשוב דרך אתגרים, לשקול את הסוכנות שמאחורי המתמטיקה, ולעשות זאת מתוך עין לקראת תפעול בארגון.

איזה סוג של דברים אתה עושה מעבר למה שאנשים רגילים רואים? במה אתה בעצם מבלה את רוב זמנך?

רוב האנשים שמעו על "ריב נתונים" ועכשיו יודעים שזה חלק משמעותי בביצוע מדע הנתונים. עם זאת, אנשים רבים אינם מודעים עד כמה מדע הנתונים חוצה תפקודיים וכמה זמן מושקע ביישור צוותי עסקים, אנליטיקה וטכנולוגיה. במיוחד בארגון, שבו לצוותים יש מספר אג'נדות מתחרות, לגרום לקבוצות הללו לדבר באותה שפה ולהתאים סדרי עדיפויות היא חלק משמעותי מהעבודה.

אילו תפיסות שגויות יש לאנשים לעתים קרובות לגבי העבודה שלך?

התפיסה המוטעית הגדולה ביותר במדעי הנתונים היא שהכל עוסק ב"אלגוריתמים". אני נתקל כל הזמן באנשים ובמדעני נתונים שחושבים שהעבודה שלנו עוסקת בהכרעה בין ארשת עצביתוכן אתמיכה במכונה וקטורית. למען האמת, מדעי הנתונים מתחילים בתרגום מקרה עסקי לאג'נדה אנליטית. הרבה יותר זמן מושקע בפיתוח השערות, הבנת נתונים, חקר דפוסים ומדידת השפעה מאשר בבחירת אלגוריתמים.

מהן שעות העבודה הממוצעות שלך?

מדעני נתונים הם מקצוענים וצריכים לצפות לשבוע עבודה מקצועי. כיום, נראה שזה 60 שעות שבועיות.

אילו טיפים וקיצורי דרך אישיים הפכו את העבודה שלך לקלה יותר?

שני טיפים הופכים את החיים במדעי הנתונים לקלים יותר עבור הצוותים שלנו: ראשית, ניהול בלוג פנימי שבו תוצאות יומיות (אפילו עם ויזואליות) מתועדות במהירות. לא מדובר בכתבות רשמיות, אלא בתיעוד סתמי של תובנות לאורך זמן התומכות בהבנה משותפת של תובנות ונתונים על פני מדעי הנתונים, מנהלי פרויקטים וכו'. זה גם תומך במדענים אחרים שמסתכלים על אותם נתונים בחודשים מאוחרים יותר.

טיפ שני הוא להכין "רונבוק" לאחר ביצוע כל דוגמנות. זהו תיעוד של המודלים המופעלים, מדוע הם פותחו וכיצד לחזור על כל ניתוח שנעשה. זה מבטיח שהעבודה שלנו ניתנת לשחזור, אפילו לבד. קל לשכוח ניתוח מלפני שלושה חודשים כשאתה עסוק.

מה אתה עושה שונה מעמיתיך לעבודה או מבני גילך באותו מקצוע? מה הם עושים במקום?

אני מבלה פחות זמן במרדף אחר טכנולוגיות חדשות מאשר רבים מעמיתיי. במקום זאת, אני מתמקד בסט ליבה שאני מכיר. היום, כלים כמוכוורתעל Hadoop,ר, ופִּיתוֹןלהביא אותי רחוק מאוד. צפיתי בצוותים מאבדים אינספור מחזורים בניסיון לעשות משהו בדרך ה"חדשה" - מבזבזים יותר זמן בניסיון לגרום לטכנולוגיה חדשה לעבוד במקום לחדש בגישה. זה איזון עדין, אבל אני מנסה לחכות עד שאראה יישום נבון של כלים חדשים מבלי לחכות עד שארגיש את הכאב של הכלים הקיימים שלי נופל.

מה החלק הכי גרוע בעבודה ואיך מתמודדים איתו?

בתור מדען נתונים, הדבר הכי מתסכל הוא לבנות מודלים או לעשות עבודה שלא הופכת לחלק מהתהליכים השוטפים של הארגון. בעוד שכמות מסוימת של מדע נתונים היא מו"פ, אנו רוצים שהעבודה שלנו תהיה משמעותית ותשמש את הארגון. הדוגמה הקנונית היאפרס נטפליקס, שמעולם לא יושם מכיוון שהוא נחשב ליקר מדי (אם כי בהחלט יש לו חשיבות בתוך המקצוע). כדי להתמודד עם זה, יש לנו צ'ק ליסטים שאנו מכסים לפני תחילת פרויקט. אלה מבטיחים שאנו מבינים את המקרה העסקי, ישנם מדדי ביצועים מרכזיים (KPI) הקשורים לתוצאות, ושיש נתיב לביצוע תפעולי כדי להבטיח שהעבודה שלנו משולבת ומתמשכת.

מה החלק הכי מהנה בעבודה?

אני אוהב לראות לקוחות הופכים מונעי נתונים. לקוחות שיש להם כעת מודלים פועלים, כלים לתמיכה במענה לשאלות וכןבאופן ביקורתיפיתחו תהליכים משמעותיים כדי להעביר אותם מהנתונים ל-KPI לקבלת החלטות. זו המטרה האמיתית של מדע הנתונים וזה יפה לראות את זה בפעולה.

יש לך עצה לאנשים שצריכים להיעזר בשירותיך?

אחד הדברים שממעטים לדבר עליהם הוא עד כמה גבוה שיעור השחיקה (אנשים שעוזבים את עבודתם) במדעי הנתונים. בעוד שחלק מזה יכול להיות מוסבר על ידי שוק תחרותי, השתוקקתי להאמין שחלק ניכר מהשיעור נובע מכך שחברות שוכרות מדעני נתונים לפני שיש להן תוכנית כיצד להשתמש בהם או מצפים שמדעני נתונים יפתרו צרות עסקיות מבועה . אני רואה לעתים קרובות מדעני נתונים בארגוני לקוחות שיושבים בקבוצות טכנולוגיות שמייצרים מודלים שלעולם לא מתרגלים בצורה משמעותית. וראיתי את הקבוצות האלה מתמוססות בחוסר השליחות שלהן.

אתה לא שוכר שרברב כדי לבנות לך בית; אתה מצפה מהם לעבוד עם אנשי מקצוע אחרים, אפילו להיות מודרכים על ידי האדריכלים. באופן דומה, אל תנחית מדען נתונים ותצפה ממנו לבנות לך עסק. סביר להניח שתפקיד העבודה שלך חיפש סטטיסטיקה וכישורים טכנולוגיים. יש לך מטרה ותוכנית לצרף את המיומנויות האלה עם הנהגים העסקיים שלך עוד לפני שתתחיל לגייס עובדים.

איזה סוג של כסף אפשר לצפות להרוויח בעבודה שלך?

זה בהחלט משתנה אבל זה תפקיד עם שכר טוב. אפילו מדעני נתונים בשנה הראשונה מרוויחים לעתים קרובות יותר מ-80 אלף דולר. משכורות של מדעני נתונים ותיקים משתנות בהתאם למקום שבו הם יושבים בארגון. בעלי תפקידים טכניים המובילים צוותים יכולים בהחלט להרוויח יותר מכפול מזה. אבל מדעני הנתונים בשכר הגבוה ביותר הם אלה שלמדו לעבוד בתפקידים עסקיים, בדומה לאופן שבו ניתוח נבנה בדרך כלל בארגונים. אלה יכולים להרוויח עד 400 אלף דולר.

איך אתה מתקדם בתחום שלך?

יש מספר נתיבים. כמה מדעני נתונים יושבים תחת הארגון הטכנולוגי (שכיח יותר לאלה במרחב הביג דאטה) ויש להם נתיב צמיחה דומה לזה של מהנדסים רבים שקודמו לניהול צוות. אחרים עובדים תחת עסקים (בדומה לאופן שבו האנליטיקה המסורתית בנויה בארגונים) ועשויים לצמוח לניהול, בעלות על פתרונות ומוצרים וכו'. אני לא יודע אם ראינו נתיבי קידום רבים מהתחום החדש הזה למנהלי אנליטיקה ראשיים עדיין (לפחות בחברות גדולות) אבל אני חושד שהם יבואו מהצד העסקי.

מה מעריכים הלקוחות שלך פחות או יותר?

הם מעריכים פחות את החשיבות של KPI מוגדרים ומועברים בבירור. מדדי תפוקה אלה, לא תפוקה, הם הדבר הסביר ביותר שמדעני נתונים יוכלו למדוד ולתקשר לגבי השפעת המודל. בארגונים, הקשר בין תפוקה להכנסות מורכב ואיטי להעריך. לאחר הגדרה ברורה של KPI מרכזת את התקשורת בין מדע הנתונים לעסקים, יוצרת משימות ויעדים ברורים, ומהווה בסיס ליצירת נתונים. זה גם עוזר למדעני נתונים לענות על שאלה שנשאלת לעתים קרובות: "מתי אני מפסיק לבצע איטרציה של מודל?" כאשר ביצועי המודל הם יותר מאחוז או שיעור שגיאות, כאשר מדובר ב-KPI, אפשר לזהות בבירור הצלחה, או לחילופין, כאשר הוא מסובב את הגלגלים.

איזו עצה היית נותן למי ששואף להשתלב במקצוע שלך?

הקדישו כמה שיותר זמן בלימוד אנליטיקהתִקשׁוֹרֶתכמודלי למידה. הפופולריות של למידת מכונה הובילה לחלקים של מדעני נתונים שנשענים על מחשב שמנתח נתונים אך אינם יכולים להעביר את התוצאות. ראיתי מדעני נתונים מנסים להסביר תוצאות על ידי ניסיון ללמד רמות C מהו יער אקראי (עם נשורת ברורה). תקשורת אנליטיקה אינה ללמד את המנכ"ל שלך להיות מדען נתונים, אלא לפרש מודלים ולקשר אותם לתוצאות החשובות. למרבה הצער, אפילו מתודולוגיות סטטיסטיות הקשורות לכך, כמו ניתוח רגישות וחוסן, נשכחו כאשר "האלגוריתם" שולט בתכניות לימודים רבות במדעי הנתונים.


Career Spotlight היא סדרת ראיונות חדשה על Lifehacker המתמקדת באנשים רגילים ובעבודות שאולי לא שומעים עליהן הרבה - מרופאים, שרברבים ועד מהנדסי תעופה וחלל וכל מה שביניהם. אם תרצה לחלוק את הקריירה שלך, שלח לנו דוא"ל לכתובת[מוגן באימייל].

תמונה מותאמת מנמו(Pixabay).