ChatGPT יכול סוף סוף לראות

שבעה חודשים לאחר מכן, מצב קול מתקדם מקבל ראייה.

openai demoing chatgpt advance voice mode vision

קרדיט: OpenAI/YouTube

לאחר חודשים של בדיקות,OpenAI הוציאה את מצב "קול מתקדם" עבור ChatGPT כבר בספטמבר. התכונה מאפשרת לך לנהל שיחות בזמן אמת עם ChatGPT: אתה יכול להפסיק את הבוט ואת ה"דיבור" שלו כדי לשאול שאלה נוספת, והוא מבין את טון הדיבור שלך, שבו הוא משתמש גם כדי ליידע את התגובות שלו, כמו גם את ההטיה שלו שימושים. (שֶׁלָהמְאוֹדמפחיד כשזה צוחק.)

עם זאת, תכונה אחת של מצב קול מתקדם חסרה מאז ההשקה. כאשר OpenAI הכריזה לראשונה על ההטבה במאי, היא הראתה כיצד ChatGPT יוכל לגשת למצלמה שלך ו"לראות" את העולם סביבך. תוך כדי צ'אט עם הבוט, אתה יכול לכוון את המצלמה שלך למשהו, לשאול שאלה, ו-ChatGPT יענה כמיטב יכולתו. שבעה חודשים לאחר מכן, היכולת הזו כאן, והיא מרשימה להחריד.

כדי לגשת אליו, תצטרך להיות מנוי בתשלום ל-ChatGPT - או פלוס ($20 לחודש), או Pro ($200 לחודש). מנויי צוות ChatGPT זכאים גם הם. ייתכן שהתכונה לא תהיה זמינה מצדך מיד, גם אם אתה משלם, מכיוון ש-OpenAI מוציאה אותה לאורך זמן.

בדיקת תכונת הראייה של מצב הקול המתקדם ChatGPT

הגישה למצלמה היא די פשוטה ברגע שהיא מתגלגלת לחשבון שלך. אתה מפעיל מצב קול מתקדם באותו אופן שאתה עושה תמיד, באמצעות סמל צורת הגל בפינה השמאלית התחתונה של הצ'אט. מכאן, תראה סמל מצלמה חדש, שכמובן משיק את עדכון המצלמה החי. זה לא מפריע לצ'אט: אתה יכול להיות באמצע שיחה עם ChatGPT, לפתוח את המצלמה ולהמשיך להתחרפן, רק עכשיו עם עדכון המצלמה כחלק מהשיחה.

בפעם הראשונה שהשתמשתי בזה, כיוונתי את המצלמה לעבר קופסת Nintendo Switch שהייתה לי בקרבת מקום, עם כבל אייפון ומשטח ה-Magic Trackpad שלי מונח עליו, ושאלתי, "מה זה?" ChatGPT אמר: "זה נראה כמו קופסת Nintendo Switch OLED עם כמה כבלים ומחשב נייד למעלה. האם אתה מתכנן להגדיר את זה?" שניים מתוך השלושה נכונים, מכיוון שהוא חשב על משטח העקיבה שלי למחשב נייד, אבל היי, מספיק קרוב. בשלב הבא, הצבעתי אותו על בקבוק המים שלי, וביקשתי ממנו לזהות מה אני מדגיש: "זה נראה כמו בקבוק הידרו פלסק שחור. זה נהדר לשמור משקאות קרים או חמים! האם אתה לוקח אותו איתך לעתים קרובות?"

שאלתי המשך: "אתה יודע איזה דגם של הידרו פלסק זה?" ChatGPT: "אני לא יכול להיות בטוח לגבי הדגם המדויק, אבל זה נראה כמו אחד מבקבוקי הפה הרחב שלהם, כנראה בסביבות 32 אונקיות. זה בהחלט נועד לשמור על המשקאות שלך בטמפרטורה הנכונה במשך שעות." זה בעצם נכון. אני לא כל כך נוח עם ChatGPT לנחש אתגוֹדֶלנכון, גם כן.

עברתי למקלדת שלי, ש-ChatGPT ציינה במדויק שהיא מקלדת קסם של אפל. שאלתי אילו מפתחות הוא יכול לראות, וציינתי את שמותיהם של קומץ, אבל לא את כל, המפתחות שהיו לי במסגרת. אז, שאלתי כמה מפתחות הוא יכול לראות, והוא אמר "בערך 30", כשהיו 26. אז, שוב, סגור.

הוא הצליח לזהות את יציאת MagSafe ב-MacBook שלי, כמו גם את שתי יציאות ה-USB ואת שקע האוזניות מימין לו. הוא זיהה את פתח האוורור בתקרה שלי ואת סוג המגפיים הספציפי שהיו לי ליד דלת הכניסה שלי. בסך הכל, הוא בעצם זיהה את כל מה שבדקתי עליו - מינוס משטח העקיבה.

הראייה של מצב קול מתקדם היא מהירה

אבל ללא היכר, אני חושב שמה שהכי הבהיל אותי היה המהירות של התגובות האלה. אתה מבקש מ-ChatGPT לזהות משהו, וזה קורה, לפעמים מהר יותר מאשר אם ביקשת מאדם אמיתי לעשות את זה. לפעמים, הבוט יחזיק לרגע במילה (למשל "I thiiiiiiiink that's a...") וזה כנראה טריק לתת ל-ChatGPT לעבד את שאר מה שהוא רוצה לומר. גם אני תפסתי אותו פחות בטוח בעצמו עם התגובה הראשונה שלו: הצבעתי אותו על ה-Magic Mouse שלי, והניחוש הראשון שלו איזה עכבר מחשב. אבל כששאלתי באיזה מותג מדובר, זה לא רק ציין את אפל, אלא אמר שמדובר ב-Apple Magic Mouse, הידוע ב"עיצוב המלוטש" שלו וב"משטח הרגיש למגע".

עם זאת, כל הדברים בחשבון, התגובות הללו הן לרוב כמעט מיידיות, מה שמדבר על עוצמת המודלים של OpenAI בימינו. אני עדיין ספקן בינה מלאכותית, אבל זה היה הפיתוח הראשון מזה זמן מה שהרשים אותי - ואני נקרע לגבי איך אני מרגיש לגבי זה.

מצד אחד, יכולתי לראות שהטכנולוגיה הזו משמשת לתמיד. תארו לעצמכם כמה דבר כזה יכול להיות מועיל למשתמשים עיוורים או לקויי ראייה, במיוחד במכשיר נוחכמו משקפיים חכמות. מישהו יכול לשאול את עוזר הבינה המלאכותית שלו לאיזה כיוון הוא פונה, לקרוא את התפריט במסעדה, או אם זה בטוח לחצות את הרחוב. טכנולוגיה כזו יכולה לשנות את החיפוש לטובה, ולהקל על למידה של דברים חדשים על העולם על ידי הפניית מצלמת הסמארטפון שלנו לנושא.

בצד ההפוך, דעתי פונה לשלילה, במיוחד מכיוון שבינה מלאכותית עדיין נוטה לכךהֲזָיָה. ככל שיותר ויותר אנשים ישתמשו בטכנולוגיה הזו, הם בהכרח יחוו את הטעויות שבינה מלאכותית יכולה לעשות, ואם הם מסתמכים על הבוט שיעזור להם במשימות - במיוחד משהו שמעורב בבטיחות שלהם - הזיות עלולות להיות מסוכנות. לא חוויתי שגיאות גדולות; רק ערבוב משטח העקיבה.אנדרסון קופר מצאשהבוט עשה טעות בבעיית גיאומטריה (שוב, לא בעיה ענקית). אבל זו תזכורת טובה שככל שהטכנולוגיה הזו משתפרת במהירות, הפגמים המובנים שלה מעלים את ההימור לכישלון.

אולי זו הסיבה שכל סשן מצלמה חי מזהיר אותך לא להשתמש בתכונה לשום דבר הכרוך בבטיחות.

artist rendition of Jake Peterson

ג'ייק פיטרסון

עורך טכנולוגי בכיר

ג'ייק פיטרסון הוא העורך הטכנולוגי הבכיר של Lifehacker. יש לו תואר BFA בקולנוע וטלוויזיה מ-NYU, שם התמחה בכתיבה. ג'ייק עוזר לאנשים עם הטכנולוגיה שלהם באופן מקצועי מאז 2016, החל כמומחה טכני בחנות אפל בשדרה 5 של ניו יורק, ולאחר מכן ככותב באתר Gadget Hacks. באותה תקופה, הוא כתב וערך אלפי חדשות ומאמרי הדרכה על מכשירי אייפון ואנדרואיד, כולל דיווח על הדגמות חיות מהשקות מוצרים של סמסונג וגוגל. בשנת 2021, הוא עבר ל-Lifehacker ומסקר הכל מה-השימושים הטובים ביותר של AI בחיי היומיום שלךאֶלאיזה MacBook לקנות. הצוות שלו מכסה את כל הדברים הטכנולוגיים, כולל סמארטפונים, מחשבים, קונסולות משחקים ומנויים. הוא גר בקונטיקט.

קרא את הביוגרפיה המלאה של ג'ייק

בדיקת תכונת הראייה של מצב הקול המתקדם ChatGPT

הראייה של מצב קול מתקדם היא מהירה

Related Posts

הגדירו מגבלת דולרים לקבלת החלטות אוטומטיות על בזבוז

שים תמיד פסיק לפני "ו" ברשימה, לא משנה מה אמר המורה לדקדוק הישן שלך

בנה סמארטפון עם Raspberry Pi משלך

ניסיתי קורס פיתוח גוף בהזמנה בדואר וינטג' ויש סיבה שאף אחד לא עושה את זה יותר

Hack Attack: מדריך למתחילים ל

ארנק Google: איך גוגל תאכל את הארנק האמיתי שלך