כיצד לזהות דיבור שנוצר בינה מלאכותית

קרדיט: סטייסי ג'ו


הפוסט הזה הוא חלק מ-Lifehacker'sסדרת "חשוף AI".. אנו בוחנים שישה סוגים שונים של מדיה שנוצרת בינה מלאכותית, ומדגישים את המוזרויות, תוצרי הלוואי וסימני ההיכר הנפוצים שעוזרים לך להבחין בין תוכן מלאכותי לתוכן שנוצר על ידי אדם.

בשנים האחרונות, טכנולוגיות בינה מלאכותית אפשרו לשכפל קול של מישהו אחר ולגרום ל"אדם" הזה להגיד כל מה שתרצו. אתה אפילו לא צריך להיות מומחה כדי לעשות את זה: חיפוש מהיר בגוגל, ואתה יכול לגרום לכל אחד מהנשיא ביידן ועד בובספוג לומר את המילים שלך. זה מרתק, מצחיק ומפחיד.

טכנולוגיית קול בינה מלאכותיתפַּחִיתלשמש לתמיד:תכונת הקול האישי של אפל, למשל, מאפשר לך ליצור גרסה של הקול שלך שתוכל להשתמש בו לטקסט לדיבור, המיועדת לאנשים שמאבדים את היכולת לדבר בעצמם. זה מדהים שיש לנו את היכולת לשמר את הקולות של אנשים, אז במקום להשתמש בקול TTS גנרי, המילים שלהם באמת נשמעות כמו שלהם.

כמובן, יש את הצד השני של המטבע: הפוטנציאל למידע מוטעה משתולל. כשהטכנולוגיה הנוכחית עושה את זה קל מדי לגרום לאף אחד להגיד משהו, איך אתה יכול לסמוך שמה שאתה מאזין לו באמת נאמר?

כיצד פועלים מחוללי קול בינה מלאכותית

כמו דגמי AI אחרים, כמו מודלים של טקסט ותמונה, מחוללי קול בינה מלאכותית מבוססים על מודלים שהוכשרו על מערכי נתונים מסיביים. במקרה זה,הדוגמניות מאומנות על דגימות של אנשים אחרים שמדברים. דגם Whisper של OpenAI, למשל,הוכשר על 680,000 שעות של נתונים. כך הוא לומד לא רק לשכפל את המילים עצמן, אלא את שאר מרכיבי הדיבור, כגון טון וקצב.

עם זאת, לאחר הכשרה של הדגם, אין צורך בכךזֶהנתונים רבים על מנת לשכפל קול. אולי לא תתרשם יותר מדי מהתוצאות כשאתה נותן לדגם חמש דקות של הקלטות, אבל חלקם יכולים להפיק קולות הדומים לאותם נתוני אימון מוגבלים. תן לו יותר נתונים, וזה ישכפל את הקול בצורה מדויקת יותר.

ככל שהטכנולוגיה מתקדמת, זה נהיה יותר קשה לזהות מיד את הזיוף כאן. אבל יש כמה מוזרויות ופגמים בולטים שלרוב קולות הבינה המלאכותית נוטים להיות, מה שהופך את הזיהוי שלהם לחיוני כדי לזהות אם ההקלטה הזו אמיתית או מזויפת.

הקשיבו להגיות וקצבים מוזרים

מודלים של AI די טובים בחיקוי קולו של אדם, עד לנקודה שבה קשה להבחין בהבדל לפעמים. עם זאת, היכן שהם עדיין נאבקים הוא בשכפול שלדֶרֶךאנחנו מדברים.

אם יש לך ספק, הקשב היטב להטיות ב"קולו" של הדובר: בוט בינה מלאכותית עשוי לבטא מילה באופן שגוי מדי פעם, באופן שרוב האנשים לא יבטא. כן, בני אדם מבטאים דברים לא נכון כל הזמן, אבל היזהרו אחר טעויות שעשויות להעיד יותר. לדוגמה, "קולאז'ים" עשויים לעבור משיתוףאה-אז, אלמְשׁוּתָף-לה-ג'ז או שיתוף-לְהַנִיחַ-ges. אתה יכול לשמוע את הטעויות האלה בדיוקדגם VALL-E 2 של מיקרוסופט, אם תלחץ על הקטע הראשון תחת דגימות אודיו ותאזין לדוגמא של "חתולים חכמים".

הקצב עשוי להיות מושפע גם כן. בעוד שבינה מלאכותית משתפרת בשכפול קצב דיבור רגיל, היא גם לוקחת הפסקות מוזרות בין מילים, או מתרוצצת בין אחרים בצורה לא טבעית. מודל בינה מלאכותית עשוי לעבור את המרווח בין שני משפטים, שיסגיר את עצמו מיד. (אפילו אדם שלא יכול להפסיק לדבר לא נשמע כל כך רובוטי.) כשבודקיםהמחולל החינמי של Eleven Labs, אחד הפלטים לא נתן רווח בין המשפט הראשון שלי "היי, מה קורה?" והמשפט השני שלי, "חושב ללכת לקולנוע הלילה". למען ההגינות, רוב הניסיונות אכן כללו את החלל, אך היזהרו ברגעים כאלה כאשר אתם קובעים אם קטע אודיו חוקי או לא.

מצד שני, זה עשוי לקחתגַםהרבה זמן להגיע למילה או המשפט הבא. בעוד שבינה מלאכותית משתפרת בשכפול הפסקות ונשימות טבעיות (כן, חלק מהגנרטורים יכניסו כעת "נשימות" לפני דיבור), תשמעו גם הפסקות מוזרות בין המילים, כאילו הבוט חושב שכך בני אדם נוטים לדבר. זה יהיה דבר אחד אם זה נעשה כדי לחקות מישהו שחושב על המילה הבאה שהוא רוצה לומר, אבל זה לא נשמע ככה. זה נשמע רובוטי.

אתה יכול לשמוע את ההפסקות האלה באודיו המזויף הזה של הנשיא ביידן שמישהו עשה במהלך הפריימריז מוקדם יותר השנה. בשיחה, ביידן המזויף מנסה לשכנע את המצביעים לא להופיע לפריימריז, ואומר, "ההצבעה ביום שלישי הזה רק מאפשרת לרפובליקנים במסע שלהם לבחור את...דונלד טראמפ...שוב".

יש מינימום רגש ושונות בקול

בנימה דומה, קולות AI נוטים ליפול מעט. זה לא שרבים מהם לא הפכו משכנעים, אבל אם תקשיבו מקרוב, יש פחות וריאציות בטון ממה שהייתם מצפים מרוב הדוברים האנושיים.

זה גם מצחיק, מכיוון שהדגמים האלה יכולים לשחזר את הצליל של קולו של מישהו בצורה כל כך מדויקת, אבל לעתים קרובות מפספסים את המטרה כשזה מגיע להתחזות למקצבים ולרגשות של הדובר.בדוק כמה מהדוגמאות של מפורסמים במחולל של PlayHT: אם מקשיבים לדוגמא של דני דה-ויטו, ברור שהיא מתחזה לקולו של דה-ויטו. אבל אתה לא מבין כמה מהשיאים והשפל של דרך הדיבור המיוחדת שלו. זה מרגיש שטוח. ישכַּמָהשונות כאן: הבוט שאומר "הו, דני, אתה איטלקי" נשמע ריאליסטי מספיק. אבל זמן קצר לאחר מכן, המשפט, "הייתי במגדל הנטוי של פיזה", לא תואם את זה. המילה האחרונה של ההקלטה, "סנדוויץ'", נשמעת לא נעימה במיוחד. להקלטה של ​​Zach Galifianakis בהמשך העמוד יש בעיה דומה: ישנם כמה שימושים משכנעים ב-"um" שגורמים להקלטה להישמע סתמית, אבל רוב הדגימה היא ללא רגש או הטיה.

שוב, הדברים מתקדמים כאן מהר. חברות כמו OpenAI מאמנות את המודלים שלהן להיות יותר אקספרסיביים ותגובתיים בתפוקות הקול שלהן.מצב קול מתקדם של GPT-4oהוא כנראה הקרוב ביותר שחברה הגיעה עד כה להשמיע קול משכנע של AI, במיוחד כזה שמסוגל לנהל "שיחות" בזמן אמת. אפילו עדיין, ישנם פגמים שאתה יכול לזהות אם אתה מקשיב היטב. בסרטון למטה, הקשיבו לאופן שבו הבוט אומר, "מול, סמוך ותחתון" (במיוחד תחתון). כאן, GPT-4o עוצר, השונות המציאותית נושרת, והקול הופך קצת יותר רובוטי כשהוא מגלה כיצד לחבר את המילים הלא שכיחות הללו.

עכשיו, זה עדין מאוד: המספר הגדול יותר הוא כנראה ההפסקות שהוא מכניס בין המילים, כמו ההפסקה לפני שהוא אומר "הפוכה". למעשה, האופן שבו הוא מאט את ה"זיהוי" הוא כנראה גם סימן, אבל זה מרשים עד כמה הדגם גורם לזה להיראות נורמלי.

האם סלבריטי או פוליטיקאי אומרים משהו מגוחך או פרובוקטיבי?

איתור קולות בינה מלאכותית אינה רק זיהוי הפגמים בתפוקות, במיוחד כשמדובר בהקלטות של "סלבריטאים". כשמדובר בדיבור שנוצר על ידי בינה מלאכותית של אנשים בעלי כוח והשפעה, סביר להניח שההקלטות הללו יהיו אחד משני דברים: מטופש או פרובוקטיבי. אולי מישהו באינטרנט רוצה לצלם סרטון של ידוען אומר משהו מצחיק, או ששחקן גרוע רוצה לשכנע אותך שפוליטיקאי אמר משהו שמעצבן אותך, למשל.

רוב האנשים שנתקלים בסרטון של טראמפ, ביידן ואובמה משחקים יחד במשחקי וידאו, לא באמת יחשבו שזה אמיתי: זו בדיחה ברורה. אבל לא קשה לדמיין מישהו שמחפש לזרוק מפתח ברגים בבחירות ויוצר הקלטה מזויפת של מועמד פוליטי, מנגן אותו מעל סרטון ומעלה אותו ל-TikTok או לאינסטגרם.אילון מאסק שיתף סרטון אחד כזה ב-X, הכולל הקלטה מזויפת של Kamala Harris, מבלי לחשוף את הסרטון נעשה באמצעות AI.

זה לא כדי לתרץ תוכן שהוא אמיתי: אם מועמד אומר משהו שעשוי להטיל ספק בכשירותו לתפקיד, חשוב לשים לב אליו. אבל כשאנחנו נכנסים למה שבוודאי תהיה עונת בחירות מפלגת, להיות סקפטי לגבי סוגי הקלטות אלה יהיה קריטי מתמיד.

חלק מהפתרון כאן הוא להסתכל על מקור הקלטת האודיו: מי פרסם אותה? האם זה היה ארגון מדיה, או סתם חשבון אקראי באינסטגרם? אם זה אמיתי, סביר להניח שארגוני מדיה מרובים יקבלו את זה במהירות. אם משפיע משתף משהו שמתיישר עם נקודת המבט שלו מבלי לספק מקור מתאים, קח פעימה לפני שאתה משתף אותו מחדש בעצמך.

אתה יכול לנסות גלאי קול בינה מלאכותית (אך יודע את המגבלות)

ישנם כלים שמפרסמים את עצמם כ"גלאי קול AI", המסוגלים לזהות אם הקלטת אודיו נוצרה באמצעות למידת מכונה או לא.ל-PlayHT יש גלאי אחד כזה, תוך כדיל-ElevenLabs יש גלאימחפש במיוחד אודיו שנוצר מהכלים של החברה עצמה.

עם זאת, כמו בכל גלאי מדיה בינה מלאכותית, קח את הכלים הללו עם גרגר מלח. גלאי שמע בינה מלאכותיתהשתמש בבינה מלאכותית כדי לחפש סימנים של תוכן שמע מחולל, כגון תדרים נעדרים, חוסר נשימות וגוון רובוטי (לחלקם אתה יכול להאזין בעצמך). אבל דגמי הבינה המלאכותית האלה יהיו יעילים רק בזיהוי מה שהם יודעים: אם הם נתקלים באודיו עם משתנים שהם לא אומנו עליהם, כמו איכות שמע ירודה או רעשי רקע מוגזמים, זה יכול לזרוק אותם ללולאה.

בעיה נוספת? הכלים הללו מאומנים על הטכנולוגיות הזמינות להם כעת, ולא על האודיו של AI שיוצא כעת או בדרכו. ייתכן שהוא יוכל לזהות כל אחת מהדוגמאות המפורטות במאמר זה, אבל אם מישהו יבצע מחר הקלטה מזויפת של Tim Walz עם דגם חדש, ייתכן שהוא לא יתפוס אותה.

NPR בדקה שלושה כלי זיהוי בינה מלאכותיתמוקדם יותר השנה, וגיליתי ששניים מהם-AI או לאוגלאי קול בינה מלאכותית- טעו בערך במחצית מהזמן. השני,Pindrop Security, זיהה נכון 81 מתוך 84 קטעי הדוגמא שהוגשו, וזה מרשים.

אם יש לך הקלטה שאינך בטוח לגביה, תוכל לנסות באחד מהכלים האלה. פשוט הבן את המגבלות של התוכניות שבהן אתה משתמש.

ג'ייק פיטרסון

עורך טכנולוגי בכיר

ג'ייק פיטרסון הוא העורך הטכנולוגי הבכיר של Lifehacker. יש לו תואר BFA בקולנוע וטלוויזיה מ-NYU, שם התמחה בכתיבה. ג'ייק עוזר לאנשים עם הטכנולוגיה שלהם באופן מקצועי מאז 2016, החל כמומחה טכני בחנות אפל בשדרה 5 של ניו יורק, ולאחר מכן ככותב באתר Gadget Hacks. באותה תקופה, הוא כתב וערך אלפי חדשות ומאמרי הדרכה על מכשירי אייפון ואנדרואיד, כולל דיווח על הדגמות חיות מהשקות מוצרים של סמסונג וגוגל. בשנת 2021, הוא עבר ל-Lifehacker ומסקר הכל מה-השימושים הטובים ביותר של AI בחיי היומיום שלךאֶלאיזה MacBook לקנות. הצוות שלו מכסה את כל הדברים הטכנולוגיים, כולל סמארטפונים, מחשבים, קונסולות משחקים ומנויים. הוא גר בקונטיקט.

קרא את הביוגרפיה המלאה של ג'ייק

Leave a Reply

Your email address will not be published. Required fields are marked *

Subscribe Now & Never Miss The Latest Tech Updates!

Enter your e-mail address and click the Subscribe button to receive great content and coupon codes for amazing discounts.

Don't Miss Out. Complete the subscription Now.