מאת ג'ינה טראפני
עשית בחריצות סימניות וחתכת דפי אינטרנט באמצעות שירות מקוון כמוטָעִים מְאוֹד,Google Notebookאוֹלחפור. בטח, אחסון הנתונים שלך באינטרנט הוא נהדר עבור גישה מכל מחשב מקוון, אבל בעידן של כוננים קשיחים זולים ועצומים וחיפוש שולחן עבודה רב עוצמה, למה לא לשכפל את הנתונים שאתה שומר באינטרנט למחשב שלך? כך יהיה לך עותק של כל דף אינטרנט כפי שהוא נראה כאשר סימנת אותו, וארכיון ניתן לחיפוש של המחקר שלך גם כאשר אתה לא מקוון.
באמצעות כלי שורת הפקודה המועדף עליי wget, אתה יכול להוריד את התוכן של דף של קישורי del.icio.us, diggs או Google Notebook ציבורי באופן אוטומטי ויעיל לכונן הקשיח שלך.
Wget 101
תצטרכו לחדשים, תסתכלו עלייהדרכה ראשונה על wget. שם תקבל קצת רקע על איך wget עובד, היכן להוריד אותו והפורמט של פקודת wget.
מנוסים ותיקים, בואו איתי.
ארכיון סימניות del.icio.us
נניח שיש לך מצגת על המצב הנוכחי של התוכנה ואתה אוסף מחקר על הנושא בתג "תוכנה" של סימניות del.icio.us שלך. הורד את כל המסמכים המקושרים מה-https://del.icio.us/ginatrapani/so…עמוד באמצעות הפקודה הבאה (ללא מעברי שורה):
wget -H -r --level=1 -k -p -erobots=off -np -N --exclude-domains=del.icio.us,doubleclick.net https://del.icio.us/ginatrapani/software
כיצד להפעיל את הסקריפט הזה:החלף את https://del.icio.us/ginatrapani/software בשם המשתמש שלך ב-del.icio.us ובתג הרצוי. צור ספרייה חדשה בשם "del.icio.us archive" ומתוך ספריה זו בשורת הפקודה, הפעל את הגרסה הערוכה שלך של הסקריפט. (אפילו טוב יותר, העתק והדבק את הפקודה לתוך קובץ טקסט, כוונן אותה לצרכים שלך ושמור אותה כסקריפט - .bat למשתמשי Windows ו-.sh למשתמשי Mac. לאחר מכן הפעל את הסקריפט במקום להקליד את זה דבר ארוך בכל פעם.) לאחר השלמת הפקודה, תגדיר ספריות על שם כל תחום בקישורי del.icio.us, עם הקבצים המאוחסנים בתוכם.
הפירוק:פקודה זו אומרת ל-wget להביא את כל המסמכים המקושרים מ-https://del.icio.us/ginatrapani/software:
-H: על פני מארחים כלומר, קבל את כל הקישורים מ-del.icio.us לאתרים אחרים
-r: רקורסיבית
—level=1: רמה אחת כדי לא לתפוס את כל המסמכים שהדפים האלה מקשרים אליהם מדי
-k: עם קישורי עותק מקומי המומרים לקישור לעותקים המקומיים של דפים
-p: קבל את כל התמונות וקבצי עזר אחרים כדי לבנות לחלוטין את הדפים
-erobots=off: התעלם מקובצי robots.txt ופשוט הורד
-np: אל תעלה לספריית האב (או לכל הסימניות של ג'ינטראפני)
-N: הורד רק קבצים חדשים יותר ממה שכבר הורד
—exclude-domains=del.icio.us,doubleclick.net: אל תכלול קישורים לדפי del.icio.us אחרים ולשרת המודעות ב-doubleclick.net מכיוון שאינך רוצה להוריד מודעות.
אם זה יותר מדי בשבילך לבלוע, פשוט הפעל את הפקודה שהצביעה על סימניות del.icio.us שלך. תאמין לי, זה עובד.
לחילופין, במקום להגביל את ההורדה לתג אחד, השג את כל הסימניות של del.icio.us באמצעות הפקודה הבאה (השמט את מעברי השורות):
wget -H -r --level=1 -k -p -erobots=off -np -N --exclude-directories=ginatrapani --exclude-domains=del.icio.us, doubleclick.net https://del. icio.us/ginatrapani
ההבדל היחיד בין הפקודה הזו והאחרונה הוא שהיא כוללת הנחיית "—exclude-directories=ginatrapani", שמונעת מ-wget להוריד כל תיקיית תגים שלא לצורך.
ארכיון חפירות של מישהו
תגיד שאתה רוצה לאחסן את כל הסיפורים שקווין רוז חופר. הפקודה wget תיראה בערך כך (ללא מעברי השורות):
wget -H -r --level=1 -k -p -erobots=off -np -N --exclude-domains=digg.com,doubleclick.net,doubleclick.com,fastclick.net,fmpub.net,tacoda. net,adbrite.com,sitemeter.com https://digg.com/users/kevinrose/dugg
בדומה לפקודה שלמעלה, זה לא כולל שרתי מודעות נוספים (כדי שלא תמלא את הכונן הקשיח שלך בתמונות של מודעות באנר) והוא מצביע על דף ה-dgg של kevinrose.
העבר לארכיון מחברת Google ציבורית
Google Notebookזוהי דרך מצוינת לגזוז קטעים של דפי אינטרנט ולרשום עליהם הערות באופן מקוון, ותוכל להפוך את המחברות הללו לציבוריות. נניח שיש לך מחברת Google ציבורית של ציטוטים תעופה שמצאת בכל רחבי האינטרנט שברצונך לאחסן בארכיון מקומי עבורו כאשר אתה לא מקוון. הצבע על המחברת הזו ותגיד לה לשמור את הדף ב-aviationquotes-notebook.html עם הפקודה הזו. (השמט את מעברי השורות.)
wget -k -p -erobots=off -np -N -nd -O aviationquotes-notebook.html https://www.google.com/notebook/public/18344006957932515597/BDSKUIgoQ9K_Emdkh
טיפים וטריקים לארכיון האינטרנט המקומי
לְהִשְׁתַמֵשׁGoogle Desktopאו Spotlight של Mac OS X כדי לחפש את התוכן של הסימניות והסרטונים שהורדת. חוקרים רציניים ב-Mac יכולים לייבא את המסמכים שהורדתםDevonThinkגַם כֵּן.
תגרום לדפים שהורדת יפוג לאחר פרק זמן של x. אם אתה רוצה לקרוא את כל הדברים שקווין חפר רק בשבועיים האחרונים, נקה את תיקיית ההורדות שלך באמצעותהשוער בכונן הקשיח, שימחק קבצים ישנים.
תזמן ריצות אוטומטיות של הורדות wget באמצעותמתזמן המשימות של Windowsאו cron ב-OS X ו-Linux.
יש לך מתכון wget מהימן שאתה משתמש בו כל הזמן? או שאלה לגבי כל אחד מהמוצגים כאן? התקשר אלינו בתגובות.
ג'ינה טראפני, העורך של Lifehacker, חושב שמידע אישי מבוזר הוא אפליקציית הרוצח. התכונה החצי שבועית שלה,חנון לחיות, מופיע מדי רביעי ושישי ב-Lifehacker. הירשם ל-עדכון חנון לחיותכדי לקבל תשלומים חדשים בקורא החדשות שלך.