הכריח אתרי ארכיון לאסוף דפי אינטרנט בעזרת הכלי השימושי הזה


שירותי ארכיון אתרים כמוארכיון אינטרנט: Wayback Machineשימושיים להפליא כאשר אתה צריך לראות גרסאות ישנות של אתרים - גם כןלנוסטלגיהאו בגלל שאתה מחפש מידע מסוים שמאז הוחלף או נמחק (כמו סיפור שכתבת עבור מעסיק לשעבר, למשל).

עם זאת, שירותים אלה אינם מושלמים. יש מקרים שבהם אתר ארכיון עשוי לא ליצור תמונת מצב של אתר - בדרך כלל, בדיוק כאשר אתה הכי צריך את תמונת המצב הזו. או אולי מישהו הגדיר את קובץ ה-robots.txt של האתר שלולחסום שירותי ארכיוןמביצוע הסריקה האוטומטית שלהם. לא כיף.

בזכותכלי חדש מלוח האם, כעת תוכל לנסות לאחסן את הגרסה הנוכחית של אתר על פני שלושה שירותי ארכיון שונים בו-זמנית: The Wayback Machine, Archive.is ו-Perma.cc (אם הגדרתם אצלם חשבון בחינם).

התקנת כלי הארכיון של לוח האם דורשת מעט עבודת רגליים, אבל זה לא מסובך מדי. תחילה תצטרך להתקין את Python'sבקשות,json, וארכיוןמודולים, שכולם נדרשים כדי שהכלי mass_archive של Motherboard יפעל. (אבוי, זה לא רק קובץ הפעלה פשוט או כלי עזר שאתה יכול להפעיל.) הדרך הטובה ביותר להתקין את הבקשות ואת ה-json היא להתקיןצִפצוּףתחילה, ולאחר מכן השתמש בזה כדי להוריד את המודולים. תמצא ארכיוןכָּאן, ואתה יכול להתקין אותו גם באמצעות pip.

תצטרך גם לתפוס את הסקריפט mass_archive.py מפרויקט GitHub שהוזכר לעיל. ברגע שתהיה מוכן, פתח מסוף ב-macOS או Linux והקלד זאת (כמובן, החלפת example.com באתר שאתה מחפש לארכיון):

python mass_archive.py example.com

אם אתה משתמש ב-Python viaשורת פקודה מוגבהת ב-Windows, אתה יכולהשמט את ה"פיתון" הראשונימהקוד הזה.

Leave a Reply

Your email address will not be published. Required fields are marked *

Subscribe Now & Never Miss The Latest Tech Updates!

Enter your e-mail address and click the Subscribe button to receive great content and coupon codes for amazing discounts.

Don't Miss Out. Complete the subscription Now.