Ver páginas web antiguas: Wayback Machine y dos alternativas
Muchos creen que Internet es eterno, pero esto no es así sobre todo si hablamos de páginas web individuales. ¿Se ha bloqueado una página web y todo su contenido? ¿Quieres visitar tu página web favorita y ha fallado hoy? Algunas personas también pueden estar buscando un post que leyeron hace unos días, pero que ahora no parece rastreable. Hay muchas razones posibles por las que puede desearse encontrar páginas web antiguas, pero lo borrado está borrado para siempre ¿o no?
Incluso si la página original ha sido eliminada, existe la posibilidad de volver a encontrar su contenido, porque algunas organizaciones crean imágenes de páginas web antiguas. Con la ayuda de la tecnología moderna, recogen continuamente capturas. Estos servicios pueden ser consultados gratuitamente en Internet y el proyecto más famoso de este tipo es Wayback Machine. El proyecto Internet Archive archiva gran parte de la World Wide Web de acceso público, y lo ha estado haciendo desde 1996. A continuación, te explicamos el principio de funcionamiento de la máquina de Wayback y te presentamos dos alternativas para visualizar contenidos web antiguos.
- Certificado SSL Wildcard
- Registro privado
- 1 cuenta de correo electrónico por contrato
El proyecto Internet Archive: páginas de Internet, imágenes, vídeos y textos antiguos
Brewster Kahle vendió su primera empresa, el servicio de búsqueda WAIS, a AOL en 1992 por 15 millones de dólares. Con este capital fundó una nueva compañía y una organización sin ánimo de lucro bajo la ley americana. La compañía era Alexa Internet, que dejó a Amazon.com unos años después por unos 250 millones de dólares. Como resultado, terminó teniendo aún más recursos financieros a su disposición, varios millones de los cuales puso en su proyecto sin ánimo de lucro Internet Archive.
Como parte de este proyecto, también se desarrolló la llamada Wayback Machine: un archivo web en el que se pueden encontrar capturas de pantalla con las que ver páginas web antiguas de diferentes períodos de tiempo. En la siguiente imagen se puede ver, por ejemplo, cómo era la página principal de Facebook (en ese momento todavía "Thefacebook") el 12 de febrero de 2004, ocho días después de que la página web se pusiera online por primera vez.
Como su nombre indica, el proyecto Internet Archive se originó como un archivo web. Cuando Brewster Kahle creó el archivo por primera vez en 1996, utilizó los datos de su proyecto Alexa Internet, que recopila los accesos a sitios web de dominios de toda la World Wide Web. Amazon ofrece ahora a Alexa como un servicio de análisis de marketing. Inicialmente, los sitios web populares prioritarios para el Internet Archive tenían que guardarse. Según un estudio de la revista Forbes a partir de 2015, sin embargo, el número de capturas de una página web en archive.org (el sitio web del proyecto) no siempre se correlaciona con el rango de Alexa o la frecuencia de actualización de un dominio. Por lo tanto, por el momento no se sabe qué métodos de selección utiliza exactamente el proyecto al detectar y almacenar páginas web.
Encontrar algo más que páginas web antiguas: lo que ofrece Internet Archive
Internet Archive ha logrado mucho en sus más de veinte años de historia. Este archivo de páginas de Internet se ha convertido en una enorme biblioteca virtual. Según datos propios, archive.org utilizó un enorme espacio de almacenamiento de 18,5 petabytes para contenido individual en 2015 (un total de 50 petabytes, es decir, 50 000 billones de bytes) y, desde entonces, ha ido aumentando en varios terabytes cada semana. Según las últimas encuestas, se puede acceder a unos 327 000 millones de versiones antiguas de páginas web a través del servicio Wayback Machine. Además, el proyecto recoge:
- Textos y libros (unos 16 millones)
- Grabaciones de audio (alrededor de 4,4 millones, incluidas 189 000 grabaciones en vivo de conciertos)
- Videos y producciones de televisión (alrededor de 5,8 millones, incluyendo alrededor de 1,6 millones de grabaciones de noticias)
- Imágenes (alrededor de 3,1 millones)
- Programas informáticos (unos 209 000)
(Datos de abril de 2018)
Los medios de comunicación son de dominio público o han sido donados por los depositarios de los derechos con la intención de preservarlos para la posteridad. Así, muchos de los contenidos provienen de universidades, de organizaciones gubernamentales como la NASA, de proyectos de digitalización de textos como Proyecto Gutenberg o Arvix y también de colecciones de cine y audio como la Prelinger Collection o LibriVox.
Brewster Kahle es un activista de la red que no solo está comprometido con un Internet libre, sino, en general, con el conocimiento de acceso libre. Fue uno de los opositores más populares de la llamada "Mickey Mouse Protection Act" (en realidad: Copyright Term Extension Act), cuya implantación fue apoyada por Disney, entre otros. Esta ley condujo a una extensión de la ley de derechos de autor estadounidense: a partir de ese momento las obras estaban protegidas por derechos de autor durante un período de hasta 70 años (y no, como antes, hasta 50 años) después de la muerte de un autor o dibujante. Según críticos como Kahle, unos derechos de propiedad tan prolongados solo beneficiarían a las empresas explotadoras, mientras que las obras no serían utilizables por el público en general.
En 2007, el estado de California reconoció oficialmente el archivo de internet fundado por Kahle como biblioteca. Uno de los numerosos centros informáticos que almacenan copias de seguridad del archivo se encuentra en la Biblioteca de Alejandría, inaugurada en 2002 bajo los auspicios de la UNESCO.
La página web subsidiaria archive-it.org coopera con numerosas organizaciones científicas que desean archivar digitalmente sus colecciones.
Ver páginas web antiguas: motivos para archivarlas
Internet cambia constantemente: una transmisión de datos más rápida permite nuevos servicios, mientras que otros se vuelven obsoletos y olvidados. La información nueva a menudo reemplaza a la antigua o desactualizada, especialmente en los portales de noticias y otras páginas web dinámicos. Los artículos y las páginas web antiguos a menudo ya no son directamente visibles, aunque los usuarios suelen desear poder ver versiones anteriores de los sitios web, deseo que puede venir de la pura nostalgia, como por ejemplo si te preguntas qué escribiste en tu perfil de MySpace en aquel entonces. Sin embargo, hay también razones económicas o legales para querer rastrear versiones antiguas de páginas web:
- Tu página se ha caído inesperadamente. Tal vez el servicio de alojamiento tiene problemas técnicos o no se han pagado las cuotas mensuales. Es probable que encuentres el contenido perdido en un archivo de páginas web.
- Eres un periodista, blogger o científico que trabaja en un artículo. Cada vez más, Internet es la manera más rápida de encontrar fuentes importantes. Sin embargo, si el enlace de la página de origen cambia, tus lectores carecerán de información o las citas ya no coincidirán con el contenido de la página enlazada. Si citas la fuente con una captura y un sello de tiempo, tus lectores siempre pueden rastrear la fuente.
- Eres SEO y trabajas consiguiendo posicionamiento a través de enlaces en dominios más antiguos. Además, puedes utilizar herramientas de archivo para eliminar enlaces incorrectos o ajustar los cambios de página. Algunos expertos en SEO mejoran su ranking con contenido archivado en redes privadas de blogs.
- Necesitas pruebas legales. Cuando se trata de insultos o amenazas en la red, las capturas de pantalla ayudan a documentar los ataques personales. Si los textos ya han sido eliminados por el autor, simplemente utilizas una versión anterior del sitio web para recopilar sus pruebas. Además, la documentación de los procesos de trabajo a través de un archivo también puede ser útil en los litigios sobre patentes.
El tutorial sobre Wayback Machine: encontrar sitios web antiguos en 3 pasos
¿Eres el proveedor de una página web y te falta una copia de seguridad? Obtén el contenido perdido buscando capturas de pantalla de tu antigua página de inicio a través de archive.org. Los sitios web antiguos se pueden encontrar en solo tres pasos.
Una snapshot es siempre una captura que describe el estado actual de sistemas u objetos como un sitio web. Las conexiones entre subáreas permanecen, pero el sistema no cambia su estado. Por lo tanto, es posible navegar a través de páginas web antiguas en archive.org, pero los elementos dinámicos como los formularios pierden su función dentro de una captura de pantalla.
-
Introduce archive.org en la barra de búsqueda. Para ver páginas web antiguas, el servicio Wayback Machine te ofrece tres posibilidades:
- Introduce la URL deseada directamente en la barra de búsqueda superior de Wayback Machine, como se muestra en la imagen de abajo, y presiona la tecla Aceptar para ir directamente a la página de resultados.
- Haz clic en el icono web amarillo para ir a la página principal de Wayback. Allí puedes introducir una URL de dominio o probar otras funciones. Para acceder a un sitio web archivado, introduce la URL y haz clic en "Examinar historial".
- Introduce un término de búsqueda en la barra de búsqueda de abajo y selecciona "Search archived web sites". Haz clic en "Go" para ver la lista de dominios y descripciones de páginas web que contienen el término de búsqueda. Las entradas individuales muestran el nombre de dominio, la descripción y el número de instantáneas en un período determinado. También recibirás información sobre la cantidad de contenido multimedia capturado. Haz clic en el resultado deseado.
- Verás una línea de tiempo en la página principal de la URL que has introducido (gutenberg.org en el ejemplo de abajo). Esto forma prácticamente el eje inferior de un diagrama, en el que se asigna una columna negra a cada fecha. La altura de cada columna en el gráfico de barras indica la frecuencia con la que los rastreadores de Wayback han escaneado el dominio en esa fecha. Si no hay ninguna columna visible, no se tomaron capturas de pantalla en esa fecha. En 2007, por ejemplo, hubo muy pocas capturas al mes. La notable diferencia indica que no se tomó ninguna captura en noviembre.
-
El tamaño de los círculos en la hoja del calendario muestra la frecuencia con la que los rastreadores registraban la versión antigua de un sitio web en el día en cuestión. Así se utiliza:
-Azul para un rastreo exitoso en la página web
-Verde para redirecciones
-Naranja para una URL no encontrada (error 4xx)
-Rojo para un error del servidor (error 5xx)
- Selecciona un día en el que la versión antigua de la página web fue capturada a través de un screenshot. Solo para los días coloreados existen tales registros. Haz clic directamente en la fecha para ver la captura de la página. Si mantienes el puntero del ratón sobre la fecha, aparecerán las diferentes marcas de tiempo (como se muestra en la imagen de abajo), es decir, las horas exactas en las que se tomó una instantánea.
Al hacer clic en la marca de tiempo, accederás a la captura de pantalla del sitio web archivado, que muestra cómo se veía el sitio web en el momento especificado. Por ejemplo, la marca de tiempo 19:38:40 (naranja) causa el error 403, mientras que la marca de tiempo 21:54:09 muestra toda la página.
Dentro del sitio web archivado puedes navegar como de costumbre a subpáginas a través de enlaces. Los textos se pueden copiar fácilmente. También puedes guardar capturas de pantalla para ver la disposición y el diseño de la página.
El nombre Wayback Machine está inspirado en un dibujo animado americano de los años 60. Los personajes Mr. Peabody y Sherman viajan en "Mr. Peabody's Improbable History" con una máquina del tiempo a través de la historia que ellos llaman "WABAC Machine".
Las opciones "Summary of..." y "Site Map of..." (en la imagen superior directamente encima de la línea de tiempo) ofrecen más posibilidades. El resumen muestra cuántos archivos de código, imágenes y archivos flash encontraron los rastreadores. El mapa del sitio, por otro lado, muestra el dominio entero como un anillo. Una sección de anillo es una página web a la que se puede acceder directamente con un solo clic.
Encontrar páginas web antiguas más tarde gracias a la instantánea automática
¿Administras una página web o blog o publicas tu trabajo a través de la página de un tercero? Entonces se recomienda utilizar la Wayback Machine para realizar una copia de seguridad del contenido, ya que algoritmo de retroceso no cubre automáticamente toda la World Wide Web. De hecho, hay varias razones por las que archive.org no archiva algunas páginas web o no muestra cierto contenido:
- El operador del sitio no permite la indexación de la página web. (Comando noindex)
- El archivo robots.txt específica que la página web o partes de la misma no deben indexarse.
- El sitio web está protegido por contraseña.
- El operador del sitio ha pedido personalmente que se elimine el sitio web del archivo.
- Los elementos dinámicos constituyen una parte importante de la página y no se muestran correctamente.
Por lo tanto, si deseas archivar tu propia página web, debes asegurarte de que los rastreadores de archivos puedan leer el dominio. Para ello, procede del siguiente modo:
- Vuelve a visitar la página principal de Wayback Machine (mostrada abajo). Una barra de desplazamiento muestra las páginas web antiguas que pueden ser de interés para los visitantes. A continuación, encontrarás herramientas útiles, el servicio de suscripción para instituciones científicas y la herramienta Save Page Now.
- Si deseas sacar una captura de una página web, solo necesitas conocer la URL del dominio. Ahora introdúcelo en el campo de entrada bajo "Guardar página ahora". La dirección de dominio en forma simple es suficiente. Para el ejemplo de la imagen de abajo sería: "douglasadams.com".
- La pequeña ventana "Saving page now..." aparece en primer plano sobre la página web de carga. Una vez completado el proceso, verás una captura de su sitio web. Ahora se han asegurado todos los contenidos y enlaces para el futuro.
Dado que los rastreadores de archivos a menudo no conocen las web menos populares, vale la pena que las páginas web de orientación regional creen instantáneas por su cuenta de forma regular.
Wayback Machine Downloader para restaurar páginas web antiguas
La Wayback-Machine te permite ver páginas web antiguas a las que ya no se puede acceder a través de su URL anterior. De esta forma, podrás al menos encontrar y guardar el contenido de texto de la página correspondiente. Pero a veces se necesita algo más que el texto de un artículo antiguo y el problema es más profundo. Tal vez la página ya no existe y la copia de seguridad tampoco ayuda. ¿Quizás deseas descargar todo el sitio web para editar o guardar el código fuente, filtrar enlaces rotos o probar tu antigua página web para optimización SEO? Esto es posible con Wayback Machine Downloader.
Para usar el programa de código abierto Wayback Machine Downloader en GitHub deberías instalar Ruby primero. Pero no tienes que ser un profesional de Ruby para usar el programa. Los desarrolladores listan los comandos de código más importantes directamente en la página de descarga. Introduce la URL deseada y el programa descargará los archivos correspondientes en tu ordenador. Crea automáticamente páginas index.html que son compatibles con Apache y NGINX. Por ejemplo, los usuarios avanzados pueden definir la configuración de las marcas de tiempo, los filtros de URL y las capturas con más detalle.
La herramienta basada en la web Archivarix, con una interfaz de usuario claramente estructurada, es adecuada para pequeños sitios web o blogs. El servicio, que normalmente se cobra, es gratuito si se utiliza para sitios web con menos de 200 archivos. El período de formación es, en comparación, corto. Sin embargo, debes registrarse para utilizar Archivarix. Introduce simplemente el dominio deseado y define las opciones de optimización y las estructuras de enlace con unos pocos clics. A continuación, escribe tu dirección de correo electrónico. Si la descarga del archivo del sitio de Internet se ha completado, Archivarix envía un archivo Zip a esta dirección.
Otra herramienta web es el Wayback Machine Downloader (muchas de estas herramientas tienen nombres muy similares, a veces incluso idénticos). Esta herramienta también te envía copias de las antiguas páginas de Internet por correo electrónico. La demo gratuita incluye las primeras cuatro páginas de la Wayback Machine. Una página web HTML completa cuesta alrededor de 15 €, la conversión a WordPress de nuevo alrededor de 45 € (datos de mayo de 2018). La suscripción (actualmente 80 €) vale la pena si descargas un número importante de dominios cada mes.
Archive.org por sí mismo no ofrece un website downloader. Sin embargo, como miembro de la biblioteca, es decir, como usuario registrado, hay millones de archivos de texto, imágenes y audio disponibles para su descarga. Si eres el propietario de los derechos de una obra, puedes cargarla para uso público no comercial, como lo hace la NASA con gran parte de su material audiovisual. Por ejemplo, el siguiente video, filmado por la ISS, se archivó como obra común bajo licencia de Creative Commons.
El equipo del proyecto Open Library quiere categorizar los libros de la manera más completa posible. También permite a los usuarios tomar prestados muchos libros, algunos de los cuales son alojados por terceros durante dos semanas. En una categoría aparte encontrará libros electrónicos y textos del Archivo de Internet. Por lo general, pueden descargarse de forma gratuita.
It's not that expensive. For the cost of 60 miles of highway, we can have a 10 million-book digital library available to a generation that is growing up reading on-screen. Our job is to put the best works of humankind within reach of that generation. (No es caro. Por el coste de 96 km de carretera podemos tener una biblioteca digital de 10 millones de libros a disposición de una generación que está creciendo leyendo en una pantalla. Nuestro trabajo es poner las mejores obras de la humanidad al alcance de esa generación.) Brewster Kahle: How Google threatens books, Washington Post, 5/2009.
Alternativa 1: ver páginas web que no son tan antiguas con la búsqueda de Google
¿La información que buscas no es tan antigua? Entonces, una simple búsqueda en Google puede ayudarte: al igual que en el caso de Wayback Machine, Google utiliza rastreadores para escanear e indexar sitios web. Para ello, el buscador toma una captura de todo el sitio web. Si esto ha cambiado desde el último rastreo, Google almacena en caché la captura de la versión antigua de la página web. La nueva captura sirve como vista previa actual. Si la página web en directo falla durante un corto periodo de tiempo, no habrá cuellos de botella, ya que todavía hay una versión en la caché. Por lo tanto, solo hay una marca de tiempo de la página almacenada en caché. Sin embargo, esta puede ser más actual que una instantánea del archivo de Internet. Es más, si archive.org no tiene una versión antigua del sitio web, Google puede ser incluso la única manera de encontrar una captura de pantalla del sitio.
Para ver la última versión de tu página web, simplemente introdúcela como un término de búsqueda en Google. La URL debe aparecer bajo el título de la página en la lista de resultados. Si haces clic en la flecha a la derecha, aparece un pequeño menú desplegable (como se muestra en la imagen siguiente). Si haces clic en "Cached", Google carga el sitio web en la versión anterior a su última actualización.
A veces sucede que la versión actual de una página no aparece en la lista de resultados de Google. Esto puede suceder si los operadores del sitio han establecido el dominio en "noindex". Esto indica que el motor de búsqueda no debería incluir la página en su colección. Sin embargo, todavía puedes encontrar una versión antigua de la página web en la caché. Si deseas visitar una página web antigua pero no la encuentras en los resultados de búsqueda, introduce el siguiente comando de Google en la barra de direcciones:
http:/ /webcache.googleusercontent.com/ search?q=cache:https:/ /www.DOMAIN.com
En el ejemplo anterior, "DOMAIN.com" es un marcador de posición para la URL que estás buscando. La imagen siguiente muestra la versión en caché de archive.org cuando Google capturó el sitio web el 8 de agosto de 2018. Ten en cuenta que incluso las capturas de Google no muestran elementos dinámicos ni contenido multimedia en su mayoría.
Alternativa 2: encontrar referencias a páginas web antiguas con WebCite
Los periodistas, bloggers y académicos utilizan cada vez más fuentes online. Así como se listan fuentes en una bibliografía para publicaciones científicas impresas, muchos textos online también contienen referencias, por lo general, en forma de enlaces que conducen directamente a la fuente de Internet utilizada. Sin embargo, dado que las páginas web pueden cambiar o ser eliminadas de la web, existe el riesgo de que estos enlaces ya no conduzcan a los textos apropiados. Si los lectores siguen un enlace obsoleto, es posible que vean algo completamente diferente de la investigación del autor en ese momento. Para evitarlo, la organización WebCite® ofrece un servicio de archivo. Esto permite guardar fuentes como snapshots y generar un listado de fuentes que tus lectores pueden utilizar simultáneamente. Con la ayuda de un enlace de destino o del ID de la captura puede verse directamente la fuente.
Cómo archivar fuentes con WebCite:
- En la página principal de WebCite, directamente debajo del nombre del dominio, encontrarás el menú principal. Selecciona la pestaña "Comb" (navegar).
- A continuación aparecerá el formulario para archivar ("archive form"). Si tu documento ya está en la web, introduce la URL, como se muestra en la imagen de abajo, en el primer campo de búsqueda ("URL to comb for links"). Si el texto aún no se ha cargado, pero las referencias con enlaces ya existen, simplemente carga el archivo. Para ello, haz clic en "Examinar". Ingresa tu dirección de correo electrónico y WebCite te enviará una lista de URL de capturas archivadas más adelante. Haz clic en "Comb this URL".
- Después de una breve espera, el sitio web muestra una lista de posibles enlaces. Selecciona tus fuentes marcando la casilla junto a ellas. Haz clic en el botón " Cache these URLs" al final de la lista.
- El mensaje de que tus fuentes están en cola para proceder al archivo aparece ahora en la ventana y, además del enlace original, también recibirás el enlace a la captura, que solo tendrá que incluirse en la cita de la fuente. Esto permite que tus lectores accedan a la misma versión de la fuente que utilizaste para tu trabajo - incluso años después, cuando la página web ya no exista.
Si publicas tus textos en una plataforma con muchos enlaces salientes, los rastreadores de WebCite los incluirán en su selección, lo que da lugar a una lista difícil de manejar. En este caso, te recomendamos que cargues el documento directamente desde tu disco duro.
Si solo deseas archivar una fuente o tu propio trabajo, utiliza la herramienta de archivo. Para ello, haz clic en la pestaña "Archive" del menú principal. En el formulario para fuentes individuales, introduce la URL de la fuente a citar, así como tu dirección de correo electrónico y el idioma de archivo. Al rellenar los metadatos (título, autor, etc.), WebCite crea una referencia. Si ya existen metadatos en la página web, el programa también puede añadirlos. Haz clic en "Submit", tras lo que recibirás un correo electrónico con el enlace de la captura y la fuente.
Esto permite especificar una página web antigua como fuente inalterable:
- Haz clic en la pestaña "Search" del menú principal, tras lo que aparecerá el formulario de búsqueda.
- Para buscar directamente páginas web antiguas, introduce la URL del dominio en el primer campo de entrada (junto a "URL to find snapshots of") como se muestra en la imagen siguiente. Debajo de esto, introduce la marca de tiempo en la anotación YYYYYYMM (Y=Año, M=Mes). Si no lo haces, se te dirigirá al dominio en caché haciendo clic en "Search", pero falta el encabezado de WebCite con el que se puede saltar entre las marcas de tiempo.
- En lugar de buscar en la URL, puedes especificar el ID de la captura directamente para ir a una versión de la página web guardada en un momento determinado.
Cualquiera que haya buscado en vano una página web antigua apreciará las herramientas presentadas. El Wayback Machine es probablemente el archivo de sitios web más completo. Su interfaz amigable hace que archivar o ver páginas web antiguas sea fácil incluso para los usuarios sin experiencia. Si buscas páginas web que se han perdido recientemente, la caché de Google puede ayudarte. WebCite, por otro lado, se basa en un proceso de verificación antes de añadir páginas web al archivo y este servicio es muy adecuado para textos académicos que requieren referencias comprensibles.