Indice del artículo
Les quiero contar una experiencia que acabo de tener y que no podría haber resuelto sin haber hecho el curso de Data SEO Academy. Si bien todavía sigo con el curso, los conocimientos adquiridos hasta este momento me permitieron hacer algo que me hubiera llevado mucho tiempo hacer a mano.
Contexto:
Tengo un cliente que migró en octubre del año pasado de CSR (Client Side Rendering) a SSR (Server Side Rendering) a pedido nuestro (un alto quilombo). Al hacer la migración, y correr un Screaming Frog en modo texto plano levantaba aprox +69k urls del sitio ya que tenía un montón de notas (es un medio)
Lo volví a correr la semana pasada y levantó sólo 1500 aprox.
Algo me llamó la atención y encontré que el cuerpo de las notas no se estaba renderizando con SSR sino con CSR (y por ende, muchos links a otras notas no eran visibles para el SF). Hablé con el cliente y me dijeron que no cambiaron nada en los últimos meses. Tuvimos un ida y vuelta y me terminaron diciendo que ellos no creen que haya cambiado algo desde aquella fecha.
¿Qué hice?
Empecé a buscar URLs que tengan fecha posterior a la migración de CSR a SSR en Wayback Machine para ver como eran esas páginas post migración.
El problema es que muchas notas no están almacenadas en dicho sitio.
Se me ocurrió levantar del SF el crawleo que tengo con +69k urls, filtrar por aquellas que digan “diciembre” y “2023” en alguna parte para tener notas que sean 100% seguro post migración (fue en octubre 2023).
Encontré varias. Para no chequear una por una en wayback machine (es un dolor de huevos hacerlo a mano), me fijé y hay una API de Wayback Machine que te devuelve el estado de una URL en ese servicio.
Google Colab, Python y una API de Wayback machine
Armé un script en Python en Google Colab que hace exactamente eso. Encontré las que están en Wayback Machine y las contrasté con esas mismas URLs en vivo. Claramente antes, post migración, el cuerpo de la nota estaba como SSR y ahora está como CSR. Esto me sirvió para explicarle al cliente que efectivamente en algún momento algo cambió de su lado y el cuerpo de las notas está como CSR cuando debería (y era así hasta vaya a saber uno cuando) ser SSR.
Disclaimer: El script lo hice con ChatGPT. Todavía no arranqué con el módulo de APIs por lo que no podría hacerlo de 0 con mi conocimiento actual. Pero el curso me permitió saber que había formas de hacer esto que quería hacer de manera más sencilla y automática. Y lo mejor es que el script ya me quedó para futuros usos.
Si querés ver el script, te dejo una copia en Colab para que te lo copies.