Los diversos motores de búsqueda, a excepción de Google Search
, han perdido la capacidad de mostrar resultados de búsqueda de la plataforma Reddit
, debido a una nueva actualización en el archivo robots.txt
del sitio.
Estrategia de Protección de Contenido
Esta actualización forma parte de una estrategia nueva que busca regular el acceso y uso del contenido de Reddit. La razón detrás de este cambio es proteger el contenido del uso no deseado para entrenar modelos de inteligencia artificial.
Tim Rathschmidt, portavoz de Reddit, explicó que la plataforma no logró llegar a acuerdos con todos los motores de búsqueda debido a la incapacidad de garantizar el uso adecuado del contenido de Reddit en inteligencia artificial.
Esto llevó a la prohibición de motores de búsqueda como Bing, DuckDuckGo y Mojeek, mientras que se permitió el acceso solo a Google, según informó The Verge.
Protección contra Bots Web
El 1 de julio, la plataforma social actualizó su archivo robots.txt, lo que impidió a muchos motores de búsqueda y herramientas de inteligencia artificial acceder al sitio utilizando bots para analizar el contenido. Microsoft confirmó que su motor de búsqueda, Bing, dejó de acceder a Reddit después de esta actualización.
Un portavoz de Microsoft dijo a Search Engine Land que la compañía respeta el estándar robots.txt y sigue las directrices proporcionadas por los sitios web, que prohíben el uso de sus contenidos para entrenar modelos de inteligencia artificial generativa.
Rathschmidt aclaró que esto no tiene relación con una asociación entre Reddit y Google y que están en conversaciones con varios motores de búsqueda, aunque no han llegado a acuerdos con todos.
Acuerdo entre Reddit y Google
Según Reuters, Reddit firmó un acuerdo de colaboración con Google en febrero, por el cual la plataforma social recibe 60 millones de dólares anuales a cambio de permitir que el gigante de la búsqueda utilice su contenido para entrenar sus modelos de inteligencia artificial.
Con esta última medida de Reddit, Google se convierte ahora en el único motor de búsqueda que puede mostrar resultados de Reddit, haciendo que una de las mayores plataformas de contenido generado por usuarios sea exclusiva para el motor de búsqueda más grande de internet.
Reacciones de Otros Motores de Búsqueda
Otros motores de búsqueda como DuckDuckGo, Bing y Mojeek ya no muestran resultados nuevos de Reddit, ya que utilizan el sistema de indexación de páginas web de Bing. Colin Hayhurst, CEO del motor de búsqueda Mojeek, declaró que Reddit no respondió a sus correos electrónicos sobre la prohibición, añadiendo que Reddit se ha vuelto más estricto con su archivo robots.txt, bloqueando todas las solicitudes de acceso de bots de manera rigurosa, según sus declaraciones a 404Media.
Tendencia General en la Actualización de Robots.txt
Es relevante señalar que muchos sitios web han comenzado a actualizar sus archivos robots.txt para evitar que las empresas utilicen sus datos para entrenar modelos de inteligencia artificial, indicando una creciente preocupación sobre el uso de datos públicos en este campo.
¿Qué es el archivo robots.txt?
El archivo robots.txt es un archivo de texto utilizado por los administradores de sitios web para guiar a los motores de búsqueda y herramientas de acceso automatizado sobre cómo acceder a las páginas de su sitio. Este archivo contiene instrucciones que especifican qué partes pueden ser accedidas por las tecnologías automatizadas y cuáles deben evitarse.
Funcionamiento de Robots.txt
El archivo se encuentra en el directorio raíz del sitio y es leído por las tecnologías automatizadas al acceder para identificar los permisos de acceso a determinadas partes del sitio web. Las instrucciones pueden incluir permitir o no permitir la visita a ciertos archivos o directorios del sitio, lo que ayuda a gestionar la aparición del sitio en los resultados de búsqueda y a proteger los derechos de propiedad del contenido en la era de la inteligencia artificial.