Volver al blog

Síguenos y suscríbete

Wikipedia pide a las empresas de IA que dejen de hacer scraping

Natalie Griffeth

Director sénior de marketing de contenidos

El rechazo a los bots ha empezado

El lunes, Wikipedia, la acreditada enciclopedia «colaborativa» de Internet, emitió un comunicado en el que instaba a los principales rastreadores de IA a utilizar su API de pago, en lugar de obtener su información de forma «gratuita». Wikipedia, que depende de donaciones y de la financiación de la comunidad, considera que las empresas de IA están eludiendo el modelo que hace posible su plataforma y, por ello, les ruega que se adhieran al uso de su solución de pago.

En su comunicado, Wikipedia declara que «instan a los desarrolladores de IA y otros reutilizadores de contenido que acceden a nuestro contenido a utilizarlo de forma responsable y a apoyar a Wikipedia. Pueden lograrlo mediante dos acciones sencillas: la atribución y el apoyo financiero». La petición es sencilla: atribuciones adecuadas y «acceso [adecuado] al contenido de Wikipedia a través de la plataforma Wikimedia Enterprise». Wikipedia afirma que «este producto de pago por suscripción permite a las empresas utilizar el contenido de Wikipedia a gran escala y de forma sostenible sin sobrecargar los servidores de Wikipedia, a la vez que les brinda la oportunidad de apoyar nuestra misión sin ánimo de lucro».

Los editores sienten la presión

Entonces, ¿cuál es la razón de esta petición? Pues que los editores están empezando a sufrir los efectos del scraping sin control. 

En octubre, Wikipedia publicó una estadística que indicaba una disminución interanual del 8 % en el tráfico web debido a la IA. Marshall Miller, director sénior de Producto de la Fundación Wikipedia, afirmó que están trabajando para distinguir entre el tráfico humano y el tráfico de bots. Surgen nuevas preocupaciones sobre la falta de ediciones comunitarias en las páginas de Wikipedia, algo fundamental para que Wikipedia conserve la riqueza de su contenido. El hecho de que los consumidores utilicen resúmenes generados por IA en lugar de hacer clic en Wikipedia provoca una disminución del número de visitantes, sí, pero también del número de editores. Esta situación puede convertir a Wikipedia en un espacio muerto.

La preocupación de Wikipedia es doble: en primer lugar, el scraping de su contenido supone una disminución del número de visitantes y de la confianza en su plataforma, lo que se traduce en una caída de los ingresos y del tráfico. En segundo lugar, les preocupa la enorme presión que el scraping del tráfico ejerce sobre sus servidores. Por eso Wikipedia insta a los usuarios (es decir, a las empresas de IA) a utilizar su opción de búsqueda de pago, que permite a los usuarios buscar su contenido a gran escala, pero sin sobrecargar los servidores ni «robar» esta valiosa información de forma «gratuita».  

Los temas de esta historia en particular coinciden con lo que venimos observando desde nuestro equipo de investigación de seguridad. Nuestro informe sobre amenazas del segundo trimestre y nuestro próximo informe del tercer trimestre presentan conclusiones similares. Dado que los bots representan una gran parte del tráfico total de los sitios web, el resultado es una sobrecarga de la infraestructura, el «robo» de contenidos y el riesgo de que las intenciones maliciosas pasen desapercibidas. Nuestro informe del segundo trimestre destaca que «los bots de IA pueden ejercer una presión considerable sobre la infraestructura web desprotegida, con picos de tráfico de hasta 39 000 peticiones por minuto».

El rechazo a la IA está en marcha

Miller, en su artículo de blog, afirma que la adopción de mejores soluciones de gestión de bots para «reclasificar [su] tráfico» arroja la conclusión de que «gran parte de su tráfico inusualmente alto... provenía de bots que fueron creados para evadir la detección».

Este dato apunta a una tendencia que venimos observando en nuestros propios datos: las organizaciones están tomando conciencia de que incluso los «bots deseados», o aquellos que aparentemente no tienen intenciones maliciosas, pueden suponer una carga excesiva para su infraestructura y «robar» su valiosa propiedad intelectual. 

De hecho, nuestro próximo informe sobre amenazas del tercer trimestre revela que las organizaciones están bloqueando cada vez más los bots «deseados», es decir, aquellos que se consideran no maliciosos. Para nosotros, esta tendencia indica que la tolerancia hacia el scraping con IA, incluso con fines legítimos, está empezando a ser objeto de escrutinio. Las organizaciones ya no permiten abiertamente que el scraping consuma sus datos sin compensación alguna. 

Si bien Wikipedia se encuentra bajo una presión cada vez mayor debido a su condición de organización sin ánimo de lucro, el mismo problema afecta a editores de todo el mundo.

Dado el impacto en los ingresos y los costes de infraestructura, prevemos que otros se sumarán a Wikipedia y seguirán tomando medidas drásticas contra el scraping con IA.

Una estrategia de gestión de bots ya es algo imprescindible

Las soluciones de gestión de bots ya no son opcionales, sino que deben ser un componente obligatorio de cualquier programa de seguridad de aplicaciones. Funcionalidades como las que ofrecemos en colaboración con Tollbit permiten a las organizaciones cobrar a los bots en lugar de simplemente prohibirlos por completo, que es precisamente el enfoque que está adoptando Wikipedia.

En resumen, las organizaciones están empezando a tomar medidas drásticas: no es rentable ni sostenible permitir que se utilice libremente tu contenido y cada vez es más importante contar con una estrategia contra los bots. 

Las organizaciones deben recordar que los archivos Robots.txt no son un escudo, sino simplemente una sugerencia.