Reddit ha sido durante mucho tiempo un punto caliente para la conversación en Internet. Unos 57 millones de personas visitan el sitio todos los días para conversar sobre temas tan diversos como maquillaje, videojuegos y pasillos de lavado a presión.
En los últimos años, la suite de chat de Reddit también ha sido una ayuda de aprendizaje gratuita para empresas como Google, OpenAI y Microsoft. Estas empresas están utilizando las conversaciones de Reddit para desarrollar sistemas gigantes de inteligencia artificial que muchos en Silicon Valley creen que están en camino de convertirse en la próxima gran novedad en la industria tecnológica.
Ahora Reddit quiere que le paguen por ello. La compañía dijo el martes que planea comenzar a cobrar a las empresas por el acceso a su interfaz de programación de aplicaciones, o API, el método por el cual las entidades externas pueden descargar y procesar la amplia selección de conversaciones de persona a persona en la red social.
“El corpus de datos de Reddit es realmente valioso”, dijo Steve Huffman, fundador y director ejecutivo de Reddit, en una entrevista. “Pero no necesitamos dar todo ese valor a algunas de las empresas más grandes del mundo de forma gratuita”.
El movimiento marca uno de los primeros ejemplos significativos de una red social que cobra por el acceso a las conversaciones que aloja para desarrollar sistemas de IA como ChatGPT, el popular programa de OpenAI. Estos nuevos sistemas de inteligencia artificial algún día podrían conducir a un gran negocio, pero es poco probable que ayuden mucho a empresas como Reddit. De hecho, se pueden usar para crear competidores: duplicados automáticos de conversaciones de Reddit.
Una nueva generación de chatbots
Nuevo mundo valiente. Una nueva generación de chatbots impulsados por IA ha desatado una lucha para determinar si la tecnología puede revolucionar la economía de Internet, convirtiendo las potencias actuales en viejas y creando los próximos gigantes de la industria. Estos son los bots que debe conocer:
El movimiento de Reddit también se produce mientras se prepara para una posible oferta pública inicial en Wall Street a finales de este año. La empresa, fundada en 2005, obtiene la mayor parte de su dinero a través de la publicidad y las transacciones de comercio electrónico en su plataforma. Reddit dijo que todavía está resolviendo los detalles de lo que cobrará por el acceso a la API y anunciará los precios en las próximas semanas.
Las conversaciones de Reddit, o subreddits, como las llama la compañía, se han convertido en productos valiosos a medida que los modelos de lenguaje extenso, o LLM, se han convertido en una parte esencial de la creación de nueva tecnología de IA.
Los LLM son esencialmente algoritmos complejos desarrollados por compañías como Google y OpenAI, que es un socio cercano de Microsoft. Para los algoritmos, las conversaciones de Reddit son datos, y se encuentran entre la amplia gama de material que alimenta el LLM para desarrollarlos.
El algoritmo central que ayudó a construir Bard, el servicio de inteligencia artificial conversacional de Google, se entrenó parcialmente con datos de Reddit. Chat GPT de OpenAI cita datos de Reddit como una de las fuentes de información en las que se entrenó.
Otras empresas también están empezando a ver el valor de las conversaciones y las imágenes que alojan. Shutterstock, el servicio de alojamiento de imágenes, también vendió datos de imágenes a OpenAI para ayudar a crear DALL-E, el programa generativo de inteligencia artificial que crea imágenes gráficas nuevas y vívidas con solo un mensaje de texto.
El mes pasado, Elon Musk, el propietario de Twitter, dijo que estaba tomando medidas enérgicas contra el uso de la API de Twitter, que utilizan miles de empresas externas y desarrolladores independientes para rastrear los millones de conversaciones que ocurren en la web. Aunque no citó el LLM como el motivo del cambio, las nuevas tarifas podrían ascender a decenas o incluso cientos de miles de dólares.
Para seguir mejorando sus modelos, los fabricantes de IA necesitan dos cosas importantes: grandes cantidades de potencia informática y grandes cantidades de datos. Algunos de los mayores desarrolladores de IA tienen mucho poder de cómputo, pero aún buscan fuera de sus propias redes los datos que necesitan para mejorar sus algoritmos. Esto incluye fuentes como Wikipedia, millones de libros digitalizados, artículos académicos y Reddit.
Reddit ha tenido durante mucho tiempo una relación simbiótica con los motores de búsqueda de empresas como Google y Microsoft. Los motores de búsqueda “rastrean” las páginas web de Reddit para indexar información y ponerla a disposición de los resultados de búsqueda. Este rastreo o “raspado” no siempre es bienvenido en todos los sitios de Internet. Pero Reddit se beneficia de aparecer más alto en los resultados de búsqueda.
La dinámica es diferente con los LLM: ingieren la mayor cantidad de datos posible para crear nuevos sistemas de IA como chatbots.
Reddit cree que sus datos son particularmente valiosos porque se actualizan constantemente. Esta novedad y relevancia, dijo Huffman, es lo que necesitan los algoritmos para modelar lenguajes grandes para producir los mejores resultados.
“Más que cualquier otro lugar en Internet, Reddit es el hogar de conversaciones auténticas”, dijo Huffman. “Hay muchas cosas en el sitio que solo dirías en terapia, o AA, o nunca”.
El Sr. Huffman dijo que la API de Reddit seguirá siendo gratuita para los desarrolladores que quieran crear aplicaciones que ayuden a las personas a usar Reddit. Podrían usar las herramientas para construir un bot que rastree automáticamente si los comentarios de los usuarios se adhieren a las reglas del subreddit, por ejemplo. Los investigadores que quieran estudiar los datos de Reddit con fines académicos o no comerciales seguirán teniendo acceso gratuito a ellos.
Reddit también espera incorporar más aprendizaje automático en la forma en que funciona el sitio. Se puede usar, por ejemplo, para identificar el uso de texto generado por IA en Reddit y agregar una etiqueta que notifique a los usuarios que el comentario proviene de un bot.
La compañía también prometió mejorar las herramientas de software que pueden usar los moderadores, usuarios que ofrecen su tiempo voluntariamente para mantener los foros del sitio funcionando sin problemas y mejorar las conversaciones entre los usuarios. Y los bots de terceros que ayudan a los moderadores a monitorear los foros seguirán siendo compatibles.
Pero para los creadores de IA, es hora de pagar.
“Rastrear Reddit, generar valor y no devolver nada de ese valor a nuestros usuarios es algo con lo que tenemos un problema”, dijo Huffman. “Es un buen momento para ajustar las cosas”.
“Creemos que eso es justo”, agregó.