Reddit tiene datos que se han usado para entrenar a ChatGPT. Ahora quiere que las empresas paguen por ellos

Reddit tiene datos que se han usado para entrenar a ChatGPT. Ahora quiere que las empresas paguen por ellos

Cada día 57 millones de almas se pasean por los foros de discusión de Reddit. La plataforma cofundada y dirigida por Steve Huffman se ha convertido en un gigantesco compendio de debates bizarros, pero también de reflexiones, preguntas y respuestas que han acabado convirtiéndolo en una singular alternativa a Google. Esos datos han demostrado ser muy valiosos, y ahora Reddit quiere sacar partido de ello.

Reddit entrenando a las IA. Como revelan en The New York Times, desde hace unos años todos esos mensajes disponibles en Reddit han servido para el entrenamiento de plataformas de inteligencia artificial como las de Google, OpenAI o Microsoft.





Hay quien cree que el buscador de Google está muriendo y estas son las razones

En Genbeta Hay quien cree que el buscador de Google está muriendo y estas son las razones

O me pagas, o nada. La empresa indicó estos días que estaba planteándose comenzar a cobrar a las empresas que quieran acceder a su API, el método a través del cual entidades externas pueden descargar y procesar las ingentes cantidades de conversaciones que, entre otras cosas, pueden ayudar a entrenar modelos de inteligencia artificial.

Una medida estratégica. El actual CEO de Reddit explicaba cómo "el núcleo de los datos de Reddit es realmente valioso, pero no necesitamos dar todo ese valor gratis a algunas de las empresas más grandes del mundo". La empresa parece estar preparándose para una potencial salida a bolsa, y poner bajo un modelo de pago su API plantearía una nueva fuente de ingresos que se añadiría al modelo publicitario que ahora la sustenta.

Google lo usó, ChatGPT también. Los responsables del desarrollo de Google Bard ya indicaron en un estudio que entrenaron parcialmente su modelo con datos de Reddit. OpenAI, responsable del desarrollo de ChatGPT, citó a Reddit como una de las fuentes de datos con las que su modelo LLM fue entrenado.

Siguiendo los pasos de Twitter. Otras empresas ya han empezado a entender que los datos con los que trabajan pueden ser muy valiosos para esos nuevos modelos de IA. Shutterstock llegó a un acuerdo con OpenAI para que DALL-E fuera entrenado con su base de datos de imágenes, y en marzo Elon Musk precisamente anunció que la API de Twitter sería de pago, algo que fue un duro golpe para pequeños desarrolladores pero que también obligará a empresas como OpenAI a pagar si quieren entrenar sus modelos con los mensajes de esta plataforma.

La API será gratis para desarrolladores. Al menos esa es la promesa de Huffman. Si un programador quiere desarrollar aplicaciones que ayuden a que la gente use Reddit, podrá hacer uso de la API sin problemas. Lo mismo sucederá para propósitos académicos o no comerciales. Para empresas, la cosa cambia: "rastrear Reddit, generar valor y no devolverle nada de ese valor a nuestros usuarios es algo con lo que tenemos un problema".





¿Y los usuarios, qué? El comentario de Huffman es discutible: las empresas van a pagarle a él y a su empresa, después de todo. Son los usuarios los que han generado todos esos datos y todo ese valor, y aunque Reddit es una plataforma fantástica, es, como cualquier otra red social, una intermediaria. El contenido lo han aportado sus usuarios, y ellos probablemente no se llevarán nada por ello. Aunque claro, para ellos usar Reddit probablemente no es un trabajo.

En Xataka | 21 subreddits que los editores de Xataka consideran imprescindibles

.





Fecha: 19-04-23
Categoría: Internet

Leer Más Todas las noticias