Vana prévoit de permettre aux utilisateurs de louer leurs données Reddit pour former l'IA

Dans le boom de l'IA générative, les données sont le nouveau pétrole. Alors pourquoi ne pourriez-vous pas vendre les vôtres ?

Des grandes entreprises de la technologie aux startups, les fabricants d'IA achètent des livres électroniques, des images, des vidéos, de l'audio et plus encore auprès de courtiers en données, le tout dans le but de former des produits alimentés par une IA plus capable (et plus défendables juridiquement). Shutterstock a conclu des accords avec Meta, Google, Amazon et Apple pour fournir des millions d'images pour l'entraînement de modèles, tandis qu'OpenAI a signé des accords avec plusieurs organismes de presse pour former ses modèles sur les archives de nouvelles.

Dans de nombreux cas, les créateurs et propriétaires individuels de ces données n'ont pas vu un centime de l'argent qui change de mains. Une startup appelée Vana veut changer cela.

Anna Kazlauskas et Art Abal, qui se sont rencontrés dans un cours au MIT Media Lab axé sur la construction de technologies pour les marchés émergents, ont co-fondé Vana en 2021. Avant Vana, Kazlauskas a étudié l'informatique et l'économie au MIT, quittant finalement pour lancer une startup d'automatisation financière, Iambiq, chez Y Combinator. Abal, avocat d'entreprise de formation et d'éducation, était associé au The Cadmus Group, un cabinet de consultation basé à Boston, avant de diriger l'approvisionnement à impact chez Appen, une société d'annotation de données.

Avec Vana, Kazlauskas et Abal se sont fixé pour objectif de construire une plateforme qui permet aux utilisateurs de "regrouper" leurs données, y compris des chats, des enregistrements audio et des photos, dans des ensembles de données pouvant être utilisés pour l'entraînement de modèles d'IA générative. Ils veulent également créer des expériences plus personnalisées - par exemple, des messages vocaux de motivation quotidiens basés sur vos objectifs de bien-être, ou une application de génération d'art qui comprend vos préférences de style - en affinant les modèles publics sur ces données.

"L'infrastructure de Vana crée en fait un trésor de données appartenant aux utilisateurs," a déclaré Kazlauskas à TechCrunch. "Elle le fait en permettant aux utilisateurs d'agréger leurs données personnelles de manière non dépositaire ... Vana permet aux utilisateurs de posséder des modèles d'IA et d'utiliser leurs données à travers des applications d'IA."

Voici comment Vana présente sa plateforme et son API aux développeurs :

L'API de Vana connecte les données personnelles cross-plateformes d'un utilisateur ... pour vous permettre de personnaliser votre application. Votre application gagne un accès instantané au modèle d'IA personnalisé d'un utilisateur ou aux données sous-jacentes, simplifiant l'intégration et éliminant les préoccupations concernant les coûts de calcul. ... Nous pensons que les utilisateurs devraient pouvoir apporter leurs données personnelles depuis des jardins clos, comme Instagram, Facebook et Google, à votre application, afin que vous puissiez créer des expériences personnalisées incroyables dès la première interaction d'un utilisateur avec votre application d'IA grand public.

Créer un compte avec Vana est assez simple. Après avoir confirmé votre e-mail, vous pouvez attacher des données à un avatar numérique (par exemple, des selfies, une description de vous-même et des enregistrements vocaux) et explorer les applications construites à l'aide de la plateforme et des ensembles de données de Vana. La sélection d'applications va des chatbots de style ChatGPT et des livres d'histoires interactifs à un générateur de profil Hinge.

Crédits d'image : Vana

Maintenant, vous pourriez vous demander - en cette époque de sensibilisation accrue à la protection des données et d'attaques de rançongiciel - pourquoi quelqu'un accepterait de fournir ses informations personnelles à une startup anonyme, sans parler d'une soutenue par des investisseurs en capital-risque ? (Vana a levé 20 millions de dollars à ce jour auprès de Paradigm, Polychain Capital et d'autres investisseurs.) Une entreprise motivée par le profit peut-elle vraiment être de confiance pour ne pas abuser ou manipuler les données monnayables qu'elle obtient ?

Crédits d'image : Vana

En réponse à cette question, Kazlauskas a souligné que l'objectif de Vana est que les utilisateurs "reprennent le contrôle de leurs données", notant que les utilisateurs de Vana ont la possibilité d'héberger eux-mêmes leurs données plutôt que de les stocker sur les serveurs de Vana et de contrôler la manière dont leurs données sont partagées avec les applications et les développeurs. Elle a également affirmé que, parce que Vana gagne de l'argent en facturant des utilisateurs un abonnement mensuel (à partir de 3,99 $) et en prélevant des frais de "transaction de données" aux développeurs (par exemple, pour le transfert d'ensembles de données pour l'entraînement de modèles d'IA), l'entreprise n'a aucun intérêt à exploiter les utilisateurs et les trésors de données personnelles qu'ils apportent avec eux.

"Nous voulons créer des modèles détenus et régis par les utilisateurs qui contribuent tous à leurs données," a déclaré Kazlauskas, "et permettre aux utilisateurs d'apporter leurs données et modèles avec eux à n'importe quelle application."

Maintenant, tandis que Vana ne vend pas les données des utilisateurs à des entreprises pour l'entraînement de modèles d'IA générative (du moins c'est ce qu'elle affirme), elle souhaite permettre aux utilisateurs de le faire eux-mêmes s'ils le souhaitent - à commencer par leurs publications sur Reddit.

Ce mois-ci, Vana a lancé ce qu'elle appelle le Reddit Data DAO (Digital Autonomous Organization), un programme qui regroupe les données Reddit de plusieurs utilisateurs (y compris leur karma et leur historique de publication) et leur permet de décider ensemble de l'utilisation de ces données combinées. Après avoir rejoint un compte Reddit, soumis une demande à Reddit pour leurs données et téléversé ces données dans le DAO, les utilisateurs acquièrent le droit de voter aux côtés d'autres membres du DAO sur des décisions telles que l'octroi de licences des données combinées à des entreprises d'IA générative pour un profit partagé.

Nous avons calculé les chiffres et r/datadao est maintenant le DAO de données le plus grand de l'histoire : la phase 1 a accueilli 141 000 utilisateurs Reddit avec 21 000 téléversements de données complets.

— r/datadao (@rdatadao) 11 avril 2024

C'est en quelque sorte une réponse aux récents mouvements de Reddit pour commercialiser les données de sa plateforme.

Reddit ne limitait pas auparavant l'accès aux publications et aux communautés à des fins d'entraînement d'IA générative. Mais il a changé de cap fin de l'année dernière, avant son introduction en bourse. Depuis le changement de politique, Reddit a engrangé plus de 203 millions de dollars de redevances de licence auprès d'entreprises, dont Google.

"L'idée générale [avec le DAO] est de libérer les données utilisateur des grandes plateformes qui cherchent à les accaparer et à les monétiser," a déclaré Kazlauskas. "C'est une première et fait partie de notre volonté d'aider les gens à regrouper leurs données dans des ensembles de données détenus par l'utilisateur pour l'entraînement de modèles d'IA."

Sans surprise, Reddit - qui ne travaille pas officiellement avec Vana - n'est pas ravi du DAO.

Reddit a interdit le sous-reddit de Vana dédié à la discussion sur le DAO. Et un porte-parole de Reddit a accusé Vana d'"exploiter" son système d'exportation de données, conçu pour se conformer aux réglementations en matière de protection des données telles que le RGPD et le California Consumer Privacy Act.

"Nos arrangements en matière de données nous permettent de mettre des garde-fous sur de telles entités, même sur des informations publiques," a déclaré le porte-parole à TechCrunch. "Reddit ne partage pas de données non publiques et personnelles avec des entreprises commerciales, et lorsque les redditors demandent un export de leurs données chez nous, ils reçoivent en retour des données personnelles non publiques de notre part conformément aux lois applicables. Les partenariats directs entre Reddit et des organisations vérifiées, avec des termes clairs et une responsabilité, sont importants, et ces partenariats et accords empêchent toute utilisation abusive et tout abus des données des personnes."

Mais Reddit a-t-il vraiment une raison de s'inquiéter ?

Kazlauskas imagine que le DAO pourrait grandir au point d'avoir un impact sur le montant que Reddit pourrait facturer à ses clients pour ses données. C'est loin d'être le cas, en supposant que cela arrive un jour ; le DAO compte un peu plus de 141 000 membres, une infime fraction des 73 millions d'utilisateurs de Reddit. Et certains de ces membres pourraient être des bots ou des comptes dupliqués.

Il y a aussi la question de savoir comment distribuer équitablement les paiements que le DAO pourrait recevoir des acheteurs de données.

Actuellement, le DAO attribue des "jetons" - des cryptomonnaies - aux utilisateurs correspondant à leur karma Reddit. Mais le karma pourrait ne pas être la meilleure mesure des contributions de qualité à l'ensemble de données - notamment dans les petites communautés Reddit avec moins d'opportunités de le gagner.

Kazlauskas évoque l'idée que les membres du DAO pourraient choisir de partager leurs données cross-plateformes et démographiques, ce qui rendrait le DAO potentiellement plus précieux et inciterait les inscriptions. Mais cela exigerait également des utilisateurs qu'ils accordent encore plus de confiance à Vana pour traiter leurs données sensibles de manière responsable.

Personnellement, je ne vois pas le DAO de Vana atteindre une masse critique. Les obstacles sur le chemin sont bien trop nombreux. Cependant, je pense que ce ne sera pas la dernière tentative de la base pour imposer un contrôle sur les données de plus en plus utilisées pour entraîner des modèles d'IA générative.

Des startups comme Spawning travaillent sur des moyens permettant aux créateurs d'imposer des règles guidant l'utilisation de leurs données pour l'entraînement, tandis que des fournisseurs tels que Getty Images, Shutterstock et Adobe continuent d'expérimenter des systèmes de compensation. Mais personne n'a encore trouvé la solution. Est-ce même possible ? Compte tenu de la nature impitoyable de l'industrie de l'IA générative, c'est certainement un défi de taille. Mais peut-être que quelqu'un trouvera un moyen - ou les décideurs forceront la main.