Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

keepthepace_@jlai.lu · 4 months ago

Trump et Bolsonaro ont été virés mais ils ont tenté de garder le pouvoir par la force. Attendez vous à du bordel si l'ED passe en France.

keepthepace_@jlai.lu · 4 months ago

Y a un temps pour se disputer sur l'odeur de poisson et y a un temps pour mettre des baffes aux Romains!

keepthepace_@jlai.lu · 6 months ago

Le droit d’auteur francais il dit : tout ce qui n’est pas prévus par la loi et/ou qui est réalisé sans consentement de l’auteur est interdit. C’est pas flou du tout. C’est flou seulement si le but est de jouer au con.

Bah si c'est flou. C'est prévu par la loi de pouvoir regarder une oeuvre et de s'en inspirer. C'est interdit d'en faire une oeuvre dérivée. Miyazaki a eu le droit de regarder Le Roi et l'Oiseau et de s'en inspirer pour ses oeuvres aériennes et oniriques. Un auteur n'a heureusement pas le droit de t'interdire de nourrir ton imaginaire avec ses oeuvres.

Tu as également le droit de faire des stats sur le nombre d'apparition de Haddock dans Tintin. De faire des analyses de la colorimétrie, des apparitions de mots, etc. et c'est pas considéré comme une oeuvre dérivée et l'auteur ne peut l'interdire. Un modèle de génération d'images fait ça à l'échelle au dessus, en faisant des stats au niveau du coup de crayon. On peut arguer qu'il est d'un coté ou de l'autre de la ligne. C'est pas jouer au con: la loi est totalement floue là dessus.

Les problèmes de l’Open source rapido : absence d’historicité, sans obligation de paternité on ne sait pas qui a fais quoi. On ne sort pas les oeuvres du système capitaliste (qui se conjugue en l’occurrence très bien avec ton anarchie communisme) grâce a l’absence de clause share alike. Enfin sans auteur, plus de responsabilité de l’auteur sur son oeuvre (argument du “c’est la communauté qui veut ça hein”). L’Open source c’est libertaire et libertarien, anar ok, communiste : sûrement pas!

Euh... quoi?

Historicité: les projets open source publient généralement tout l'historique de leur développement. Tu peux littéralement dire qui a écrit quelle ligne d'un projet. Dans le dernier auquel j'ai contribué je devais même signer cryptographiquement chaque commit. C'est le seul endroit à ma connaissance où ça marche comme ça! Aucun éditeur de boite privée ne te donnera un tel détail.
Les clauses "share alike" ça a été inventé par le mouvement open source. Les licences GPL à l'origine, que perso je préfère aux licences BSD et Apache qui permettent de fermer le produit plus tard. Un soft sous la GPL, si, il est largement sorti du système capitaliste car il ne peut plus devenir un "produit de propriété intellectuelle". Il peut être utile à une boite capitaliste, principalement parce que ça diminue leurs coûts, mais l'écosystème open source existe en dehors ou en parallèle du capitalisme
Le fait que l'on possède collectivement les moyens de production logiciel, j'ai la faiblesse de penser que c'est pas mal communiste si. C'est pas anti-capitaliste en soi, c'est un modèle post-capitaliste, non-capitaliste, qui pour beaucoup de monde semble être l'état stable logique de n'importe quelle tech: ouverte, possédable par tout le monde.

L’Open source et le mouvement libriste ne peuvent exister sans les législations actuelles sur la PI, ces mouvements s’appuient directement dessus même. C’est pas une opposition, ce sont des usages que permettent les lois.

Oui, parce que l'open source est un mouvement né de l'opposition à la propriété intellectuelle et qui a décidé de combattre cette dernière par la subversion. La plupart des libristes seraient heureux qu'on retire toute propriété intellectuelle à tous les programmes. Tu n'imagines pas à quel point l'informatique serait différente si on avait le droit de s'échanger des binaires propriétaires sans être accusés de piratage. À quel point on pourrait facilement rendre plein de systèmes plus compatibles et secure.

L'open-source est un pis-aller, un compromis auquel nous a forcé la propriété intellectuelle.

Les techs devraient comprendre que la société évolue plus lentement sur ses sujets et qu’elle a besoins d’un minimum de recul sur les pratiques pour créer de la législation. Dans le même temps les boites techs devraient suivrent les lois. C’est plus clair ? J’ai pas eu l’impression de faire des amalgames pourtant…

C'est quoi "les techs"?

Et sur le web, y a 30 ans de "recul sur les usages" sans qu'on ait remis à plat le copyright (qui a beaucoup plus d'influence à l'échelle mondiale que le droit d'auteur). La législation est allée dans le sens des boites qui avaient les moyens de violer la loi parce qu'in fine le législateur a été incapable de comprendre que streaming et download sont la même chose. Cette semi-liberté a été conquise en démontrant des usages qui ont demandé à ignorer la loi. C'est ça le problème. "Obéissez à la loi mais démontrez les usages que d'autres lois pourraient permettre" est une contradiction et c'est pourtant comme ça que ça a évolué.

Alors je suis d'accord que c'est nul, que la loi devrait comprendre et protéger les usages qui vont dans l'intérêt du plus grand nombre, mais ni en France, ni aux US ça ne marche comme ça. C'est de la défense des intérêts de ceux qui crient le plus fort, avec un fort bonus au conservatisme quand les choses sont trop compliquées.

Les nouveaux usages, on doit les démontrer en marge des lois. La génération d'image en est un bon exemple: si tout le monde prenait ton acceptation de "ne faisons surtout rien qui puisse être considéré un jour illégal", personne ne prendrait aux sérieux la possibilité de génération d'images de qualité professionnelle. Le débat ne se poserait jamais et la techno n'aurait jamais émergé.

C'est un problème sérieux, et les deux seules positions semblent être "interdisons tout" et "ignorons les lois". J'aimerais bien qu'on réinstalle un peu le dialogue entre ces deux positions extrémistes qui n'ont pas l'air de comprendre ce que l'autre fait.

keepthepace_@jlai.lu · 6 months ago

Le risque est à relativiser: beaucoup de routeurs ont UPnP pour forwarder les ports à la demande, justement parce que plein de jeux ou outils demandent ça.

Surtout si le réseau héberge des machines sous linux, lesquelles ont fréquemment un serveur SSH actif par défaut

Il y a beaucoup de distribs qui installent le serveur SSH sans te le demander explicitement? Et perso les dernières Ubuntu m'ont surprises en installant in firewall additionnel par défaut, ufw, bien chiant quand t'es pas au courant.

keepthepace_@jlai.lu · 6 months ago

Exactement.

keepthepace_@jlai.lu · 6 months ago

Content que tu le prennes bien, j'ai trouvé ma réponse d'hier un peu agressive, désolé!

Le truc c’est que non la loi ne l’autorise pas.

Depuis que j'ai lu le jugement de Google contre la guilde des auteurs, où un juge donne à Google un blanc seing à clairement violer la loi (reproduire des pages de bouquins sans autorisation des auteurs) j'ai compris que la loi, elle est davantage dite par les juges que par le législateur. Si Facebook fait des trucs illégaux en France derrière des portes fermées aux US, l'interdire ne va handicaper que les efforts ouverts.

Et je pense que quand on voit les dérives de l’Open source, notamment le fait que ce système permet aux gafam de s’enrichir grassement, on peut se demander qui du droit d’auteur français ou de l’Open source a le plus de problèmes vis-à-vis d’internet et du numérique.

Quelles dérives? L'open source est la seule raison qui a permis d'éviter les futurs les plus dystopiques en ligne, qui a permis à internet de continuer à être relativement libre (si si, les GAFAM sont tous optionnels, c'était pas gagné) et c'est encore en majorité sur des projets open source qu'internet se base. Les combats sont toujours en cours sur plein de champs de bataille. C'est un peu perdu sur les téléphone, sur l'IA on est en train de gagner mais faut pas vendre la peau de l'ours prématurément.

Je ne vois pas de quelle dérive tu parles? L'open source fait économiser de l'argent à tout le monde, c'est une tellement bonne idée que plein de boites privées s'y sont mises. C'est pas une dérive, c'est une volonté de base. C'est un projet qui est encore, dans son essence, anarcho-communiste (lien vers un post+commentaire qui explique ça plus en détails) Que des turbo-capitalistes y participent sans aucune concession de notre part et "donnent" des contributions est une victoire totale, pas une compromission ou une dérive.

Le droit d'auteur (en général, pas spécifiquement le français) est ce qui a permis à notamment Google et Youtube de vendre un système centralisé comme essentiel à tout. Pendant longtemps on a eu un système très supérieur à Youtube pour voir des vidéos en ligne: P2P+VLC et j'arguerais que c'est encore une combo supérieure en terme de contenus. Ce sont les ayant droits qui ont rendu ce système illégal alors que non commercial, volontaire, non-capitaliste.

Le web différent, il a été rendu illégal. La tech est là et toutes les libs derrière elle sont open source.

Et pour le coup forcer a respecter les lois en vigueur ça serait un bon début. Et oui même quand c’est chiant.

Les lois en vigueur sont si floues et mal définies qu'on ne sait toujours pas si les poids d'un modèle sont copyrightable ou si c'est un produit dérivé des oeuvres vues à l'entrainement. Y a des arguments dans les deux sens, la loi ne le dit pas, et le premier jugement rendu dépendra de la rhétorique des avocats et de ce que je juge aura mangé à midi. Et des usages en vigueur, qui sont un argument fort: c'est un noeud gordien: l'usage deviendra légal s'il est répandu. J'exagère pas, on en est là. On a des exhortations à respecter une loi dont la lettre est floue et dont l'esprit est bafoué par ceux qui nous demandent de faire la chose soit-disant morale.

Faut faire gaffe avec la posture du “les vraies auteurs blablabla” contre les méchants ayant-droit rentiers.

Tu admettras qu'il y a quand même une différence fondamentale entre des auteurs qui ont produit leurs œuvres et les gens qui en ont hérité parfois sans avoir même connu l'auteur. Dune, Tintin, Lord of the Ring, Ambre, et j'en passe sont des franchises mutilées par des héritiers alors qu'elles se porteraient mieux dans les mains de leurs fans. Il suffit de voir l'explosion de créativité autour des univers de Lovecraft ou de Conan Doyle quand ils sont tombés dans le domaine public pour voir que le droit d'auteur ampute la culture.

Je veux bien entendre les intérêts des créateurs de leur vivant (et encore, le copyright original c'était 21 ans après la première publication), mais je dois t'avouer que pirater du Tintin ou du Brel, j'ai du mal à voir ça comme immoral.

"Publier" veut dire "Mettre entre les mains du public", c'est donner à l'oeuvre une liberté de participer à la construction de l'imaginaire collectif et de la culture. J'ai l'impression que cette composante du contrat social est un peu trop souvent oubliée.

Mais ce qui est la réalité c’est que l’évolution social ne suit pas l’évolution tech. Les techs forcent la mains depuis 30ans, mais il y a 30ans on nous promettait un web bien différents de celui qu’on a. A qui la faute? Principalement a des boites tech

Alors je lutte beaucoup contre cette tendance à faire de "la tech" et des "boites techs" des synonymes. Ça invisibilise toute la partie non-capitaliste de la tech, tout l'open source, et tous les activistes numériques qui crient dans le vide depuis des décennies mais qu'on est bien content de trouver quand une partie pratique du web se merdifie.

L'évolution sociale, oui, elle suit et boit les paroles des grosses boites et ignore la voix de la "tech", la vraie, celle des devs, ingés et des chercheurs qui la font. Je ne sais pas qui accuser en priorité, je trouve que les journalistes ont un grand rôle, mais j'ai aussi décidé que c'était aussi à moi de parler sur un mode un peu plus politique, un peu plus culturel, des sujets ouverts qui me tiennent à coeur quand j'entends trop de mensonges ou d'idées fausses à leur encontre.

keepthepace_@jlai.lu · edit-2 6 months ago

...en France. Juridiction qui est hors sujet pour 99% des boites d'IA, y compris françaises. Je veux dire, en droit français, pendant longtemps (jusqu'aux années 2010 je crois), il n'était même pas sur que du code compilé soit copyrightable, un algo ne l'était pas et son implémentation en code ne l'était que via des hacks légaux qu'un refactoring de base pouvait faire sauter. Le droit moral d'auteur a moyen de rendre tout l'open source bancal en France. Et pourtant...

La théorie légale, surtout sur un truc aussi mal branlé que la « propriété intellectuelle » dans le cade de collaboration internationale, avec des usages qui changent du tout au tout d'une année sur l'autre, c'est plus de la philosophie que des règles qui ont un impact réel.

Ce qui va compter comme ailleurs c'est les jugements de tribunaux US. Et entre le fair use et les compilations de faits, et surtout les millions que peuvent mettre les boties d'IA en frais d'avocats, je pense qu'ils ont une bonne chance de n'avoir aucun problème. La loi devrait pas être un jeu de hasard sur 15 ans, mais c'est ce que c'est. Quand Google a scanné pour Google Books des millions de bouquins sans autorisation et mis des extraits en ligne ils ont gagné leur procès. Alors que bon, c'est clairement une violation, en théorie.

C’est con ces gens qui veulent pas qu’on fasse n’imp avec leur travaux hein ?

Ce qui est surtout con c'est que les lois actuelles l'autorisent justement. Par exemple un site comme deviantart a été utilisé pour du training et les auteurs ont découvert que l'EULA qu'ils avaient "signé" l'autorisait. Les auteurs croient que ces lois les protègent mais je pense qu'on les trompe avec ça. Le contrat social autour du copyright et du droit d'auteur doit franchement être remis à plat.

Je n'aime pas la sauce qui monte d'opposer les ingés et les artistes. C'est contre-productif. Les artistes ne comprennent pas comment leurs oeuvres sont utilisées et ont des raisons légitimes de s'inquiéter et de critiquer ces technos, mais la propriété intellectuelle c'est un angle particulièrement mauvais et perdant pour eux.

Il faut une législation globale sur les dataset pour entraîné les IA, pas uniquement pour permettre de respecter les volontés des auteurs, mais aussi pour pas que la techno devienne nimp’.

Ce sera possible quand on saura définir "nimp". Et c'est pas avec les législateurs actuels qu'on peut s'attendre à des règles intelligentes et mesurées. J'aimerais aussi qu'on parle vraiment de la volonté des auteurs, plutôt que des lobbys d'ayant-droits. Ces derniers, on sait bien ce qu'ils veulent: que chaque visionnage d'une oeuvre soit payante et sans droits associés et que toute oeuvre produire par une personne ayant vu leur oeuvre leur rapporte quelque chose. C'est pas des créateurs, c'est des rentier. La culture c'est pas ça, ça se fait en tenant compte aussi de la volonté du public. Et les modèles de génération de média y ont un rôle à jouer, mais c'est pas dans ce débat légal empli de faux-semblants et d'intérêts privés qu'on va inventer la culture de demain.

keepthepace_@jlai.lu · 6 months ago

Ça a du sens mais comme ça ma première impression c'est que c'est une mauvaise idée de forcer à générer tout l'échiquier en une prompt. Arrivé à la dernière ligne, tu ne sais pas s'il avait en tête toutes les cases ou s'il se base sur ce qui a été généré pour déduire le reste.

keepthepace_@jlai.lu · 6 months ago

C'est une manie américaine :-)

Ah mais un lobbyiste fait ça pour l'argent, là on parle de quelqu'un qui fait ça pour la bonne cause et par foi! Mais si tu préfères on peut appeler ça de l'agit-prop!

keepthepace_@jlai.lu · 6 months ago

Alors à vérifier avec un mathématicien si je ne fais pas un anglicisme. Comme à son habitude sur les sujets mathématiques la wikipédia française est inutilement pédante et alambiquée, et dit que c'est un usage abusif du terme sans dire comment ça devrait s'appeler.

keepthepace_@jlai.lu · 6 months ago

Est ce qu'il y a un domaine qui fait battre ton coeur sur lequel on peut récupérer des données facilement?

Note qu'aujourd'hui avec des LLMs, même des données textuelles sont relativement faciles à analyser.

keepthepace_@jlai.lu · 6 months ago

"IA" est un terme vague qui peut englober presque n'importe quel algorithme, donc un vendeur va tout le temps te dire qu'il y a de l'IA dans son aspirateur dés qu'il y a le moindre capteur.

Les aspirateurs automatiques vont du truc très simple qui fait de la spirale et tourne à gauche en cas de collision à des choses plus élaborées qui font une carte de leur environnement. Je ne pense pas qu'ils aient besoin de deep learning pour ça, j'imagine qu'il y a déjà suffisamment à faire en piochant juste dans les algos connus de SLAM

keepthepace_@jlai.lu · 6 months ago

ALOHA, mon projet préféré.

keepthepace_@jlai.lu · edit-2 6 months ago

Le droit d'auteur est déjà pas adapté à Internet, y a aucun moyen qu'il ne soit pas largué vis à vis de l'IA. J'essaye de pas trop suivre, sachant que de toutes façons ils vont nous emmerder avec des jugements perchés et sans aucune logique. Quelques éléments:

Une cour US a reconnu que les images générées par des IAs n'étaient pas copyrightable, ce qui vaut sûrement (mais je ne suis pas avocat) pour tout contenu généré. Les artistes pensent que c'est une victoire, je pense que c'est super positif pour l'open source, je pense qu'ils vont surement revenir en arrière là dessus tellement ça emmerde des boites privées.
Les artistes ne sont pas contents qu'on entraîne des IAs sur leurs images. Ça a l'air d'être légal pourtant. Je ne pense pas que légalement on puisse arguer que les images produites sont des produits dérivés. Y a des précédents à arguer, mais je ne suis toujours pas avocat. Moralement, je les comprends, mais je dois avouer que j'ai assez peu d'empathie pour les ayants droits qui pourrissent le net depuis les années 90 avec la lettre de la loi pour ne pas juste répondre "cheh" quand ça les emmerde. Ça fait 30 ans qu'on demande une réforme du copyright qui tienne compte des utilisations libres et non commerciales, quand vous avez envie, on en parle, mais on remet tout à plat.
Une chose emmerdante pour la communauté open source est que même si on est dans une zone grise ("surement légale mais on le saura dans 15 ans quand les recours seront épuisés") en ce qui concerne l'utilisation d'oeuvres privée: les boites privées le font derrière des portes fermées donc personne leur dit rien, mais la communauté doit assembler un dataset forcément public d'oeuvres qu'elle n'ont pas le droit de diffuser. The Pile, qui je soupçonne est utilisée par tout le monde n'est disponible que sous forme de torrent pirate. C'est chiant. Ils ont essayé d'arguer que c'est pas vraiment utilisable pour relire des oeuvres vu que c'est juste des bouts de phrases découpées dans tous les sens, mais c'est clairement une oeuvre dérivée pas diffusable.

Pour conclure, je dirais qu'en 2024, la logique du copyright est complètement obsolète et inapplicable. Ils vont tenter de juger des trucs mais c'est tellement dépendant des juges et des avocats et de l'état US dans lequel le premier jugement va être rendu, que c'est inutile de tenter de prédire où la limite de la loi va être.

C'est super chiant, on est dans une zone grise qui va durer des années, mais on peut pas vraiment attendre après un législateur dépassé et soumis aux lobbyistes pour donner des lignes claires avant qu'il soit trop tard.

keepthepace_@jlai.lu · 6 months ago

Je suis pas bon à ça... /r/machinelearning pour la théorie, /r/locallama pour la pratique, malheureusement les équivalents Lemmy sont déserts et j'ai pas la motivation de les faire vivre. Suivre des chercheurs IAs et robotique est la seule raison pour laquelle je suis encore sur Twitter, j'ai nettoyé ma tweet list de tout le reste. Pas très complet, mais si ça t'intéresse voila les gens que je suis: https://twitter.com/ktp_programming/following

keepthepace_@jlai.lu · 6 months ago

Les modèles utilisés sont contraints par deux choses: les GPUs sont très optimisés pour les multiplications matricielles, et la fonction produite par ton modèle doit être dérivable vis à vis de tous ses paramètres.

En fait dans les modèles actuels, on ne pense pas en terme de neurones, mais plutôt de couches. Tu as une couche de neurones suivie d'une couche d'attention, suivie d'une couche de convolution, à laquelle tu ajoutes les entrées, etc.

On est très influencés par les opérations optimisées pour GPU, donc on va plutôt penser en terme de matrices. Deux couches de N neurones se suivant et où chaque neurone est connectée à tous ceux de la couche de N neurones suivante, c'est un "fully-connected layer" ou un perceptron. Ça s'exprime sous forme d'une matrice de poids: tu mets tes entrées sous forme de vecteur, tu multiplies par la matrice de poids et tu as généralement une "non linéarité", c'est à dire une fonction de type RELU ajoutée après la multiplication.

L'autre façon de voir un modèle est de dire que ce que tu veux est une fonction continue prenant un vecteur de dimension N_i en entrée et N_o en sortie et dérivable selon chacun de ses millions de paramètres (typiquement, les paramètres sont les poids des synapses du réseau de neurones).

On parle vraiment peu de neurones. Les devs proches de l'optimisation parlent en terme de matrices, ceux proches de la théorie mathématique en terme de fonction, et un bon modèle doit prendre les deux points de vue en considération.

Tu peux tout à fait imaginer un modèle plus proche des neurones biologiques, mais avec ces deux contraintes: fonction continue et dérivable par rapport à chaque paramètre, et si tu veux que ce soit rapide, maximum de calcul parallèle sous forme de matrices (de tenseurs en fait, qui est le petit nom des matrices de dimension supérieure à 2)

keepthepace_@jlai.lu · 6 months ago

J'ai eu peur qu'on ne me parle que d'environnement (tl;dr: l'impact de ces techs est pas énorme et indirect) j'ai été déçu, mais je m'y attendais, qu'on ne parle pas beaucoup de la société post-travail.

keepthepace_@jlai.lu · 6 months ago

Alors dans un sens pas vraiment, parce que ça reste un sujet principalement technique mais perso j'aimerais bien trouver un moyen parce que c'est un sujet qui dépasse la technique et qui a une composante politique à laquelle les utilisateurs doivent être associés. Je pense que faire de la traduction ou de la vulgarisation sous un angle qui promeut plus l'open source que les solutions des boites privées, ça ne demande pas un bagage technique super important, mais c'est une mission cruciale aussi!

Il faut quand même comprendre au moins superficiellement ce que ces modèles font et comment on les utilise, mais ça demande pas une thèse de math.

En open source on appelle ça un rôle d'évangélisateur: une sorte de power user qui sait faire le lien entre devs et utilisateurs.

keepthepace_@jlai.lu · 7 months ago

Alors la théorie je l'ai beaucoup faite via des articles de blog de type <notion> explained. "Layer normalization explained", "BERT explained". Il y a quelques publis qui sont intéressantes à lire mais sur les technos qui ont plus d'un an, une bonne explication sur un blog aidera à aller au but et ajoutera en plus des infos sur l'utilisation actuelle de cette tech.

Les choses à comprendre:

La descente de gradient, c'est la base de tout
Le perceptron multicouche, le layer le plus simple
Le rôle des optimizers
Les différentes "couches":
- Full connected layer (c'est la même chose qu'un perceptron)
- Convolution
- Softmax (techniquement une fonction d'activation mais elle est importante)
- Normalisation
- Dropout
- Attention
- Maxpool (ça s'utilise encore ça?)
Dans les LLMs, comprendre les tokenizers
Dans la génération de media, comprendre les modèles de diffusion et les GAN

Ah, et tu croiseras probablement des bayesiens à un moment dans cette exploration. Ils vont te parler de "priors" de fonction de distribution, tout exprimer sous forme de proba... Je blague un peu en disant que c'est une secte à part, mais c'est principalement une différence de vocabulaire: ils voient tout sous le prisme de la théorie bayesienne que (personnellement) je trouve qu'il font rentrer au chausse-pied en compliquant des notions simples. Mais je le dis pas trop fort, ça vire souvent à la guerre de religion sinon :-)

keepthepace_@jlai.lu · 7 months ago

Ce qui t'intéresse le plus! Tu peux assembler un petit classifier et l'entrainer from scratch, fine-tuner un petit modèle existant ou bien juste utiliser des modèles.

MNIST, un classifieur d'images 24x24 de chiffres écrits à la main, est un bon exercice de départ.

Charger un modèle pré-entrainé et aller examiner ses représentations latentes est aussi rigolo.

keepthepace_@jlai.lu · 7 months ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA