https://paddy.carvers.com/posts/2025/07/ai/ # I’m Tired of Talking About AI
https://malwaretech.com/2025/08/every-reason-why-i-hate-ai.html
tags : #area/watch #IA #compilation
source :
date : 2023-01-11
https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/#p3
New AI by Microsoft for text to speech which can simulate somebody's voice from just a 3s audio recording.
Since VALL-E could synthesize speech that maintains speaker identity, it may carry potential risks in misuse of the model, such as spoofing voice identification or impersonating a specific speaker. To mitigate such risks, it is possible to build a detection model to discriminate whether an audio clip was synthesized by VALL-E. We will also put Microsoft AI Principles into practice when further developing the models."
https://arstechnica.com/information-technology/2023/01/chatgpt-has-investors-drooling-but-can-it-bring-home-the-bacon/
Phil Libin, CEO of note-taking app Evernote from 2007 to 2015, says he is a big fan of AI but is wary of the current fever. “It’s going to take a huge amount of work to get these AI models to actually deliver with the promise that people think it’s going to,” he says.
Libin also sees tricky technical challenges ahead. One is that ChatGPT and other generative AI models are currently created by scraping content made by humans from the web, but are increasingly contributing to the text and images found online. “All of these models are about to shit all over their own training data,” he says. “We’re about to be flooded with a tsunami of bullshit.”
https://arstechnica.com/information-technology/2023/02/researchers-extract-training-images-from-stable-diffusion-but-its-difficult/
Some IA can generate images very similar if not identical to pictures in their training set > implies copyright and privacy problems
It is called memorization : on stable diffusion researchers found 0.03% of those matches,
researchers "suggested that AI model-makers should de-duplicate their data to reduce memorization. He also noted that Stable Diffusion's model is small relative to its training set, so larger diffusion models are likely to memorize more"
AI-based apps present two main concerns for security leaders:
1. Data Sharing via apps like ChatGPT: mployees may unintentionally share sensitive, business-critical information including customers PII and intellectual property like code
Samsung reported three different leaks of highly sensitive information by three employees that used ChatGPT for productivity purposes. One of the employees shared a confidential source code to check it for errors, another shared code for code optimization, and the third shared a recording of a meeting to convert into meeting notes for a presentation. All this information is now used by ChatGPT to train the AI models and can be shared across the web.
2. Unverified Generative-AI apps: Not all generative AI apps come from verified sources. Astrix's recent research reveals that employees are increasingly connecting these AI-based apps (that usually have high-privilege access) to core systems like GitHub, Salesforce and such - raising significant security concerns.
tags : #area/watch #asure #AI
source : https://techcommunity.microsoft.com/t5/microsoft-mechanics-blog/what-runs-chatgpt-inside-microsoft-s-ai-supercomputer-featuring/ba-p/3830281
date : 2023-05-29
utilisation de réseau infiniband :
deepspeed : fwk pour distributed machine learning training
for the OpenAI service, back in 2020 (donc assez vieux)
checkpoint régulier pour ne pas repartir de 0 en cas de pb : utilise Project Forge (pas encore dispo pour le grand public, travaille de manière transparente vis à vis du code (semble surveiller la charge GPU pour déterminer quand il peut intervenir))
tags : #area/watch
source : https://www.lemondeinformatique.fr/actualites/lire-chatgpt-un-potentiel-parasite-pour-l-ecosysteme-open-source-90559.html
date : 2023-07-03
Les LLM sont des parasites (de GitHub, de stackoverflow, de la littéraature)
Stack overflow (comme reddit) a demandé aux créateurs de LLM de payer
Par exemple, le trafic de Stack Overflow a diminué de 6 % en moyenne chaque mois depuis janvier 2022, et a chuté précipitamment de 13,9 % en mars 2023, comme le détaille Similarweb. Il est probablement trop simpliste de blâmer ChatGPT et d'autres outils pilotés par l'IA générative pour un tel déclin, mais il serait également naïf de penser qu'ils ne sont pas impliqués.
Copilot a été entrainé sur GitHub, GPT4 sur stack overflow à partir des questions posées avant 2021, si plus personne n'écrit sur stack overflow sur quoi entrainer GPT6 ?
Pour Matt Asay, chroniqueur pour nos confrères d'Infoworld, le monde de l’IT est en train de subir une transformation radicale. « Dans la technologie, nous sommes tous, en fin de compte, des parasites » affirme-t-il. Comme l'a dit le fondateur de Drupal, Dries Buytaert, il y a plusieurs années, nous sommes tous plus « récupérateurs » que « créateurs ». Le dirigeant faisait alors référence à une pratique courante dans les communautés open source : « Les preneurs ne contribuent pas de manière significative au projet open source dont ils s'inspirent, ce qui nuit aux projets dont ils dépendent. Même le plus ardent contributeur de l'open source prend plus qu'il ne contribue ». Cette même tendance parasitaire a joué pour Google, Facebook et Twitter - chacun dépendant du contenu des autres - et est sans doute encore plus vraie pour l'IA générative aujourd'hui.
Matt Asay est certain que l'histoire des parasites technologiques est antérieure à celle de l'open source. Dès les premiers jours de Linux ou de MySQL, des entreprises ont été créées pour tirer profit des contributions des autres, affirme-t-il. Plus récemment, dans le domaine de Linux, par exemple, Rocky linux et alma linux promettent toutes deux une « compatibilité bogue pour bogue » avec Red Hat Enterprise Linux (RHEL), tout en ne contribuant en rien au succès de Red hat. En effet, la conclusion naturelle du succès de ces deux clones de RHEL serait d'éliminer leur hôte, ce qui conduirait à leur propre disparition, raison pour laquelle une personne de l'espace Linux les a appelés les « dirtbags » de l'open source.
L'expression est peut-être trop imagée, mais on comprend clairement ce qu'elle veut dire. C'est la même critique qui a été faite à AWS (une critique de « strip-mining » qui perd de sa pertinence chaque jour) et qui a motivé un certain nombre de permutations de licences de sources fermées, de contorsions de business model et de discussions apparemment sans fin sur la durabilité de l'open source.
CEla pourrait être plus grave que ce que nous avons vu auparavant dans le domaine de l'open source. « Si ce schéma se reproduit ailleurs et que la direction de notre connaissance collective passe de l'extérieur vers l'humanité à l'intérieur vers la machine, alors nous dépendons d'elle d'une manière qui supplante toutes nos dépendances antérieures à l'égard de la machine », suggère Peter Nixey.Les enjeux sont considérables et ne se limitent pas aux énormes quantités d'argent qui continuent d'affluer vers l'IA. Nous devons également faire le point sur la valeur relative des informations générées par des services tels que ChatGPT rappelle Matt Asay. Stack Overflow, par exemple, a interdit les réponses dérivées de ChatGPT en décembre 2022 parce qu'elles étaient riches en texte et pauvres en informations.
Des outils comme ChatGPT ne sont pas conçus pour produire des informations correctes, mais simplement des informations probabilistes qui correspondent à des schémas dans les données.
Selon lui, « l’open source a connu ses guerres de licences, et il semble que nous soyons sur le point de vivre quelque chose de similaire dans le monde de l'IA générative, mais avec des conséquences plus importantes ».