mboost-dp1
AI og penge
- Forside
- ⟨
- Forum
- ⟨
- Tagwall
https://www.datacenterdynamics.com/en/news/elon-mu...
Ifølge dette så har Tesla 35000 H100.
xAI lejer 16000 H100 fra OCI idag, men de overveje at købe 100000 H100.
Og de koster ca. 40 K$ stykket.
Det er mange penge når man ganger op.
Ifølge dette så har Tesla 35000 H100.
xAI lejer 16000 H100 fra OCI idag, men de overveje at købe 100000 H100.
Og de koster ca. 40 K$ stykket.
Det er mange penge når man ganger op.
#2
Jeg tror at LLM er en blindgyde for egentlig programmering.
Der er 2 måder at forbedre LLM på:
1) mere input at træne på
2) flere parametre at estimere
Men mig bekendt har man siden GPT 3 trænet på al tilgængelig kvalitetsmateriale. Tilføjer man junkmateriale til træningen så vil man forværre ikke forbedre resultaterne.
Med hensyn til antal parametre så vil min påstand være at den marginale forbedring falder altså at 1 million -> 10 millioner parametre giver stor forbedring, 1 milliard -> 10 milliarder parametre giver nogen forbedring og 1 billion -> 10 billioner parametre giver næsten ingen forbedring.
Modsat omkostningerne ved antal parametre. Omkostningerne for anvendelse af model er O(n). Men omkostningerne for estimering af model stiger mere end lineært. Det er tilsyneladende svært at bestemme kompleksisteten, men O(n^2) er nok minimum.
Så hvis en 10 dobling af parametre giver en 1-10% forbedring af resultaterne og en 100-1000 dobling af estimations omkostningerne, så render man ind i muren.
GPT 3 -> GPT 4 gik fra 175 milliarder til 1.75 billion parametre.
Jeg tror at LLM er en blindgyde for egentlig programmering.
Der er 2 måder at forbedre LLM på:
1) mere input at træne på
2) flere parametre at estimere
Men mig bekendt har man siden GPT 3 trænet på al tilgængelig kvalitetsmateriale. Tilføjer man junkmateriale til træningen så vil man forværre ikke forbedre resultaterne.
Med hensyn til antal parametre så vil min påstand være at den marginale forbedring falder altså at 1 million -> 10 millioner parametre giver stor forbedring, 1 milliard -> 10 milliarder parametre giver nogen forbedring og 1 billion -> 10 billioner parametre giver næsten ingen forbedring.
Modsat omkostningerne ved antal parametre. Omkostningerne for anvendelse af model er O(n). Men omkostningerne for estimering af model stiger mere end lineært. Det er tilsyneladende svært at bestemme kompleksisteten, men O(n^2) er nok minimum.
Så hvis en 10 dobling af parametre giver en 1-10% forbedring af resultaterne og en 100-1000 dobling af estimations omkostningerne, så render man ind i muren.
GPT 3 -> GPT 4 gik fra 175 milliarder til 1.75 billion parametre.
Nu forlyder det at xAI i.s.f. vil købe 300000 B200.
Med en forventet pris på 30 K$ så er det 9 B$ bare for AI kort.
https://www.datacenterdynamics.com/en/news/elon-mu...
Med en forventet pris på 30 K$ så er det 9 B$ bare for AI kort.
https://www.datacenterdynamics.com/en/news/elon-mu...
arne_v (4) skrev:Jeg tror at LLM er en blindgyde for egentlig programmering.
Det er jeg også ved at nå frem til. LLMer er virkeligt gode til at svare på spørgsmål og lave research, og til at producere noget eksempelkode, men de har bare ikke forstand og viden til at udvikle noget af betydning.
arne_v (4) skrev:Så hvis en 10 dobling af parametre giver en 1-10% forbedring af resultaterne og en 100-1000 dobling af estimations omkostningerne, så render man ind i muren.
GPT 3 -> GPT 4 gik fra 175 milliarder til 1.75 billion parametre.
Ja, GPT-4 er virkelig god til research, men stadig en fuldstændig håbløs udvikler.
arne_v (5) skrev:Nu forlyder det at xAI i.s.f. vil købe 300000 B200.
Med en forventet pris på 30 K$ så er det 9 B$ bare for AI kort.
https://www.datacenterdynamics.com/en/news/elon-mu...
Vildt. AI boom now. Bust forthcoming.
Ang. AI, computer science og udviklingsopgaver generelt. Jeg havde lidt af en chokerende oplevelse den anden dag. Hvordan laver man et Goertzel filter der arbejder på komplekse input data? Outputtet af et sådant filter ER et komplekst datapunkt, intet nyt der, men filteret kan også køres på komplekse input data, det siger teorien og mange kommentarer online siger at det skal man bare gøre, men jeg kunne simpelthen ikke finde noget kode der gør dette. Selv ikke GNU radio source har det, hvilket overrasker mig temmelig meget.
Afsted til chatGPT, som gav mig noget kode der så ret overbevisende ud, men det virkede bare ikke ordenligt. Så står man der. Har chatGPT forstand nok til at komme med den rigtige løsning, når der ikke er kode eksempler derude den har set? Jeg gætter på nej.
Så, hvis vi skal køre sådant et Goertzel filter er der kun "ring til matematik professoren" tilbage, eller selv at dykke ned i teorien og grave forlængst glemt matematik frem igen...
Afsted til chatGPT, som gav mig noget kode der så ret overbevisende ud, men det virkede bare ikke ordenligt. Så står man der. Har chatGPT forstand nok til at komme med den rigtige løsning, når der ikke er kode eksempler derude den har set? Jeg gætter på nej.
Så, hvis vi skal køre sådant et Goertzel filter er der kun "ring til matematik professoren" tilbage, eller selv at dykke ned i teorien og grave forlængst glemt matematik frem igen...
Hvordan laver man et Goertzel filter der arbejder på komplekse input data? Outputtet af et sådant filter ER et komplekst datapunkt, intet nyt der, men filteret kan også køres på komplekse input data, det siger teorien og mange kommentarer online siger at det skal man bare gøre, men jeg kunne simpelthen ikke finde noget kode der gør dette.
Jeg kender ikke den algoritme, men formentligt har kloge gerne på nettet ret.
Du ændrer data typen fra "real" til "kompleks" men bruger præcis samme kode.
Forudsætter at den anvendte teknologi har ordentlig support for "kompleks".
Eksempel:
C:\Work\Fortran>type algr.for
program algr
real*8 x0
real*8 f, rootfind
external f, rootfind
x0 = rootfind(f)
write(*,*) x0
end
c
real*8 function rootfind(f)
real*8 f
external f
real*8 eps, x, xprev
parameter (eps = 0.000000001d0)
x = 0.1d0
100 xprev = x
x = x - f(x) / ((f(x + eps) - f(x - eps)) / (2 * eps))
if(abs(x - xprev).gt.eps) goto 100
rootfind = x
end
c
real*8 function f(x)
real*8 x
f = x * x - 1
end
C:\Work\Fortran>gfortran algr.for -o algr.exe
C:\Work\Fortran>algr
1.0000000000000000
C:\Work\Fortran>type algc.for
program algc
complex*16 x0
complex*16 f1, f2, rootfind
external f1, f2, rootfind
x0 = rootfind(f1)
write(*,*) x0
x0 = rootfind(f2)
write(*,*) x0
end
c
complex*16 function rootfind(f)
complex*16 f
external f
real*8 epsr
complex*16 epsc, x, xprev
parameter (epsr = 0.000000001d0, epsc = (epsr,epsr))
x = (0.1d0,0.1d0)
100 xprev = x
x = x - f(x) / ((f(x + epsc) - f(x - epsc)) / (2 * epsc))
if(abs(x - xprev).gt.epsr) goto 100
rootfind = x
end
c
complex*16 function f1(x)
complex*16 x
f1 = x * x - 1
end
c
complex*16 function f2(x)
complex*16 x
f2 = x * x + 1
end
C:\Work\Fortran>gfortran algc.for -o algc.exe
C:\Work\Fortran>algc
(1.0000000000000000,-3.51631589726496665E-019)
(-3.51631589726496665E-019,1.0000000000000000)
Jeg har ændret data typen fra real8 til complex*16 og jeg har skiftet fra en eps til to epsr og epsc, men selve algoritmen (Newton) er den samme.
larsp (7) skrev:arne_v (5) skrev:Nu forlyder det at xAI i.s.f. vil købe 300000 B200.
Med en forventet pris på 30 K$ så er det 9 B$ bare for AI kort.
https://www.datacenterdynamics.com/en/news/elon-mu...
Vildt. AI boom now. Bust forthcoming.
Nvidia market cap er steget med ca. 1 T$ efter at AI hype gik igang.
Hvis AI bliver et bust så vil der forsvinde mange hundrede B$ der.
Opret dig som bruger i dag
Det er gratis, og du binder dig ikke til noget.
Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.