← Tilbage til nyheder

Modeller

Google lancerer ny LLM, Gemini 3.5 Flash. Oplever skepsis

Stærke tal på Googles egne grafer. I AI-communityet er stemningen en anden, især efter Cursor udgav Composer 2.5.

Gemini 3.5 Flash annonceret på scenen ved et Google-keynote

Den 19. maj lancerede Google Gemini 3.5 Flash. Logan Kilpatrick (product lead for Google AI Studio og Gemini API hos Google DeepMind) kaldte den virksomhedens mest kapable Flash-model til dato, finjusteret over seks måneder til agent-workflows i praksis. Modellen rulles ud på tværs af Googles produkter nu. På scenen var budskabet enkelt: mere intelligens, mere hastighed, bedre pris.

Googles egne tal ser stærke ud. DeepMinds offentliggjorte eval-tabel placerer 3.5 Flash i front eller tæt på top på agentic benchmarks, multimodale opgaver og kodningstests som Terminal-Bench 2.1, tæt på GPT-5.5 og foran Claude Sonnet 4.6 på flere rækker.

Gemini 3.5 Flash benchmark-sammenligningstabel fra Google DeepMind
Google DeepMind-evals for Gemini 3.5 Flash. Kilde: deepmind.google/models/evals-methodology/gemini-3-5-flash/

Stemningen i AI-communityet var en anden. Dagen før havde Cursor udgivet Composer 2.5, og samtalen drejede sig hurtigt om, hvad modeller reelt leverer i kodningsarbejde, og hvad det koster. Benchmarks fortæller ikke hele historien. Da communityet selv havde prøvet Gemini 3.5 Flash, var billedet tydeligt: modellen ligger bagud i praksis. Det vækker undring, at en af verdens største virksomheder, med Googles forudsætninger inden for data, infrastruktur og fagligt talent, ikke helt kan konkurrere på samme niveau som de andre førende labs lige nu, især når Cursor samtidig lancerer en model, der performer langt bedre på de opgaver, udviklere faktisk måler.

Søjlediagram der sammenligner benchmark-score og pris pr. opgave for Composer 2.5 versus Gemini 3.5 Flash og andre frontier-modeller
Community-sammenligning (via @shiri_shh): Composer 2.5 på 63,2 % og ~0,55 $ pr. opgave versus Gemini 3.5 Flash på 49,8 % og ~1,94 $.

Community-grafen er ikke officielle Google-tal, men den rammer pointen. Composer 2.5 scorede højere på kodnings-evalen til omkring en tredjedel af prisen pr. opgave.

Kritikken gik dybere end ét diagram. Prominente profiler som Theo, tidligere ingeniør hos Twitch og medstifter af T3 Chat, pegede på, at Googles launch-materiale taler højt om hastighed og benchmarks, men siger mindre om, hvad modellen reelt koster at bruge. Prisen ligger omkring 1,50 $ pr. million input-tokens og 9 $ pr. million output, et stejl hop fra tidligere Flash-modeller. Reasoning Tokens kan opjustere regningen yderligere. I hans egen agentic test fejlede Gemini 3.5 Flash at omskrive et lille spil. GPT-5.5 klarede det, inklusive en 3D-version.

Google lancerede Gemini 3.5 Flash-modellen, der ser konkurrencedygtig ud i Googles egne benchmarks, men AI-communityet måler noget andet: verificerede tredjepartstests, pris pr. løst opgave og om koden kører. Set op mod Cursors Composer 2.5 er gapet svært at ignorere.

Læs mere

Flere nyheder du kan gå videre med

AI løser en 80 år gammel matematikgåde. OpenAI kalder det et gennembrudOpenAI annoncerer, at en intern resonneringsmodel har løst et gammelt matematikproblemElevenLabs lancerer Speech Engine: fra chat-agent til stemme-agentIllustration af stemme og AI-produktAndrej Karpathy skifter til AnthropicAndrej Karpathy taler ved siden af Anthropic-brandingCursor lancerer Composer 2.5Composer 2.5 launch-grafik fra Cursor