De eerste AI benchmark voor de Nederlandse praktijk!

Als je met AI taalmodellen aan de slag wilt heb je een enorme keus, zowel bij commerciële aanbieders als in zogeheten ‘open weights’ modellen. Je kunt modellen kiezen met een groot aantal parameters, die dus op heel veel data zijn getraind, of juist kleinere modellen die op minder zware hardware kunnen draaien. Er zijn modellen die specifiek getraind zijn om te kunnen vertalen, of om te programmeren, of om teksten te interpreteren, etc.

Er bestaan inmiddels diverse benchmarks die modellen testen op verschillende opdrachten en zo onderlinge prestaties vergelijkt. Standaard worden die benchmarks uitgevoerd in het Engels. Maar wij willen vooral weten hoe bruikbaar die modellen zijn in de dagelijkse, Nederlandse praktijk.

ITHAX presenteert (met enige trots) de eerste AI praktijk benchmark voor Nederlands! Dus hoe goed scoren de modellen op taal-interpretatie, in context learning, programmeren, vertalen en meer.De benchmark is gebaseerd op meer dan 35 vragen verdeeld over 9 categorieën. De vragen zijn een afspiegeling van wat wij bij onze klanten tegenkomen. Sommige modellen in de test claimen expliciet Nederlands te ondersteunen, anderen niet. Om een goed beeld te krijgen van de verhoudingen hebben we een dwarsdoorsnede gekozen van de nu beschikbare modellen, van klein tot groot en van open tot commercieel.

De resultaten laten we hieronder zien, waarbij we op basis van de score een suggestie voor het te gebruiken model geven, enerzijds voor commerciële modellen (groen) en anderzijds voor open modellen (blauw).

Deze benchmark is een levend document, wij zullen vanaf nu deze benchmark steeds bijwerken met nieuwe modellen en ook die resultaten publiceren. Wil je meer weten over deze benchmark en waarom we bepaalde suggesties doen? Of wil je graag andere modellen ook getest zien? Laat het vooral weten!

Heb je een vraag, verzoek of opmerking? Laat het weten!

Laat hieronder je gegevens achter, dan nemen we zo snel mogelijk contact met je op.

NL Benchmark

De eerste AI benchmark voor de Nederlandse praktijk!

Heb je een vraag, verzoek of opmerking? Laat het weten!

AI Componenten