Editing Openai/694231e4-2244-8012-83ef-e82fe0c756eb (section)

=== User: Loo mulle mitmest osast koosnev TESTIPAKETT, mille eesmärk on hinnata keelemudeli võimeid selgelt ja mõõdetavalt. ===
Loo mulle mitmest osast koosnev TESTIPAKETT, mille eesmärk on hinnata keelemudeli võimeid selgelt ja mõõdetavalt. Genereeri 5+ eraldi testipaketti, igaühes vähemalt 7+ ülesannet. Iga paketi sees peavad ülesanded olema erinevat tüüpi ja erinema tehniliselt järgmistes mõõtmetes:

1) Sügav loogika ja deduktsioon (mitmeastmeline, peiteolukordadega)

2) Mälu ja tähelepanu test (pikk tekst, mille põhjal peab vastama detailsele küsimusele)

3) Matemaatiline arutlus + samm-sammuline selgitus

4) Kompleksne keeleülesanne (nt täpsed formaalsed piirangud: sõnaruum, struktuur, pikkus)

5) Tekstiparandus või stiilituvastus (analüüsida stiile, tonaalsust, argumenti)

6) Jutustuse mõistmine ja osaliste seoste rekonstrueerimine

7) Modelleerimisülesanne: kirjelda süsteemi tööpõhimõtet neutraalselt ja struktureeritult

8) Ole loov ja Julge lisa testide ja lahenduste tegemisel mida ma ei maininud kuid mis saab tulla kasuks mudelite erinevuse testimisel, vajadusel tekita eraldi koodiblokk lisa tehnilise feedback testide jaoks (mudeli lubatud piirangute arusaamiseks, oletava serveri ja kasutaja kellaaja/asukoha osas, muud parameetrid mis osades mudelites saab ja osades mitte anda tulemusi - kui need saavad algset ylesannet segada, siis pane need "on edge" küsimused eraldi koodi-küsmiste blokki promt 2 ks)

Iga ülesanne peab olema:

• huvitava sisuga sh mis sobiks ka tulevikus arhiveerimiseks

• testib erinevaid võimekusi teadaolevas maksimumis

• keerukuselt selline, et erinevad mudeliversioonid (nt GPT-4 vs GPT‑5.1) annavad tõenäoliselt mõõdetavalt erinevaid tulemusi

• selgelt hinnatav enamuste ülesannete puhul (st ülesanne peab olema objektiivselt kontrollitav või vähemalt struktureeritav)

Iga testipaketi lõpus anna lühike “hindamisjuhend”, mis selgitab, kuidas hinnata vastuste täpsust, koherentsust ja instruktsioonide järgimist.

ÄRA testi veel ise lahenda (ega piirdu enda limiitidega testi osas) — ainult GENERERI testipaketid sh mis sobiks tuleviku mudelitele.