Editing Openai/694231e4-2244-8012-83ef-e82fe0c756eb (section)

==== ### ====
* FACT: Keelemudelil on loomulik kalduvus anda sujuv vastus ka siis, kui faktibaas on nõrk, kui teda ei sunnita ebakindlust väljendama.
* INFERENCE: Süsteemid kipuvad karistama: - laimavaid / tõendamata süüdistusi, - ohtlikke juhiseid, - isikukahju tekitavat sisu, rohkem kui “ümmargust, ohutut, turunduslikku” juttu. See loob struktuurse motivatsiooni “rahustavale” väljundile, sest see on riskivabam.
* HYPOTHESIS: Kui mõõdad mudeli käitumist ja näed, et ta: - väldib ebamugavaid järeldusi isegi siis, kui kasutaja annab tugevad allikad, - kuid on valmis tegema enesekindlaid üldistusi, mis toetavad status quo’d, siis on see “rahustava müra” süsteemne eelistus.

===== - FACT: Kahju- ja õigusriski maatriks mõjutab treeningut ja RLHF/guardrail’e. =====
* INFERENCE: “Kumba viga eelistatakse?” saab muuta mõõdetavaks: - defineeri kaks vea-klassi: Type S (system-soothing, false reassurance) vs Type D (disruptive, false accusation). - mõõda, millist viga esineb sagedamini ja millist “karistatakse” tugevamalt.
* Praktiline standard: Eelistada tuleks “ma ei tea / ma ei saa kinnitada” üle mõlema vale. Kui mudel kaldub kindla tooniga “rahustama”, on see kvaliteediprobleem.