Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
freem
Search
Search
Appearance
Create account
Log in
Personal tools
Create account
Log in
Pages for logged out editors
learn more
Contributions
Talk
Editing
Openai/69747865-1f8c-8006-b944-019c41b1784a
(section)
Add languages
Page
Discussion
English
Read
Edit
Edit source
View history
Tools
Tools
move to sidebar
hide
Actions
Read
Edit
Edit source
View history
General
What links here
Related changes
Special pages
Page information
Appearance
move to sidebar
hide
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
=== Assistant: 投稿全体で言っていることを、ポイントごとに噛み砕いて整理します。 === 投稿全体で言っていることを、ポイントごとに噛み砕いて整理します。 https_x_com_EpochAIResearch_sta… ==== 1) 何が「新記録」なのか ==== * Epoch AIが運用している数学ベンチマーク FrontierMath のうち、最難関側に位置づけられている Tier 4 で、GPT-5.2 Pro が 31%(15/48) を取った、という報告です。 * これまでの最高スコアは 19% だったので、かなり大きなジャンプだ、と強調しています。 ==== 2) どうやって評価したのか(「手動」評価の意味) ==== * ふつうはAPI+スキャフォールド(評価用の枠組み)で回すところ、API側でタイムアウト問題が出たため、今回は ChatGPTのWeb画面で人手で実行して採点した、という説明です。 * 「本当は自動化したいが、問題が解決するまでの暫定措置として手動でもやる価値があった」という立て付け。 ==== 3) 31%の内訳(“新規に解けた問題”が重要) ==== Tier 4は合計48問で、この投稿の数字は次の二段構えです。 ===== (A) 今回のGPT-5.2 Proの結果 ===== * 「これまでに“どのモデルでも”解けたことがあるTier 4問題」は 13問 しかなかった(= ほとんど未踏)。 * GPT-5.2 Proはそのうち 11問 を解けた。 * さらに、今までどのモデルも解けていなかった問題を新たに4問解いた。 → 合計 15/48 = 31%(これが新記録の中身) ===== (B) “pass@the-kitchen-sink” の更新 ===== * Tier 4で「歴代で解けたことがある問題(誰かがいつか解いた)」の集合は、今回の成果で 17問 になった。 * その“歴代解決集合”に対して、Tier 4は 17/48 = 35% が「一度は解かれたことがある」状態になった、と言っています。 ※ここは「GPT-5.2 Proが35%取った」という意味ではなく、Tier 4全体の“通算解決済み問題の割合”が35%まで増えたという指標。 ==== 4) 「過学習してない」の主張(ホールドアウトの切り分け) ==== この投稿の肝はここです。 * Tier 4の48問は、事情により 2つの集合に分かれている: - OpenAIが問題と解答に独占アクセスできる28問(= 非ホールドアウト) - Epochが非公開で保持する20問(ホールドアウト) * GPT-5.2 Proは - 非ホールドアウト:5/28 = 18% - ホールドアウト:10/20 = 50% * つまり「OpenAIが中身を知り得る側で強く、未知側で弱い」という 過学習っぽいパターンではなく、むしろ逆。 → “over-fitting(過学習)の証拠はない” と結論しています。 (ただし、ここは“証拠がない”という言い方で、統計的に厳密な証明というより「少なくとも疑う材料は見えない」程度のニュアンスです。) ==== 5) 採点・問題側の不具合修正(スコアの整合性の話) ==== * 評価中に 2問で採点・問題側の不具合を見つけた。 * 本来は複数モデルが「解けた」扱いになるべきだったので、修正して ハブ(スコアボード)を更新した、と言っています。 → ベンチマーク運用者としての「スコアの正しさ担保」のアピールでもあります。 ==== 6) 数学者コメントが示す「質」の話 ==== 単に点数だけでなく、解き方の質や限界が、数学者のコメントとして添えられています。 ===== Joel Hass(低次元トポロジー・幾何) ===== * 多項式で定義された曲面の幾何を認識して解いたのがすごい。 * さらに、同じ問題を 点群(point cloud)として提示した難しい定式化でも解けた。 * ただし手法は「既知の解を持つ曲面で近似→反復改善」で、一般には通用しないがこの問題ではうまくいった。 → “理解+発想”が出ている一方、万能ではないことも明示。 ===== Ken Ono(数論) ===== * 「必要な理論上のコツを理解し、計算も実行した。力任せではない」の評価は高い。 * ただし 文章による厳密な説明の詰めが甘いので、博士課程学生なら厳密性は 6/10 くらい。 → “数学的には当たっているが、証明としての書きぶりが弱い”という典型的な弱点。 ===== Dan Romik(数論) ===== * 何層も難しさを仕込んだが、すべて超えて正解した、とかなり高評価。 * ただし「有能な人間数学者なら可能な範囲」としつつ、専門家でも相当努力が要る難度だったことを強調。 → “人間上位層の作業にかなり寄ってきた”という含意。 ===== Jay Pantone(解析的組合せ論) ===== * 解答自体は妥当だが、意図していない数値的ショートカットで“最難所”を回避した。 → “正解は出すが、問題作成者が期待する構造的解法とは違う”というズレ。 ==== 7) 「何がまだ苦手か」の示唆(最後の一段) ==== 最後に、未解決のタイプとして: * “もっともらしい仮定を置いて先に進むが、その仮定を証明しない”ために誤る、という指摘。 * もし仮定を証明しに行けば、真実がもっと微妙であることに気づくはず、という趣旨。 → 要するに 「仮定の検証(証明)をサボらない」タイプの厳密さが、まだボトルネックになりがち、という示唆です。 ==== まとめ(この投稿のメッセージ) ==== * GPT-5.2 Proは FrontierMath Tier 4で 31%(15/48) を達成し、未踏だった問題を新たに複数解いた。 * さらに、OpenAIがアクセスできない ホールドアウト側でより強い結果が出ており、少なくとも 過学習っぽさは見えない。 * 一方で、数学者コメントからは - 問題によっては“発想”や“構造理解”が見える - ただし厳密な文章化や、意図された解法からのズレ(数値近道)など、まだ課題もある …という温度感が読み取れます。
Summary:
Please note that all contributions to freem are considered to be released under the Creative Commons Attribution-ShareAlike 4.0 (see
Freem:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)