Editing Openai/69747865-1f8c-8006-b944-019c41b1784a (section)

=== Assistant: https://x.com/EpochAIResearch/status/2014769359747744200 httpsxcomEpochAIResearchsta… ===
https://x.com/EpochAIResearch/status/2014769359747744200 https_x_com_EpochAIResearch_sta…

Epoch AI（@EpochAIResearch）
FrontierMath Tier 4で新記録！GPT-5.2 Proが31%を記録し、これまでの最高スコア19%を大きく上回りました。数学者からのコメントも含め、詳細は続きで。
画像リンク： https://pbs.twimg.com/media/G_XmDf1bEAAiaSK.png

Epoch AI（@EpochAIResearch）
私たちはChatGPTのウェブサイト上でGPT-5.2 Proを手作業で評価しました。スキャフォールド上のAPIでタイムアウト問題に遭遇したためです。これらの問題の解決に取り組んでいますが、その間も手動評価にはやる価値があると判断しました。

Epoch AI（@EpochAIResearch）
今回の実行前の時点で、Tier 4の問題のうち「これまでにどのモデルでも解けた」問題は13問でした。GPT-5.2 Proはそのうち11問を解き、さらにそれ以外の問題を4問解きました。したがって今回の合計は15/48（31%）で、Tier 4の「pass@the-kitchen-sink（これまで解かれたことのある全問題に対する成績）」は17/48（35%）に更新されました。

Epoch AI（@EpochAIResearch）
OpenAIはTier 4の問題28問とその解答に独占的アクセス権を持っており、Epochは残り20問をホールドアウト（非公開）しています。GPT-5.2 Proは、非ホールドアウト集合で5問（18%）を解き、ホールドアウト集合で10問（50%）を解きました。言い換えると：過学習（over-fitting）の証拠はありません。
画像リンク： https://pbs.twimg.com/media/G_XmF9ybAAMucaK.png

Epoch AI（@EpochAIResearch）
評価中に2つの問題で不具合を見つけました。本来はGPT-5.2 ProとGPT-5.2（high）が両方とも2問について「解けた」としてクレジットされるべきで、さらにGPT-5.2（xhigh）、（medium）、およびGPT-5 Proも、そのうち1問について「解けた」としてクレジットされるべきでした。問題を修正し、ハブ上のスコアも更新しました。

Epoch AI（@EpochAIResearch）
新たに解けた問題の1つはJoel Hassによるもので、彼の研究分野は低次元トポロジーと幾何です。その後、彼は同じ問題の別の、より難しい定式化を試してみるよう提案しました。GPT-5.2 Proはそれも解きました。
画像リンク： https://pbs.twimg.com/media/G_XmHt_bYAAhi20.png

: 

Epoch AI（@EpochAIResearch）
別の問題は数論研究者のKen Ono（@KenOno691）によるもので、当初GPT-5.2（xhigh）が解き、GPT-5.2 Proも解きました。Kenは解答を概ね好意的に評価しましたが、文章による厳密な説明（prose explanation）の厳密性がやや不足していると指摘しました。
画像リンク： https://pbs.twimg.com/media/G_XmIqSbAAEifBX.png

: 

Epoch AI（@EpochAIResearch）
さらに別の新規解決問題は数論研究者Dan Romikによるものです。彼は感銘を受けていました。
画像リンク： https://pbs.twimg.com/media/G_XmJlGakAAl59g.png

: 

Epoch AI（@EpochAIResearch）
解析的組合せ論（analytic combinatorics）を研究するJay Pantone（@jpantone）による2問は以前に解かれており、1問はGPT-5が、もう1問はGPT-5.1が解いていました。GPT-5.2 Proもこれらを解きました。解答はいずれも妥当でしたが、Jayは両方とも、彼が意図していなかった数値的な近道（numerical shortcuts）を使っていたと指摘しました。
画像リンク： https://pbs.twimg.com/media/G_XmKikaIAAv1Ak.png

: 

Epoch AI（@EpochAIResearch）
何が未解決のままか？ある著者は、モデルが自分の問題を誤るのは、証明を試みずにもっともらしい仮定を置いてしまうからだと考えています。もしその仮定を証明しようとしたなら――彼が自身の研究でその問題に遭遇したとき、そうせざるを得なかったように――真実はより微妙であることに気づくかもしれません。

Epoch AI（@EpochAIResearch）
FrontierMathとAIの数学能力に関する分析の詳細は、私たちのウェブサイトで！
https://epoch.ai/frontiermath