Editing Openai/6954df4f-8108-8013-8152-3f6ade4423a7 (section)

===== ML.2:4 - Solution — что делаем и как это собрать =====

Идея в одной фразе: вместо того чтобы держать «мутацию» снаружи, мы делаем так, чтобы модель сама генерировала свои вариации и тем самым “училась быть эволюционируемой”.

====== 4.1. Архитектурный скелет ======

Берём Graph HyperNetwork (GHN) как генератор весов: он читает вычислительный граф целевой сети и выдаёт параметры для её узлов/операторов (то есть «инициализирует» или «собирает» веса под конкретную архитектуру). OpenReview<ref>{{cite web|title=OpenReview|url=https://openreview.net/pdf?id=rkgW0oA9FX|publisher=openreview.net|access-date=2026-01-02}}</ref>

Дальше добавляем самореференцию, как в Self‑Referential GHN:
* Детерминированная ветка генерирует веса policy‑сети (или вашей рабочей сети), по которым мы измеряем качество в среде. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref>
* Стохастическая ветка генерирует возмущение для копии самой GHN, т.е. создаёт «потомка». Это делается через предсказание параметров шума (например, σ для гаусса с нулевым средним), плюс вводится управляемая интенсивность мутаций на уровне узлов/блоков. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref>

Таким образом одна и та же сущность:
# порождает веса для политики (чтобы играть/управлять),
# порождает изменения своих же параметров (чтобы эволюционировать).

====== 4.2. Эволюционный цикл (минимально достаточный) ======

На уровне системы это выглядит как популяционный цикл:
# Инициализируем популяцию GHN-индивидов (разные веса). arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref>
# Каждый индивид: - генерирует policy‑веса детерминированно, - получает фитнес через прогоны в среде, - делает 1–N потомков: копия + добавление самосгенерированного возмущения. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref>
# Селекция: выбираем топ‑K по фитнесу (или более мягко: турнир/элитизм), получаем следующее поколение. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref>
# Ключевой эффект: популяция сама начинает регулировать «силу тряски» — в статье отмечено, что вариативность падает, когда найдено хорошее решение (эксплуатация), и остаётся выше на ранних этапах (поиск) без внешнего расписания. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref>

====== 4.3. Псевдокод (для закрепления) ======

<syntaxhighlight lang="text">P = init_population(N)               # популяция гиперсетей
for gen in 1..G:
  C = []                             # кандидаты (родители + потомки)
  for h in P:
    # 1) делаем потомков
    for i in 1..offspring_per_parent:
      child = copy(h)
      delta = h.stochastic_self_update(graph_of(h))   # шум/апдейты, сгенерированные самим h
      child.params += delta
      C.append(child)
    C.append(h)

  # 2) оцениваем всех
  for h in C:
    w_policy = h.det_generate(policy_graph)
    h.fitness = rollout(env, w_policy, seeds, episodes)

  # 3) селекция
  P = select_top_k(C, K)

</syntaxhighlight>

(Подробности про то, что именно предсказывается стохастической веткой и как устроена узло‑специфичная интенсивность мутации, см. описание в arXiv‑версии; в частности, используется генерация σ и масштабирование “mutation rate” на узлах. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref>)

====== 4.4. Инженерные правила сборки (то, что обычно ломает внедрение) ======
# Версионируйте среду и интерфейсы. Если “среда поменялась”, это должно быть выражено в конфиге/версии, иначе вы смешаете фитнесы из разных миров и селекция станет шумом.
# Делайте реплей и воспроизводимость. Логи: seed’ы, конфиги, распределение фитнеса, параметры шума/вариативности, идентификатор “чемпиона”, lineage (кто чей потомок).
# Ограничьте онлайн‑самоизменение в проде. Практика: адаптацию гонять в песочнице/канареечном контуре и «поднимать» нового чемпиона только после регрессионного набора тестов (см. чек‑лист ниже).
# Сразу проектируйте параллелизм. ES‑подходы масштабируются воркерами; Self‑Referential GHN тоже выигрывает от параллельной оценки популяции. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/abs/1703.03864|publisher=arxiv.org|access-date=2026-01-02}}</ref>