Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
freem
Search
Search
Appearance
Create account
Log in
Personal tools
Create account
Log in
Pages for logged out editors
learn more
Contributions
Talk
Editing
Openai/6954df4f-8108-8013-8152-3f6ade4423a7
(section)
Add languages
Page
Discussion
English
Read
Edit
Edit source
View history
Tools
Tools
move to sidebar
hide
Actions
Read
Edit
Edit source
View history
General
What links here
Related changes
Special pages
Page information
Appearance
move to sidebar
hide
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
== gpt-5-2-pro == === User: Сделай по следующему тексту паттерн ML.2 по шаблону из E.8, пиши для инженеров и добавь дидактичность в стиле написани… === Сделай по следующему тексту паттерн ML.2 по шаблону из E.8, пиши для инженеров и добавь дидактичность в стиле написания, пиши по-русски. Учти E.TGA и OEE для понимания, но не повторяй их положений в паттерне, используй обычный язык инженеров, а не лексику FPF. Вот текст со ссылками на технологию: Hypernetworks That Evolve Themselves Joachim Winther Pedersen, Erwan Plantec, Eleni Nisioti, Marcello Barylli, Milton Montero, Kathrin Korte, Sebastian Risi Статья: https://arxiv.org/abs/2512.16406 Код: https://github.com/Joachm/self-referential_GHNs Ревью: https://arxiviq.substack.com/p/hypernetworks-that-evolve-themselves === TL;DR === ЧТО сделали: Авторы предложили Self-Referential Graph HyperNetworks (GHNs) — класс нейросетей, способных генерировать параметры не только для решения задачи (policy), но и для создания собственного потомства. Встроив механизм стохастической вариации прямо в архитектуру, система интернализировала эволюционные операторы (мутацию и наследование), которые обычно находятся во внешних алгоритмах. ПОЧЕМУ это важно: Это структурный сдвиг от парадигмы «оптимизации фиксированной модели» к «моделям, которые оптимизируют сами себя». Подход показал превосходную адаптацию в нестационарных средах (где правила игры меняются на лету), обойдя традиционные стратегии вроде CMA-ES или OpenES. Работа доказывает, что «evolvability» (способность к эволюции) — это навык, который можно выучить в зависимости от контекста, а не фиксированная эвристика. Подробнее: https://t.me/gonzo_ML_podcasts/1895 === Assistant: ML.2 - Самореферентная GHN: встроенная «эволюция» для быстрой адаптации в меняющейся среде === ==== ML.2 - Самореферентная GHN: встроенная «эволюция» для быстрой адаптации в меняющейся среде ==== Type: ML / neuroevolution / архитектурный паттерн Status: Draft ===== ML.2:1 - Problem frame — где это применимо на практике ===== Вы строите систему, которая должна продолжать работать, когда среда меняется: динамика, правила, инверсия управления, смена сенсоров/актуаторов, внезапный сдвиг распределения. При этом: * Градиенты либо недоступны, либо бесполезны (чёрный ящик, недифференцируемые компоненты, дискретные решения, симулятор как «API»). * Перетренировать модель «с нуля» долго, а надо “откатываться” к хорошему поведению за считанные итерации/поколения. * Вы готовы платить параллельными прогонками (много воркеров, короткие эпизоды/батчи), но хотите экономить на внутреннем обучении каждого кандидата. Типовой пример из статьи — RL-бенчмарки с резкими сдвигами (CartPoleSwitch, LunarLander-Switch) и локомоция (Ant‑v5), где показана адаптация популяции после смены условий. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/abs/2512.16406|publisher=arxiv.org|access-date=2026-01-02}}</ref> ===== ML.2:2 - Problem — почему «внешняя эволюция» часто не дотягивает ===== Классические эволюционные стратегии и генетические алгоритмы обычно устроены так: есть оптимизатор (внешний код мутации/наследования/селекции) и есть оптимизируемая модель. Проблемы в инженерном смысле: # Мутация слепая к структуре модели. Часто это «гауссов шум по всем весам» с глобальным шагом — без понимания, какие части архитектуры критичны, а какие можно «трясти» сильнее. ArXivIQ<ref>{{cite web|title=ArXivIQ|url=https://arxiviq.substack.com/p/hypernetworks-that-evolve-themselves|publisher=arxiviq.substack.com|access-date=2026-01-02}}</ref> # Шаг мутации приходится тюнить извне. После смены среды/правил оптимизатору нужно время «переобучить» ковариацию/шаг, и вы ловите провал качества. ArXivIQ<ref>{{cite web|title=ArXivIQ|url=https://arxiviq.substack.com/p/hypernetworks-that-evolve-themselves|publisher=arxiviq.substack.com|access-date=2026-01-02}}</ref> # Сложно встроить в продуктовый контур. Внешний оптимизатор живёт отдельным компонентом со своим состоянием, эвристиками и версиями; тяжело обеспечивать воспроизводимость, откат и понятный контроль рисков. ===== ML.2:3 - Forces — компромиссы, которые нужно удерживать ===== | Сила | Напряжение (что конфликтует) | | --------------------------------- | ------------------------------------------------------------------------ | | Скорость адаптации | Быстро “встать на ноги” после сдвига ↔ не разрушить то, что уже работало | | Исследование vs эксплуатация | Сильнее «трясти» модель ↔ удерживать стабильное качество | | Стоимость оценок | Больше эпизодов/прогонов ↔ меньше времени и денег | | Шум в фитнесе | Реальная метрика нестабильна ↔ селекция требует надёжного сигнала | | Управляемость релизов | Онлайн-адаптация ↔ требования к safety/rollback/аудиту | | Структурная осмысленность мутаций | Учитывать граф/архитектуру ↔ усложнять реализацию | ===== ML.2:4 - Solution — что делаем и как это собрать ===== Идея в одной фразе: вместо того чтобы держать «мутацию» снаружи, мы делаем так, чтобы модель сама генерировала свои вариации и тем самым “училась быть эволюционируемой”. ====== 4.1. Архитектурный скелет ====== Берём Graph HyperNetwork (GHN) как генератор весов: он читает вычислительный граф целевой сети и выдаёт параметры для её узлов/операторов (то есть «инициализирует» или «собирает» веса под конкретную архитектуру). OpenReview<ref>{{cite web|title=OpenReview|url=https://openreview.net/pdf?id=rkgW0oA9FX|publisher=openreview.net|access-date=2026-01-02}}</ref> Дальше добавляем самореференцию, как в Self‑Referential GHN: * Детерминированная ветка генерирует веса policy‑сети (или вашей рабочей сети), по которым мы измеряем качество в среде. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref> * Стохастическая ветка генерирует возмущение для копии самой GHN, т.е. создаёт «потомка». Это делается через предсказание параметров шума (например, σ для гаусса с нулевым средним), плюс вводится управляемая интенсивность мутаций на уровне узлов/блоков. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref> Таким образом одна и та же сущность: # порождает веса для политики (чтобы играть/управлять), # порождает изменения своих же параметров (чтобы эволюционировать). ====== 4.2. Эволюционный цикл (минимально достаточный) ====== На уровне системы это выглядит как популяционный цикл: # Инициализируем популяцию GHN-индивидов (разные веса). arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref> # Каждый индивид: - генерирует policy‑веса детерминированно, - получает фитнес через прогоны в среде, - делает 1–N потомков: копия + добавление самосгенерированного возмущения. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref> # Селекция: выбираем топ‑K по фитнесу (или более мягко: турнир/элитизм), получаем следующее поколение. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref> # Ключевой эффект: популяция сама начинает регулировать «силу тряски» — в статье отмечено, что вариативность падает, когда найдено хорошее решение (эксплуатация), и остаётся выше на ранних этапах (поиск) без внешнего расписания. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref> ====== 4.3. Псевдокод (для закрепления) ====== <syntaxhighlight lang="text">P = init_population(N) # популяция гиперсетей for gen in 1..G: C = [] # кандидаты (родители + потомки) for h in P: # 1) делаем потомков for i in 1..offspring_per_parent: child = copy(h) delta = h.stochastic_self_update(graph_of(h)) # шум/апдейты, сгенерированные самим h child.params += delta C.append(child) C.append(h) # 2) оцениваем всех for h in C: w_policy = h.det_generate(policy_graph) h.fitness = rollout(env, w_policy, seeds, episodes) # 3) селекция P = select_top_k(C, K) </syntaxhighlight> (Подробности про то, что именно предсказывается стохастической веткой и как устроена узло‑специфичная интенсивность мутации, см. описание в arXiv‑версии; в частности, используется генерация σ и масштабирование “mutation rate” на узлах. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref>) ====== 4.4. Инженерные правила сборки (то, что обычно ломает внедрение) ====== # Версионируйте среду и интерфейсы. Если “среда поменялась”, это должно быть выражено в конфиге/версии, иначе вы смешаете фитнесы из разных миров и селекция станет шумом. # Делайте реплей и воспроизводимость. Логи: seed’ы, конфиги, распределение фитнеса, параметры шума/вариативности, идентификатор “чемпиона”, lineage (кто чей потомок). # Ограничьте онлайн‑самоизменение в проде. Практика: адаптацию гонять в песочнице/канареечном контуре и «поднимать» нового чемпиона только после регрессионного набора тестов (см. чек‑лист ниже). # Сразу проектируйте параллелизм. ES‑подходы масштабируются воркерами; Self‑Referential GHN тоже выигрывает от параллельной оценки популяции. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/abs/1703.03864|publisher=arxiv.org|access-date=2026-01-02}}</ref> ===== ML.2:5 - Archetypal Grounding — два примера, чтобы “схватить” идею ===== Суть (Tell): мы превращаем «оператор мутации» из внешней эвристики в часть модели. Тогда селекция начинает оптимизировать не только поведение в задаче, но и способ изменения самой модели под контекст. Пример как система (Show #1): Представьте контроллер для робота/дрона/манипулятора, у которого периодически меняются условия: нагрузка, трение, задержки, инверсия оси управления (условно “перепутали полярность”). Вам нужна схема, которая: * быстро перестраивает управление без дифференцирования по физике, * умеет «снизить хаос», когда снова стало стабильно, * не требует ручного тюнинга шага мутации под каждый сценарий. Self‑Referential GHN как раз демонстрируется на задачах с резкими переключениями условий, где популяция восстанавливает качество за несколько поколений. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref> Пример как эпистема/метод (Show #2): Вы строите AutoML/контур оптимизации, где вместо фиксированного “оптимизатора гиперпараметров” хотите, чтобы система сама выучила стратегию исследования (когда агрессивно искать, когда стабилизироваться). Это родственно: * learned optimizers (оптимизатор как обучаемая модель), arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/abs/1606.04474|publisher=arxiv.org|access-date=2026-01-02}}</ref> * популяционным схемам, которые учат расписания гиперпараметров (PBT), arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/abs/1711.09846|publisher=arxiv.org|access-date=2026-01-02}}</ref> * и open‑ended подходам, где важен перенос решений между меняющимися задачами (POET). arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/abs/1901.01753|publisher=arxiv.org|access-date=2026-01-02}}</ref> Разница тут в том, что «правила вариативности» кодируются внутри самой гиперсети и подпадают под отбор. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref> ===== ML.2:6 - Bias-Annotation — где вас может обмануть результат ===== * Байас бенчмарков: “Switch‑среды” могут быть проще реальных сдвигов (в реальности часто медленный дрейф + редкие скачки). arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref> * Байас вычислительного бюджета: если у вас меньше воркеров/эпизодов, селекция становится шумной, «саморегуляция вариативности» может не проявиться. * Байас по seed’ам: эволюционные методы чувствительны к шуму оценок; без мультисидов и усреднения вы будете видеть “ложные чемпионы”. * Байас индуктивной структуры: графовое представление архитектуры задаёт, где именно модель может «умно» дифференцировать мутации; при плохом граф‑энкодинге получите почти случайный поиск. OpenReview<ref>{{cite web|title=OpenReview|url=https://openreview.net/pdf?id=rkgW0oA9FX|publisher=openreview.net|access-date=2026-01-02}}</ref> ===== ML.2:7 - Conformance Checklist — что должно быть выполнено ===== # Определён контракт среды: что считается «сменой условий», какие параметры среды/симулятора логируются и сравниваются. # Есть воспроизводимость оценки: фиксируем seed’ы, набор эпизодов/сценариев, версию среды, версии кода/модели. # Фитнес устойчив: используете либо несколько эпизодов на индивида, либо повторную оценку для топ‑кандидатов (re‑eval), либо бутстрэп/медиану. # Явно ограничена вариативность: есть верхние границы на шум/дельты, есть аварийный “стоп” при деградации. # Разделены контуры: (а) поиск/адаптация, (б) промоутинг в эксплуатацию. В релиз попадает только проверенный «чемпион». # Линейдж и откат: вы можете ответить “из каких родителей получился этот кандидат” и быстро откатиться на стабильного предка. # Мониторинг популяции: трекаете распределение фитнеса и показатель “разброса” (вариативности) — иначе вы не заметите коллапс в один клон. # Параллелизм не меняет смысл: увеличение воркеров должно давать ускорение, а не менять поведение из-за гонок/асинхронных багов (особенно если делаете асинхронную селекцию). ===== ML.2:8 - Common Anti-Patterns That Break It — типовые способы сломать паттерн ===== * “Запустим эволюцию прямо в проде без предохранителей.” Итог: дрейф качества, необъяснимые регрессии, невозможность расследования. * Оценка на одном эпизоде. Шум доминирует, селекция выбирает lucky‑run. * Смешивание разных конфигов среды в одной популяции. Фитнесы становятся несравнимы → вы отбираете мусор. * Внешний фиксированный шаг мутации “поверх” саморегуляции. Вы забиваете сигнал отбора: модель не может “научиться трястись” в нужные моменты. * Никакого учёта структуры. Если вы подали неверный граф или упростили до “вектор весов”, вы возвращаетесь к слепому шуму, теряя главную идею GHN. OpenReview<ref>{{cite web|title=OpenReview|url=https://openreview.net/pdf?id=rkgW0oA9FX|publisher=openreview.net|access-date=2026-01-02}}</ref> * Нет чётких ограничений по бюджету. Эволюция легко «съедает» весь compute, если не поставить лимиты на поколения/эпизоды/воркеры. ===== ML.2:9 - Consequences — что получите и чем заплатите ===== Что выигрываете: * Быстрая адаптация к нестационарности (показано на Switch‑задачах). arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref> * Производная не нужна: можно оптимизировать недифференцируемые элементы, дискретные архитектуры, “симулятор как чёрный ящик”. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref> * Самонастройка интенсивности поиска: вариативность может снижаться, когда найдено хорошее семейство решений, и снова расти при необходимости — без внешнего расписания. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/html/2512.16406v1|publisher=arxiv.org|access-date=2026-01-02}}</ref> Цена/риски: * Высокая стоимость оценок: это всё равно популяционный метод; выгоден при хорошей параллелизации. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/abs/1703.03864|publisher=arxiv.org|access-date=2026-01-02}}</ref> * Сложнее дебажить: у вас одновременно эволюционирует “как действовать” и “как изменяться”. * Риск неконтролируемого дрейфа, если не построить guardrails (лимиты, тесты, промоутинг через гейт). * Инженерная сложность граф‑представления и корректного соответствия “узлы ↔ параметры”. ===== ML.2:10 - Rationale — почему механизм даёт эффект ===== В классической схеме вы фиксируете оператор мутации/наследования и оптимизируете только поведение модели. Здесь вы делаете шаг в сторону “оптимизировать оптимизатор”: способность менять себя становится частью модели и попадает под отбор — ровно то, что давно делается в learned optimizers, но в другом форм‑факторе. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/abs/1606.04474|publisher=arxiv.org|access-date=2026-01-02}}</ref> Дополнительный усилитель — графовая осмысленность: GHN видит структуру архитектуры, поэтому вариативность можно распределять по узлам/блокам, а не шуметь равномерно по всему вектору весов. OpenReview<ref>{{cite web|title=OpenReview|url=https://openreview.net/pdf?id=rkgW0oA9FX|publisher=openreview.net|access-date=2026-01-02}}</ref> ===== ML.2:11 - SoTA-Echoing — связь с современной линией работ (2016+) ===== * Graph HyperNetworks (2018): GHN как быстрый генератор весов по вычислительному графу, изначально для удешевления NAS. ML.2 использует тот же “graph‑aware weight generation”, но замыкает петлю на саму гиперсеть. OpenReview<ref>{{cite web|title=OpenReview|url=https://openreview.net/pdf?id=rkgW0oA9FX|publisher=openreview.net|access-date=2026-01-02}}</ref> * Evolution Strategies в RL (2017): масштабируемая производно‑свободная оптимизация, хорошо ложится на параллельные воркеры. ML.2 остаётся в этой семье, но делает вариативность эндогенной (встроенной). arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/abs/1703.03864|publisher=arxiv.org|access-date=2026-01-02}}</ref> * CMA‑ES (tutorial 2016) как представитель “умных” внешних стратегий; в обзоре к статье подчёркивается сравнение с CMA‑ES/OpenES на нестационарности. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/abs/1604.00772|publisher=arxiv.org|access-date=2026-01-02}}</ref> * Population Based Training (2017): популяция + автоматическое расписание гиперпараметров. ML.2 похож духом (популяция как механизм адаптации), но переносит “расписание” на уровень самой модели (через само‑мутацию). arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/abs/1711.09846|publisher=arxiv.org|access-date=2026-01-02}}</ref> * Self‑reference линия (2018–2024): Neural Network Quine (2018), SRWM (2022), SeRANN (2024) — разные способы сделать модель самореферентной/самоизменяющейся. ML.2 добавляет масштабируемость через GHN‑подход и убирает градиентные апдейты из самого эволюционного цикла. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/abs/1803.05859|publisher=arxiv.org|access-date=2026-01-02}}</ref> * POET (2019): акцент на смене задач и переносе решений. ML.2 логично комбинируется с такими постановками, потому что показывает сильную сторону именно в нестационарных режимах. arXiv<ref>{{cite web|title=arXiv|url=https://arxiv.org/abs/1901.01753|publisher=arxiv.org|access-date=2026-01-02}}</ref> * Контекст по гиперсетям в целом: обзорные работы по hypernetworks (2024). Springer Link<ref>{{cite web|title=Springer Link|url=https://link.springer.com/article/10.1007/s10462-024-10862-8|publisher=Springer Link|access-date=2026-01-02}}</ref> ===== ML.2:12 - Relations — с чем хорошо сочетается в инженерном стеке ===== * Детектор дрейфа/смены условий → переключение режима адаптации. (Если просадка качества/анализ телеметрии сигналит о смене, можно временно увеличить допустимую вариативность и расширить поиск.) * Canary/Shadow‑режимы для промоутинга чемпиона. Эволюция остаётся «внутри», но выпуск наружу делается как обычный релиз. * Портфель решений вместо одного. Храните несколько топ‑индивидов под разные «режимы среды» и быстро переключайтесь. * PBT‑подходы и многокритериальные селекторы. Можно селектировать не только по среднему фитнесу, но и по риску/вариативности/стабильности. ===== ML.2:End =====
Summary:
Please note that all contributions to freem are considered to be released under the Creative Commons Attribution-ShareAlike 4.0 (see
Freem:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)