В основе всех архитектур глубокого обучения, в том числе систем компьютерного зрения и больших языковых моделей, лежит многослойный перцептрон (MLP).
У него есть веса и нейроны, в которых расположены функции активации. Этой парадигмой ученые пользуются с 1957 года, когда ее предложил Фрэнк Розенблатт.
Сейчас, спустя 67 лет, исследователи представили альтернативу MLP – новую архитектуру нейронной сети, получившую название Kolmogorov-Arnold Networks (KAN), в которой реализовано перемещение активаций на «ребра» сети.
Читать на habr.com