630 млади математически вундеркинди седят в конферентна зала на слънчевия бряг на Австралия, готови с моливите си за Международната олимпиада по математика, а през това време един потенциален съперник все още е на път от летището в Бризбейн: екип от Google с модел с изкуствен интелект, настроен специално за сложни математически задачи, пише Блумбърг.
В продължение на месеци служителите на Google тренират вариант на големия езиков модел на компанията Gemini, наречен DeepThink, за решаване на олимпийски задачи. За DeepMind състезанието е нещо повече от шанс да победи умни тийнейджъри — всъщност екипът се мръщи при предположението, че се състезават. Вместо това става дума за предприемане на стъпка по пътя към теоретичен крайъгълен камък, известен като „общ изкуствен интелект“ – моментът, в който може да се разчита на изкуствения интелект да мисли като човек и да му се поверяват всякакви задачи.
Общият изкуствен интелект „ще бъде една от най-големите, ако не и най-голямата технология, която човечеството някога ще изобрети“, казва Демис Хасабис, главният изпълнителен директор на DeepMind.
Задачите в състезания като олимпиадата са създадени така, че да бъдат оригинални, изискващи креативност, дълги вериги от разсъждения и способност за възстановяване след грешни стъпки. Те показват силните страни на най-умните хора и слабостите на машините, които досега не се справят добре, когато става въпрос за абстракция, планиране на няколко стъпки и нерешени проблеми. Това е част от причината, поради която Хасабис става толкова фокусиран върху тяхното покоряване, включвайки Google в състезания по математика и програмиране по целия свят. Залозите са високи: в момент, когато критиците твърдят, че напредъкът е в застой, отличното представяне в състезанията може да бъде доказателство, че техните системи все още се подобряват. Конкурентът OpenAI прави същото за собствената си система, ChatGPT.
В края на състезанието големите езикови модели все още са победени от ученици, които не използват нищо друго освен хартия, молив и своя мозък.
Тайгър Джан, 17-годишен състезател от Южна Калифорния, е един от тях. Той не е мислил много за компаниите с изкуствен интелект като за съперници. Израства, знаейки, че машините могат да надминат хората: Deep Blue на International Business Machines Corp. побеждава руския шахматен гросмайстор Гари Каспаров преди той да се роди, а AlphaGo на Google побеждава корейския професионалист Лий Седол, когато е на 8 години.
„През целия си живот съм свикнал с факта, че има неща, които машините могат да правят много по-добре от хората“, казва той. „Компютърните мозъци работят много по-различно. Всъщност ние не играем една и съща игра.“
Първият ден от състезанието минава леко. Тайгър решава и трите задачи за деня, включително една от неговия „най-силен предмет“, геометрията, с един час по-рано от края, и има перфектен резултат.
След това идва ред на компютъра. Танг Луонг от DeepMind, на 38 години, и неговият екип се договарят с организаторите на Международната олимпиада по математика, че ще получат задачите, след като учениците приключат. Те въвеждат условията в електронна таблица: комбинаторика и евклидова геометрия, теория на числата. Без достъп до интернет или каквито и да е инструменти, компютърът се захваща за работа.
Разбираемо е да се предположи, че ако има нещо, в което системите с изкуствен интелект трябва да са добри, то това е математиката. В края на краищата, един от първите компютри, с които работим, е калкулаторът. Освен това, големите езикови модели са погълнали по-голямата част от човешкото знание — включително, разбира се, и математическите познания.
„Но това е като да поискаш от риба да се покатери на дърво“, казва Джунхьок Джунг, на 39 години, който преподава математика в университета „Браун“.
Джунг, който самият е бивш златен медалист от Международната олимпиада по математика, се присъединява към екипа на DeepMind през април 2024 г.
„Когато започнах, системата не можеше да умножи две по две“, казва Джунг. Големите езикови модели срещат трудности при броенето на буквите в думите, като например не знае колко букви „r“ има в „strawberry“ („ягода“).
Причината за това се корени в основата на начина, по който работят големите езикови модели. На фундаментално ниво, един голям езиков модел е обучен да предсказва следващия токен — обикновено дума или част от дума. Когато му се даде задача, той ще изведе поредица от токени, която се основава изцяло на вероятността една дума да следва друга. Дали крайният отговор отговаря на математическите теореми е без значение за неговия основен процес на вземане на решения.
Резултатът може да бъде впечатляващ — както когато големите езикови модели създават сложни изследователски досиета — или разочароващ, като например когато не успяват да решат прости задачи за умножение. В началото на бума на големите езикови модели надеждата е, че захранването на системите с повече данни или използването на повече чипове за тяхното обучение ще реши тези проблеми. Това не се случва.
Все повече изследователите се обръщат към метод, наречен обучение с подсилване: възнаграждаване на доброто поведение, разпознаване на грешното и анализиране на какъв тип данни биха били необходими на изкуствения интелект, за да се подобри. Това е ролята на Джунг в DeepMind.
„Много прилича на преподаване на ученик“, казва той.
Привържениците в компаниите за изкуствен интелект твърдят, че методът може да подхрани практически неограничен напредък в разсъжденията.
„Обучението с подсилване е бъдещето“, смята изследователят от DeepMind Танг.
И все пак, методът не е без своите критици. Те твърдят, че ползите са в най-добрия случай незначителни, изисквайки огромни количества човешки труд и изчислителна мощ — разходи, които може да се окажат неустойчиви.
На олимпиадата Танг и неговият екип получават резултатите от първия ден около полунощ. DeepThink решава правилно и трите задачи — подобно на Тайгър, перфектен резултат.
Вторият ден е по-труден както за човека, така и за машината. Задача 6, предизвикателство от комбинаториката, се оказва най-трудната в състезанието. На пръв поглед изглежда проста: въпрос за поставяне на правоъгълни плочки върху мрежа от квадрати. И все пак, тя изисква абстракция и креативност, както и много дълго решение. Докато Тайгър, ученикът, записва своите отговори и разработва детайлите на своето доказателство, в него се прокрадва съмнение. Дали е на правилния път? Още преди да удари звънецът, той знае:
„Бях в задънена улица.“
На пръв поглед олимпийските задачи не се различават много от математиката в гимназията — те са съставени от същите понятия. Но докато задачите по математика в гимназията обикновено изискват само няколко стъпки на разсъждение, задачите на олимпийско ниво изискват до 100, обяснява Джунг. Един грешен завой може да коства ценно време.
Това е трудно за хората, но е още по-трудно за един голям езиков модел. Тези системи са еднопосочни, като започват от един токен и се придвижват към следващия. Връщането към разклонение в пътя е фундаментално трудно за тях, въпреки че често е от решаващо значение при решаването на сложни проблеми, не само в математиката, но и в области като програмиране или научни изследвания.
През май тази година, на своята годишна конференция за разработчици I/O, Google представя идея, с която да се справи с това предизвикателство: паралелно мислене. Това позволява на модела да изследва множество пътища за решение едновременно и след това да обединява прозрения от тях.
„Това е проста идея, имитираща човешкия ум“, казва Джунг. „Но е доста ефективна.“
И разбира се, за разлика от човешкия ум, изкуственият интелект може да поеме по десетки пътища едновременно, с несравнима скорост.
Задача 6 от олимпиадата обаче показва границите на този напредък. В късния следобед на втория ден Танг и неговият екип наблюдават как изкуственият интелект се опитва да намери отговора на задачата в комбинаториката. Докато гледат как резултатите се появяват, те бързо осъзнават, че това не е правилният път.
„Беше очевидно“, казва Танг.
Вместо първо да създаде визуално представяне на проблема, изкуственият интелект преминава директно към конкретен отговор и след това се опитва много усилено да го докаже.
За разлика от машината, Тайгър е на прав път и много близо до решението.
„Лудо усещане“, спомня си той. „Чувствах го нереално.“
В крайна сметка той получава четири от седем точки за задачата, което е един от най-добрите резултати. От 630 състезатели само петима я решават напълно.
В общото класиране на състезанието Тайгър се класира на 7-мо място. DeepMind не получава точки за задача 6, но има перфектен резултат на всички останали, и печели злато в състезанието, като се класира на 27-мо място заедно с 46 ученици.
OpenAI обявява победата си първи. Докато организаторите все още оценяват решенията на учениците, един от изследователите отива в X, публикувайки изображение на ягода, носеща златен медал с гравирано лого на OpenAI. ChatGPT е постигнал абсолютно същите резултати като DeepThink: перфектни резултати на първите пет задачи, нула на задача 6. (Google прави свое собствено съобщение няколко дни по-късно, след официалната церемония.)
„Трудно е да се оцени значението на това“, публикува Себастиен Бубек, изследовател в OpenAI. „Може да се окаже, че това е моментът на кацането на Луната за изкуствения интелект.“
Не всички са съгласни. Ърнест Дейвис, професор по компютърни науки в Нюйоркския университет, нарича сравнението „абсурдно“. Кацането на Луната „включва огромни технологични постижения.“
„Компютърна програма може да решава много от задачите, които най-добрите гимназисти могат да решават“, казва той. „Това не е кацане на Луната.“
Дейвис редовно критикува твърденията на компаниите за изкуствен интелект и съдейства на Substack със скептика Гари Маркъс. Все пак, дори Дейвис признава, че е изненадан от напредъка.
Основният дебат е дали постижението е наистина обобщимо. С други думи: Означава ли решаването на математически задачи от олимпиада, че тези системи с изкуствен интелект могат да се справят и с други сложни задачи, като разработване на нови алгоритми, моделиране във физиката или справяне с инженерни предизвикателства, които изискват дългосрочно планиране?
Олимпийските задачи са много специфичен тип пъзел, с ограничени пътища за решение и ясни, проверими отговори. Обучението на модели в този формат може да не се пренесе лесно в други области — може би дори не и в други клонове на математиката.
„Уменията за изследователска математика се припокриват с уменията, необходими за решаване на състезателни задачи“, казва Дейвис. „Но те със сигурност са различни в голяма степен.“
Но същият подход работи поне в компютърното програмиране. На 17 септември DeepMind обявява нова победа: на Международното студентско състезание по програмиране (ICPC) най-новата версия на техния модел DeepThink печели златен медал, решавайки задача, която нито един човешки отбор не може да реши.
„Считам математиката и програмирането за върховете на човешкия интелект“, казва Куок Ле, вицепрезидент на DeepMind. „Това е исторически момент за общия изкуствен интелект, и особено за разсъжденията, които считам за свещения Граал на интелигентността.“
За математическата олимпиада догодина екипът на DeepMind се надява изкуственият интелект да постигне перфектен резултат. Тайгър няма да бъде там, за да мери способностите си с тези на машината. Той започва първата си година в Масачузетския технологичен институт, където вероятно ще учи математика. Неговите умения са го подготвили за много видове работа.
„Ако на мен ми е наистина трудно, значи и на всички останали им е наистина трудно.“



























































