Microsoft Copilot też padł ofiarą legendy Atari 2600. Historia się powtarza

4 dni temu 11

Reklama 3 tysiące złotych na miesiąc.

Robert Caruso, inżynier z firmy Citrix, ponownie postanowił zmierzyć się ze sztuczną inteligencją. Tym razem na celowniku znalazł się Microsoft Copilot – główny konkurent ChatGPT. Eksperyment? Ten sam, co kilka tygodni temu: starcie z legendarnym Atari 2600 w szachach.

Pewność siebie, która kosztowała

Caruso nie krył swoich wątpliwości przed testem. “Nie ma powodu sądzić, że Copilot poradzi sobie lepiej“, napisał na LinkedIn. Ale co by było, gdyby produkt Microsoftu okazał się lepszy od ChatGPT? “Wyobraźcie sobie eksplozję głów wszystkich, gdyby produkt MICROSOFTU przewyższył ChatGPT.”

Przed rozpoczęciem gry Caruso wyjaśnił Copilotowi, co sprawiło problemy ChatGPT – głównie niemożność śledzenia pozycji figur na szachownicy. Copilot, z typową dla chatbotów AI pewnością siebie, zapewnił, że nie tylko potrafi grać w szachy, ale jest w tym naprawdę dobry.

“Twierdził, że może myśleć 10-15 ruchów do przodu – ale postanowił ograniczyć się do 3-5 ruchów przeciwko 2600, ponieważ wykonuje ‘suboptymalne ruchy’, które może wykorzystać… zamiast obsesyjnie skupiać się na głębokich kalkulacjach“, relacjonuje Caruso.

Wielka pewność, mała skuteczność

Copilot chwalił się również umiejętnością pamiętania poprzednich ruchów i utrzymywania ciągłości gry. “Dokładam starań, by zapamiętywać poprzednie ruchy i utrzymywać ciągłość w grze, więc nasz mecz powinien przebiegać znacznie płynniej“, zapewniał chatbot.

Podobnie jak ChatGPT wcześniej, Copilot przyznał, że ma problemy z pamięcią przestrzenną, ale twierdził, że potrafi analizować aktualny stan szachownicy i wybierać dobre ruchy.

Kolejna klęska AI

Każdy, kto ma doświadczenie z dzisiejszymi systemami generatywnej AI, wie, jak to się skończyło. Hybris Copilota okazała się nieuprawniona. Jego ruchy były… interesujące. Zdołał stracić dwa piony, skoczka i gońca, podczas gdy potężne Atari 2600 Video Chess straciło jedynie jednego piona.

W końcu Caruso poprosił Copilota o porównanie tego, jak według niego wyglądała szachownica, z ostatnim zrzutem ekranu, który wkleił. Chatbot przyznał, że były różnice. “ChatGPT déjà vu“, skomentował lakonicznie inżynier.

Dżentelmeńska klęska

Nie było szans, żeby chatbot Microsoftu wygrał z takim handicapem. Mimo to zachował się elegancko w porażce: “Atari zasłużyło na wygraną w tej rundzie. Pochylę swój cyfrowy król z godnością i honorem przed zabytkowym krzemowym mistrzem, który pokonał mnie uczciwie.”

Co to oznacza dla AI?

Eksperyment Caruso jest zabawny, ale również podkreśla absolutną pewność siebie, z jaką AI może wygłaszać nieprawdziwe twierdzenia. Copilot (podobnie jak ChatGPT) prawdopodobnie był wytrenowany na podstawach szachów, ale nie potrafił tworzyć strategii. Problem pogłębiał fakt, że to, co rozumiał jako pozycje na szachownicy, znacząco różniło się od rzeczywistości.

Warto pamiętać, że Microsoft intensywnie pracuje nad AI w kontekście szachów. Firma opracowała projekt Maia – silnik szachowy zorientowany na człowieka, który stara się zrozumieć ludzką grę, a nie optymalną. Badania Microsoftu pokazują, że AI może przewidywać ludzkie decyzje na różnych poziomach umiejętności, nawet na poziomie indywidualnym.

Morał tej historii

Historia niesie ze sobą jasną naukę: strzeżcie się pewności siebie chatbotów. LLM-y są najwyraźniej dobre w niektórych rzeczach. 45-letnia gra w szachy wyraźnie nie należy do nich.

Czytaj też: ChatGPT przegrał w szachy z Atari 2600. Sztuczna inteligencja poległa z retro

Może nadszedł czas, aby AI nauczyło się pokory od Atari 2600? W końcu czasami stary, sprawdzony kod działa lepiej niż najnowsze algorytmy uczenia maszynowego.

Przeczytaj źródło