Strona główna Technologia Branża sztucznej inteligencji jest zafascynowana Chatbot Area, ale może to nie być...

Branża sztucznej inteligencji jest zafascynowana Chatbot Area, ale może to nie być najlepszy punkt odniesienia

22
0

W ciągu ostatnich kilku miesięcy dyrektorzy agency technologicznych, tacy jak Elon Musk, zachwalany wydajność modeli AI ich firmy w konkretnym teście: Chatbot Area.

Prowadzona przez organizację non-profit znaną jako LMSYS, Chatbot Area stała się czymś w rodzaju obsesji branży. Posty o aktualizacjach jej tabel wyników modeli gromadzą setki wyświetleń i udostępnień na Reddicie i X, a oficjalne konto LMSYS X ma ponad 54 000 obserwujących. Miliony ludzi odwiedziło stronę internetową organizacji w ciągu ostatniego roku.

Nadal jednak pozostają pewne pytania dotyczące zdolności Chatbot Area do powiedzenia nam, jak „dobre” są w rzeczywistości te modele.

W poszukiwaniu nowego punktu odniesienia

Zanim przejdziemy do konkretów, poświęćmy chwilę na wyjaśnienie, czym dokładnie jest LMSYS i jak stał się tak popularny.

Organizacja non-profit wystartowała dopiero w kwietniu ubiegłego roku jako projekt kierowany przez studentów i wykładowców z Carnegie Mellon, SkyLab UC Berkeley i UC San Diego. Niektórzy członkowie założyciele pracują teraz w Google DeepMind, xAI Muska i Nvidia; obecnie LMSYS jest prowadzony głównie przez badaczy powiązanych ze SkyLab.

LMSYS nie zamierzało tworzyć wirusowej tabeli liderów modeli. Misją założycielską grupy było uczynienie modeli (konkretnie modeli generatywnych à la ChatGPT OpenAI) bardziej dostępnymi poprzez ich współtworzenie i udostępnianie jako open supply. Jednak wkrótce po założeniu LMSYS jego badacze, niezadowoleni ze stanu benchmarkingu AI, dostrzegli wartość w stworzeniu własnego narzędzia testowego.

„Obecne testy porównawcze nie uwzględniają w wystarczającym stopniu potrzeb najnowocześniejszych technologii [models]„, szczególnie w ocenie preferencji użytkowników” – napisali badacze w papier techniczny opublikowano w marcu. „Dlatego pilnie potrzebna jest otwarta, żywa platforma ewaluacyjna oparta na ludzkich preferencjach, która może dokładniej odzwierciedlać rzeczywiste wykorzystanie”.

Rzeczywiście, jak pisaliśmy wcześniej, najczęściej używane obecnie testy porównawcze nie oddają w pełni sposobu, w jaki przeciętna osoba wchodzi w interakcje z modelami. Wiele umiejętności, które testy porównawcze badają — na przykład rozwiązywanie problemów matematycznych na poziomie doktoratu — rzadko będzie istotnych dla większości osób korzystających, powiedzmy, z Claude.

Twórcy LMSYS mieli podobne odczucia, dlatego też opracowali alternatywę: Chatbot Area, oparty na crowdsourcingu take a look at porównawczy mający na celu uchwycenie „niuansów” modeli i ich wydajności w przypadku otwartych zadań w świecie rzeczywistym.

Rating Chatbot Area z początku września 2024 r.
Źródła obrazów: LMSYS

Chatbot Area pozwala każdemu w sieci zadać pytanie (lub pytania) dwóm losowo wybranym, anonimowym modelom. Gdy osoba zgodzi się na warunki korzystania z usługi, zezwalając na wykorzystanie jej danych do przyszłych badań, modeli i powiązanych projektów LMSYS, może głosować na preferowane odpowiedzi z dwóch rywalizujących modeli (może również ogłosić remis lub powiedzieć „oba są złe”), w którym to momencie ujawniane są tożsamości modeli.

LMSYS
Interfejs Chatbot Area.
Źródła obrazów: LMSYS

Ten przepływ daje „różnorodny wachlarz” pytań, jakie typowy użytkownik mógłby zadać dowolnemu modelowi generatywnemu, napisali badacze w artykule z marca. „Uzbrojeni w te dane, wykorzystujemy zestaw potężnych technik statystycznych […] „aby oszacować rating modeli w sposób możliwie najbardziej wiarygodny i efektywny pod względem próby” – wyjaśnili.

Od czasu uruchomienia Chatbot Area firma LMSYS dodała do swojego narzędzia testowego dziesiątki otwartych modeli i nawiązała współpracę z takimi uniwersytetami jak Uniwersytet Sztucznej Inteligencji im. Mohameda bin Zayeda (MBZUAI)a także firmy, takie jak OpenAI, Google, Anthropic, Microsoft, Meta, Mistral i Hugging Face, aby udostępnić swoje modele do testowania. Chatbot Area oferuje teraz ponad 100 modeli, w tym modele multimodalne (modele, które potrafią zrozumieć dane wykraczające poza tekst), takie jak GPT-4o firmy OpenAI i Claude 3.5 Sonnet firmy Anthropic.

W ten sposób przesłano i oceniono ponad milion par pytań i odpowiedzi, co pozwoliło na uzyskanie ogromnej ilości danych rankingowych.

Stronniczość i brak przejrzystości

W artykule z marca założyciele LMSYS twierdzą, że pytania użytkowników Chatbot Area są „wystarczająco różnorodne”, aby stanowić punkt odniesienia dla szeregu przypadków użycia AI. „Ze względu na swoją wyjątkową wartość i otwartość Chatbot Area stała się jedną z najczęściej cytowanych tabel liderów modeli” – piszą.

Ale jak pouczające są wyniki, naprawdę? To jest do dyskusji.

Yuchen Linnaukowiec badawczy w organizacji non-profit Instytut Allena ds. AImówi, że LMSYS nie był całkowicie przejrzysty w kwestii możliwości modelu, wiedzy i umiejętności, które ocenia na Chatbot Area. W marcu LMSYS opublikował zbiór danych, LMSYS-Czat-1Mzawierający milion rozmów między użytkownikami i 25 modelami na Chatbot Area. Ale od tego czasu nie odświeżał zestawu danych.

„Oceny nie da się odtworzyć, a ograniczone dane udostępnione przez LMSYS utrudniają dogłębne zbadanie ograniczeń modeli” – powiedział Lin.

LMSYS
Porównanie dwóch modeli przy użyciu narzędzia Chatbot Area.
Źródła obrazów: LMSYS

W zakresie, w jakim LMSYS ma szczegółowo opisał podejście testowe, jego badacze stwierdzili w artykule z marca, że ​​wykorzystują „efektywne algorytmy próbkowania”, aby zestawiać ze sobą modele „w sposób, który przyspiesza konwergencję rankingów, zachowując jednocześnie ważność statystyczną”. Napisali, że LMSYS zbiera około 8000 głosów na mannequin, zanim odświeży rankingi Chatbot Area, a próg ten jest zwykle osiągany po kilku dniach.

Ale Lin uważa, że ​​głosowanie nie bierze pod uwagę zdolności — lub niezdolności — ludzi do dostrzegania halucynacji u modeli, ani różnic w ich preferencjach, co sprawia, że ​​ich głosy są niewiarygodne. Na przykład niektórzy użytkownicy mogą chcieć dłuższe, w stylu markdown odpowiedzi, podczas gdy inni mogą preferować bardziej zwięzłe odpowiedzi.

W rezultacie dwóch użytkowników może udzielić przeciwnych odpowiedzi na tę samą parę odpowiedzi, a obie będą równie ważne — ale to w pewien sposób podważa wartość podejścia. Dopiero niedawno LMSYS eksperymentował z uwzględnieniem „stylu” i „treści” odpowiedzi modelek w Chatbot Area.

„Zebrane dane o ludzkich preferencjach nie uwzględniają tych subtelnych uprzedzeń, a platforma nie rozróżnia między 'A jest znacznie lepsze od B' i 'A jest tylko nieznacznie lepsze od B'” – powiedział Lin. „Podczas gdy postprodukcja może złagodzić niektóre z tych uprzedzeń, surowe dane o ludzkich preferencjach pozostają zakłócone”.

Mike Cook dinnerpracownik naukowy Queen Mary College of London specjalizujący się w sztucznej inteligencji i projektowaniu gier, zgodził się z oceną Lina. „Można było zorganizować Chatbot Area w 1998 roku i nadal mówić o drastycznych zmianach w rankingu lub potężnych chatbotach, ale byłoby to okropne” — dodał, zauważając, że podczas gdy Chatbot Area jest oprawiony jako take a look at empiryczny jest to równoznaczne z względny ocena modeli.

Bardziej problematycznym problemem, który pojawia się wokół Chatbot Area, jest obecny skład jego bazy użytkowników.

Ponieważ benchmark stał się popularny niemal wyłącznie dzięki przekazowi ustnemu w kręgach branży AI i technologii, mało prawdopodobne jest, aby przyciągnął bardzo reprezentatywną grupę odbiorców, mówi Lin. Uwiarygodniając jego teorię, najważniejsze pytania w zestawie danych LMSYS-Chat-1M dotyczą programowania, narzędzi AI, błędów i poprawek oprogramowania oraz projektowania aplikacji — nie są to rzeczy, o które można by się spodziewać, że będą pytać osoby nietechniczne.

„Dystrybucja danych testowych może nie odzwierciedlać dokładnie rzeczywistych użytkowników docelowych rynku” — powiedział Lin. „Co więcej, proces oceny platformy jest w dużej mierze niekontrolowany, polegający głównie na post-przetwarzaniu w celu oznaczenia każdego zapytania różnymi tagami, które są następnie wykorzystywane do opracowywania ocen specyficznych dla zadań. Podejściu temu brakuje systematycznej rygorystyczności, co utrudnia ocenę złożonych pytań dotyczących rozumowania wyłącznie na podstawie ludzkich preferencji”.

LMSYS
Testowanie modeli multimodalnych w Chatbot Area.
Źródła obrazów: LMSYS

Cook dinner zauważył, że ponieważ użytkownicy Chatbot Area dokonują samodzielnego wyboru — są zainteresowani przede wszystkim testowaniem modeli — mogą być mniej chętni do przeprowadzania testów obciążeniowych lub wykorzystywania modeli do granic możliwości.

„To nie jest dobry sposób na przeprowadzenie badania w ogóle” — powiedział Cook dinner. „Ewaluatorzy zadają pytanie i głosują, który mannequin jest „lepszy” — ale „lepszy” nie jest nigdzie tak naprawdę zdefiniowany przez LMSYS. Bycie naprawdę dobrym w tym benchmarku może sprawić, że ludzie pomyślą, że zwycięski chatbot AI jest bardziej ludzki, dokładniejszy, bezpieczniejszy, bardziej godny zaufania itd. — ale tak naprawdę nie oznacza to żadnej z tych rzeczy”.

LMSYS próbuje zrównoważyć te uprzedzenia, korzystając z automatycznych systemów — MT-Bench i Area-Onerous-Auto — które wykorzystują similar modele (GPT-4 i GPT-4 Turbo OpenAI) do oceniania jakości odpowiedzi z innych modeli. (LMSYS publikuje te rankingi obok głosów). Ale podczas gdy LMSYS twierdzi To modele „dobrze dopasowują się zarówno do kontrolowanych, jak i pozyskiwanych w drodze crowdsourcingu preferencji człowieka” sprawa jest daleka od rozstrzygnięcia.

Powiązania handlowe i udostępnianie danych

Według Lina, rozwijające się powiązania handlowe LMSYS to kolejny powód, dla którego należy podchodzić do rankingu z dystansem.

Niektórzy dostawcy, tacy jak OpenAI, którzy obsługują swoje modele za pośrednictwem interfejsów API, mają dostęp do danych o wykorzystaniu modelu, które mógł używać, aby zasadniczo „nauczać pod take a look at”, jeśli by chcieli. To sprawia, że ​​proces testowania jest potencjalnie niesprawiedliwy dla otwartych, statycznych modeli działających na własnej chmurze LMSYS, powiedział Lin.

„Firmy mogą nieustannie optymalizować swoje modele, aby lepiej dopasować je do dystrybucji użytkowników LMSYS, co może prowadzić do nieuczciwej konkurencji i mniej znaczącej oceny” — dodał. „Modele komercyjne połączone za pośrednictwem interfejsów API mogą uzyskać dostęp do wszystkich danych wejściowych użytkownika, co daje firmom z większym ruchem przewagę”.

Cook dinner dodał: „Zamiast wspierać nowatorskie badania nad sztuczną inteligencją lub coś w tym stylu, LMSYS zachęca deweloperów do modyfikowania drobnych szczegółów, aby uzyskać przewagę w zakresie frazowania nad konkurencją”.

LMSYS jest także częściowo sponsorowany przez organizacje, w tym firmę VC, która bierze udział w wyścigu o sztuczną inteligencję.

LMSYS
Sponsoring korporacyjny LMSYS.
Źródła obrazów: LMSYS

Platforma naukowa Google'a Kaggle przekazała pieniądze na rzecz LMSYS, podobnie jak Andreessen Horowitz (których inwestycje obejmują Mistral) i Collectively AI. Modele Gemini firmy Google są na Chatbot Area, podobnie jak Mistral i Collectively.

LMSYS stwierdza na swojej stronie internetowej, że opiera się również na grantach i darowiznach uniwersyteckich, aby wspierać swoją infrastrukturę, i że żadne z jej sponsoringów — które przybierają formę kredytów na sprzęt i obliczenia w chmurze, oprócz gotówki — nie ma „przywiązanych zobowiązań”. Jednak relacje te sprawiają wrażenie, że LMSYS nie jest całkowicie bezstronny, szczególnie że dostawcy coraz częściej wykorzystują Chatbot Area, aby przyciągnąć oczekiwanie Do ich Modele.

LMSYS nie odpowiedział na prośbę TechCrunch o wywiad.

Lepszy punkt odniesienia?

Lin uważa, że ​​mimo swoich wad LMSYS i Chatbot Area oferują wartościową usługę: umożliwiają dostęp do informacji w czasie rzeczywistym na temat tego, jak różne modele działają poza laboratorium.

„Chatbot Area przewyższa tradycyjne podejście optymalizacji dla testów porównawczych wielokrotnego wyboru, które są często nasycone i nie mają bezpośredniego zastosowania w rzeczywistych scenariuszach” — powiedział Lin. „Take a look at porównawczy zapewnia ujednoliconą platformę, na której prawdziwi użytkownicy mogą wchodzić w interakcje z wieloma modelami, oferując bardziej dynamiczną i realistyczną ocenę”.

Jednak — ponieważ LMSYS nadal dodaje funkcje do Chatbot Area, takie jak bardziej zautomatyzowane oceny — Lin uważa, że ​​organizacja może zająć się wieloma łatwymi do rozwiązania problemami, aby udoskonalić testowanie.

Aby umożliwić bardziej „systematyczne” zrozumienie mocnych i słabych stron modeli, zakłada, że ​​LMSYS może projektować testy porównawcze wokół różnych podtematów, takich jak algebra liniowa, z których każdy ma zestaw zadań specyficznych dla danej dziedziny. To nadałoby wynikom Chatbot Area znacznie większą wagę naukową, mówi.

„Chociaż Chatbot Area może zaoferować migawkę doświadczeń użytkownika — choć z małej i potencjalnie niereprezentatywnej bazy użytkowników — nie należy jej uważać za ostateczny normal pomiaru inteligencji modelu” — powiedział Lin. „Zamiast tego należy ją postrzegać bardziej jako narzędzie do pomiaru satysfakcji użytkownika niż naukowy i obiektywny pomiar postępu AI”.

Źródło