Strona główna » Ai e-book o sztucznej inteligencji » Falcon 180B – model językowy przewyższa GPT-3.5 i Llama 2

Falcon 180B – model językowy przewyższa GPT-3.5 i Llama 2

by kapdes
falcon

Instytut Innowacji Technologicznych z Abu Zabi wypuścił Falcon-180B, największy model z serii Falcon.

FalconLM jest rozwijany przez Technology Innovation Institute (TII) w Abu Zabi w Zjednoczonych Emiratach Arabskich. Organizacja twierdzi, że FalconLM jest jak dotąd najpotężniejszym modelem językowym typu open source, chociaż największy wariant, z 40 miliardami parametrów, jest znacznie mniejszy niż LLaMA firmy Meta z 65 miliardami parametrów.

Bazuje on na modelu Falcon 40B i został wytrenowany przy użyciu 3,5 biliona tokenów na maksymalnie 4096 procesorach graficznych jednocześnie za pośrednictwem Amazon SageMaker, co dało łącznie ~7 000 000 godzin GPU.

Mówi się, że Falcon 180B przewyższa Llama 2 70B, a także GPT-3.5 OpenAI. W zależności od zadania, wydajność szacowana jest na poziomie od GPT-3.5 do GPT-4 i na równi z modelem językowym PaLM 2 firmy Google w kilku testach porównawczych.

W rankingu Hugging Face Open Source LLM, Falcon 180B wyprzedza obecnie Llama 2 firmy Meta. Jednak w porównaniu do Llama 2, Falcon180B wymagał czterokrotnie więcej obliczeń do wytrenowania, a model jest 2,5 razy większy. Dostępny jest dopracowany model czatu.

Pozostałe artykuły