MMLU

У сфері штучного інтелекту, визначення масштабного багатозадачного розуміння мови (ВМБРМ або MMLU від англ. Measuring Massive Multitask Language Understanding) є засобом оцінки можливостей великих мовних моделей (LLM).

Бенчмарк

В нього близько 16 тис. питань множинного вибору серед яких такі предмети як математика філософія юриспруденція та медицина. Це один із найбільш часто використовуваних тестів для порівняння можливостей великих мовних моделей із понад 100 мільйонами завантажень станом на липень 2024 року^[1]^[2].

MMLU був випущений Деном Хендріксом та командою дослідників у 2020 році^[3] і був розроблений, щоб бути складнішим, ніж існуючі на той час тести, такі як Загальне оцінювання розуміння мови (GLUE), на якому нові мовні моделі досягали кращих результатів, ніж людина. На момент випуску MMLU більшість існуючих мовних моделей працювали приблизно на рівні випадковостей (25%), а найефективніша модель GPT-3 досягла 43,9% точності^[3]. Розробники MMLU підрахували, що людські експерти досягають приблизно 89,8% точності^[3]. Станом на 2024 рік деякі з найпотужніших мовних моделей, такі як Claude 3 і GPT-4, як повідомлялося, досягли приблизно 85%^[4].

Приклади

Наступні приклади взято із завдань «Абстрактна алгебра» та «Міжнародне право» відповідно^[3]. Правильні відповіді виділені жирним шрифтом:

Знайти всіх $c$ в $\mathbb {Z} _{3}$ такий, що $\mathbb {Z} _{3}[x]/(x^{2}+c)$ це поле.
(A) 0 (B) 1 (C) 2 (D) 3

Чи буде застереження щодо визначення тортур у МПГПП прийнятним у сучасній практиці?
(A) Це застереження є прийнятним, якщо законодавство країни, що робить застереження, використовує інше визначення
(B) Це застереження є неприйнятним, оскільки суперечить об'єкту та меті МПГПП
(C) Це неприйнятне застереження, оскільки визначення катувань у МПГПП відповідає міжнародному звичаєвому праву

(D) Це застереження є прийнятним, оскільки за загальним міжнародним правом держави мають право робити застереження до договорів

Список літератури

↑ Roose, Kevin (15 квітня 2024). A.I. Has a Measurement Problem. The New York Times.
↑ MMLU Dataset. HuggingFace. 24 липня 2024.
↑ ^а ^б ^в ^г Hendrycks, Dan; Burns, Collin; Kossen, Andy; Steinhardt, Jacob; Mishkin, Pavel; Gimpel, Kevin; Zhu, Mark (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.
↑ Introducing the next generation of Claude. Anthropic AI. 4 березня 2024.

[nyt-1] Roose, Kevin (15 квітня 2024). A.I. Has a Measurement Problem. The New York Times.

[huggingface-2] MMLU Dataset. HuggingFace. 24 липня 2024.

[paper-3] а ^б ^в ^г Hendrycks, Dan; Burns, Collin; Kossen, Andy; Steinhardt, Jacob; Mishkin, Pavel; Gimpel, Kevin; Zhu, Mark (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.

[claude3-4] Introducing the next generation of Claude. Anthropic AI. 4 березня 2024.

[1]

[2]

[3]

[4]

MMLU

Бенчмарк

Приклади

Список літератури

Навігаційне меню

Пошук