ИИ-модели работают на уровне экспертов в финансах, маркетинге, медицине

OpenAI провела тестирование моделей, своих, конечно, и Anthropic на 1320 задачах для 44 профессий.
Примечание: показатель в 50% выполнения исследователи считают уровнем опытного специалиста.
Ребята разработали набор тестов, позволяющих определить, насколько эффективны ИИ-модели в прикладных задачах. Выбор пал на 44 профессии из значимых для ВВП США отраслей. К слову, они значимы практически для любых других достаточно развитых стран.
Судите сами, среди выбранных профессий: разработчики ПО, юристы, бухгалтеры, финансовые консультанты и аналитики, журналисты, работники служб поддержки, менеджеры по продажам, врачи и так далее.
Для каждой профессии составили по 30 типичных задач, помогали в этом специалисты с опытом не менее 14 лет. Например, ИИ-моделям нужно было написать юридическое заключение или составить план ухода за пациентом. Те же самые специалисты потом проводили «слепое» тестирование: выбор лучшего решения из двух предложенных. Какое написал человек, а какое нейросеть, эксперты, разумеется, не знали.
Итог:
GPT-5-high в 40,6% предложила вариант лучше, чем человек, или на одном уровне с ним
Claude Opus 4.1 от Anthropic — 49%
💬 То есть по «правилам» тестирования модели вполне сопоставимы с опытными сотрудниками. А я просто ещё раз напомню: ИИ — прекрасный инструмент, особенно в умелых руках. Осваивайте этот инструмент, развивайте навыки работы с ним. Иначе потом ИИ не возьмёт даже батарейки роботам менять, они это уже сами умеют делать 😂
Информации об авторе
Этот пост написан блогером Трибуны. Вы тоже можете начать писать: сделать это можно .




Комментарии
27ИИ в медицине, звучит настораживающе
Умеют, если на зарядной станции их ждет заряженый блок, а если не ждет, то не умеют
Если предположить, что мы живем в разумной системе и не являемся венцом творения, всё само собой рассосётся - все болезни самолюбия, связанные с конкуренцией людей и ИИ.