шт. Мэриленд: Последние новости

Исследование МТИ: GPT-4 не сдал экзамен на адвоката

Исследователь Массачусетского технологического института решил проверить утверждение о том, что модель GPT-4 от OpenAI обошла 90% юристов-стажёров во время экзамена на адвоката. Выяснилось, что модель попала только в 10% лучших в группе повторно сдававших тест.

Таким образом, GPT-4 смогла обойти большинство стажёров, но в той группе, где люди повторно сдавали экзамен, провалив его в первый раз или набрав минимум баллов.

Автор исследования Эрик Мартинес, докторант кафедры когнитивных наук, отмечает, что OpenAI использовала исследование 2023 года, где GPT-4 отвечал на вопросы унифицированного экзамена на адвоката (UBE). Он обычно состоит из трёх компонентов: экзамен с несколькими вариантами ответов (MBE); Multistate Performance Test (MPT), который заставляет экзаменуемых выполнять различные юридические задачи; письменный экзамен с эссе (MEE).

Результаты модели ИИ были впечатляющими: она набрала 297 баллов из 400. Когда Мартинес сравнил эффективность модели в более общем плане, она попала в 69-й процентиль среди всех тестируемых и 48-й среди тех, кто проходил тест впервые. Исследование Мартинеса также показало, что результаты модели варьировались от посредственных до ниже среднего в задаче по написанию эссе. Она продемонстрировала результаты от 48-го процентиля среди всех сдающих до 15-го среди тех, кто сдавал тест впервые.

Далее Мартинес повторно запустил тест для GPT-4. Он отметил, что в первоначальном исследовании не использовались рекомендации по оцениванию эссе, установленные Национальной конференцией экзаменаторов-адвокатов, которая проводит экзамен. Вместо этого исследователи просто сравнили ответы с «хорошими ответами» жителей штата Мэриленд. Однако именно написание эссе на экзамене считается наиболее близким к задачам,

люди конференция общество самит адвокат

maybeelf

habr.com

Все новости дня

Change privacy settings
На этой странице могут использоваться файлы cookie, если они требуются поставщику аналитики.