GPT-4 не сдал экзамен на адвоката: заслуги ИИ преувеличены.

Как показало новое исследование Массачусетского технологического института (США), правдивые результаты прошлогоднего экзамена GPT-4 довольно скромные.

В прошлом году разработчики GPT-4 из компании OpenAI похвалились, что их инструмент искусственного интеллекта превзошел 90 процентов стажеров-юристов на экзамене на адвоката. Это вызвало шквал обсуждений в СМИ. Однако, согласно новому исследованию, это утверждение оказалось преувеличением.

Тогда в OpenAI обнародовали результаты исследования, в ходе которого GPT-4 отвечал на вопросы унифицированного экзамена на адвоката (UBE). По словам разработчиков, их языковая модель с ИИ набрала 298 баллов из 400 возможных. Это якобы дало ей возможность войти в десятую часть лучших стажеров. Но как выяснилось теперь, чат-бот попал лишь в 10 процентов тех стажеров, которые ранее провалили экзамен (один или несколько раз) и сдавали его повторно.

По словам Эрика Мартинеса, докторанта кафедры когнитивных наук МТИ и ведущего автора нового исследования, сравнение было бы более корректным с показателями тех, кто сдавал тест впервые.

мужчина за компьютером

Что еще стало известно о том экзамене

Выводы Эрика Мартинеса также свидетельствуют, что результаты модели варьировались от посредственных до ниже средних на этапе написания эссе.

Для дальнейшего изучения результатов господин Мартинес заставил GPT-4 повторить тест в соответствии с параметрами, установленными авторами первоначального исследования. Ученый отметил, что в нем не использовались рекомендации по оцениванию эссе, установленные Национальной конференцией экзаменаторов-адвокатов, которая проводит экзамены. Вместо этого исследователи просто сравнили ответы ИИ с «хорошими ответами» жителей штата Мэриленд.

А тем временем написание эссе на экзамене на адвоката является наиболее близким к задачам, которые выполняет практикующий юрист. И именно на этом этапе модель GPT-4 показала худшие результаты, рассказало издание Live Science.

«Тот факт, что GPT-4 с трудом справляется с написанием эссе по сравнению с юристами, указывает на то, что большие языковые модели, по крайней мере сами по себе, с трудом справляются с теми задачами, которые адвокат выполняет ежедневно», – отметил исследователь.

Минимальный проходной балл этого экзамена варьируется – от штата к штату – от 260 до 272. Поэтому балл GPT-4 за эссе не позволил бы модели сдать общий экзамен. По словам Эрика Мартинеса, хотя нынешние системы искусственного интеллекта безусловно впечатляют, их следует тщательно оценивать, прежде чем они будут использоваться в юридической практике.

Фото: pexels.com

WhatsappTelegramViberThreads