GPT-4 обошёл ChatGPT-3.5 на вопросах по emergency medicine, но Anki-настройка почти ничего не добавила

Исследование JMIR AI 2025 показало, что GPT-4 сильно лучше ChatGPT-3.5 на 598 board-вопросах по emergency medicine, а кастомизация через Anki не дала явного прироста.

Опубликовано : 1 января 2025 г.

Теги

Содержание

Иллюстрация: AI-системы отвечают на board-вопросы по emergency medicine с flashcard-контекстом — концептуальное изображение, не из цитируемого исследования.

В двух словах

На 598 board-style вопросах по emergency medicine модель GPT-4 заметно превзошла ChatGPT-3.5, а кастомная версия с Anki-подобными материалами не показала статистически значимого выигрыша по точности по сравнению с обычной GPT-4.

Что сделали исследователи

Когда большие языковые модели стали популярными учебными инструментами, появился логичный вопрос: можно ли сделать их сильнее для экзаменов, если добавить собственные flashcards или заметки? Это исследование проверяло именно такую идею в контексте emergency medicine и board-style вопросов.

Авторы протестировали три системы на 598 вопросах из источника для подготовки к board exam по emergency medicine. Первая система — ChatGPT-3.5, вторая — GPT-4, третья — кастомная конфигурация GPT-4, настроенная с использованием материалов в стиле Anki. Смысл кастомизации был в том, чтобы понять, даст ли доменно-специфический flashcard-контент прирост поверх уже сильной базовой модели.

Исследователи сравнивали общую точность ответов. Иными словами, насколько часто каждая система выбирала правильный вариант в multiple-choice формате и появляется ли у Anki-informed версии реальное преимущество над стандартной GPT-4.

Такой дизайн полезен, потому что разделяет два тезиса, которые часто смешивают. Первый: новые general-purpose модели лучше старых. Второй: персональные материалы для повторения, например колоды Anki, могут существенно усилить уже сильную модель. Работа позволяет посмотреть на оба утверждения по отдельности.

Что они обнаружили

Первый результат оказался довольно прямолинейным: GPT-4 выступила намного лучше ChatGPT-3.5 на наборе вопросов по emergency medicine. Это согласуется с более широким паттерном: более новые frontier-модели часто заметно сильнее на профессиональных и академических задачах.

Более интересен результат, которого не оказалось. Кастомная GPT-4, несмотря на настройку с помощью Anki-подобных материалов, не превзошла стандартную GPT-4 статистически значимо. Иными словами, дополнительная flashcard-кастомизация не дала надёжного прироста точности на этом board-style наборе.

Это важно, потому что исследование подрезает популярную интуицию. Многие предполагают: если загрузить в AI свои карточки, заметки или материалы для повторения, точность на экзаменах должна заметно вырасти. Работа показывает, что связь не так проста. Когда базовая модель уже очень сильна, дополнительные материалы могут влиять на стиль ответов, формулировки или удобство, но не обязательно на измеримую корректность.

Результат также намекает, что успех на вопросах по emergency medicine может больше зависеть от базовых знаний и рассуждений самой модели, чем от лёгкой поверхностной персонализации.

Что это значит для учеников и преподавателей

Для учеников практический вывод довольно ясен: если выбирать между поколениями моделей, качество базовой модели важнее поверхностной кастомизации. Переход от уровня 3.5 к уровню GPT-4 может дать больше, чем попытка обернуть уже имеющуюся модель собственными карточками.

Для преподавателей это повод осторожнее относиться к обещаниям «AI-персонализации». Возможно, Anki-колоды и учебные заметки действительно полезны для настройки объяснений, примеров и терминологии. Но эта статья показывает, что такая настройка не обязана автоматически улучшать точность ответов на экзаменационные вопросы.

Для пользователей Anki результат не стоит читать как «flashcards бесполезны». Обучение человека и оценка AI-модели — разные вещи. Anki вполне может помогать студентам надёжно запоминать материал, даже если загрузка похожего контента в языковую модель почти не поднимает её баллы на question bank.

Иначе говоря, это исследование скорее о пределах кастомизации AI, чем о пределах retrieval practice.

Ограничения и открытые вопросы

Результаты получены в одной экзаменационной области, на одном источнике вопросов и при одном варианте кастомной настройки. Другие prompting-стратегии, retrieval-системы или более глубокий fine-tuning могут дать иной результат. Поэтому считать эту работу финальным ответом для всех связок Anki плюс AI нельзя.

Точность на multiple-choice board-вопросах — тоже только один исход. Кастомная система всё ещё может давать выгоды, не отражённые здесь: лучше объяснять, точнее соответствовать конкретной программе или вести более полезный учебный диалог для отдельного студента.

В кратком описании, на которое мы опираемся, подчёркнуто отсутствие значимого прироста точности, но не раскрыты все технические детали реализации. Поэтому практическая воспроизводимость всё ещё зависит от того, как именно строилась кастомная система и насколько оценка была близка к реальному использованию.

Тем не менее главный вывод достаточно устойчив: более сильная базовая модель даёт большой прирост, а добавление flashcard-контекста к уже сильной модели не гарантирует заметного улучшения точности на экзаменационных вопросах.