GPT-4 перевершив ChatGPT-3.5 на питаннях з emergency medicine, але Anki-налаштування майже нічого не додало

Дослідження JMIR AI 2025 показало, що GPT-4 значно кращий за ChatGPT-3.5 на 598 board-питаннях з emergency medicine, а кастомізація через Anki не дала явного приросту.

Опубліковано : 1 січня 2025 р.

Теги

Зміст

Ілюстрація: AI-системи відповідають на board-питання з emergency medicine з flashcard-контекстом — концептуальне зображення, не з цитованого дослідження.

Одним реченням

На 598 board-style питаннях з emergency medicine модель GPT-4 помітно перевершила ChatGPT-3.5, а кастомна версія з Anki-подібними матеріалами не показала статистично значущої переваги за точністю порівняно зі звичайною GPT-4.

Що зробили дослідники

Коли великі мовні моделі стали популярними інструментами для навчання, з’явилося логічне запитання: чи можна зробити їх сильнішими для іспитів, якщо додати власні flashcards або нотатки? Це дослідження перевіряло саме таку ідею в контексті emergency medicine та board-style питань.

Автори протестували три системи на 598 питаннях із джерела для підготовки до board exam з emergency medicine. Перша система — ChatGPT-3.5, друга — GPT-4, третя — кастомна конфігурація GPT-4, налаштована з використанням матеріалів у стилі Anki. Сенс кастомізації полягав у тому, щоб з’ясувати, чи дасть доменно-специфічний flashcard-контент приріст поверх уже сильної базової моделі.

Дослідники порівнювали загальну точність відповідей. Тобто наскільки часто кожна система обирала правильний варіант у multiple-choice форматі і чи з’являється в Anki-informed версії реальна перевага над стандартною GPT-4.

Такий дизайн корисний, бо розділяє дві тези, які часто змішують. Перша: нові general-purpose моделі кращі за старі. Друга: персональні матеріали для повторення, наприклад колоди Anki, можуть суттєво посилити вже сильну модель. Робота дозволяє подивитися на обидва твердження окремо.

Що вони зʼясували

Перший результат виявився доволі прямолінійним: GPT-4 виступила набагато краще за ChatGPT-3.5 на наборі питань з emergency medicine. Це узгоджується з ширшим патерном: новіші frontier-моделі часто помітно сильніші на професійних і академічних завданнях.

Більш цікавим є результат, якого не було. Кастомна GPT-4, попри налаштування за допомогою Anki-подібних матеріалів, не перевершила стандартну GPT-4 статистично значущо. Інакше кажучи, додаткова flashcard-кастомізація не дала надійного приросту точності на цьому board-style наборі.

Це важливо, бо дослідження підрізає популярну інтуїцію. Багато хто припускає: якщо завантажити в AI свої картки, нотатки чи матеріали для повторення, точність на іспитах має помітно зрости. Робота показує, що зв’язок не такий простий. Коли базова модель уже дуже сильна, додаткові матеріали можуть впливати на стиль відповідей, формулювання чи зручність, але не обов’язково на вимірювану правильність.

Результат також натякає, що успіх на питаннях з emergency medicine може більше залежати від базових знань і міркувань самої моделі, ніж від легкої поверхневої персоналізації.

Що це означає для тих, хто навчається, і для викладачів

Для тих, хто навчається, практичний висновок доволі ясний: якщо обирати між поколіннями моделей, якість базової моделі важливіша за поверхневу кастомізацію. Перехід від рівня 3.5 до рівня GPT-4 може дати більше, ніж спроба обгорнути наявну модель власними картками.

Для викладачів це привід обережніше ставитися до обіцянок про «AI-персоналізацію». Можливо, колоди Anki й навчальні нотатки справді корисні для налаштування пояснень, прикладів і термінології. Але ця стаття показує, що таке налаштування не зобов’язане автоматично підвищувати точність відповідей на екзаменаційні питання.

Для користувачів Anki результат не варто читати як «flashcards не працюють». Навчання людини та оцінювання AI-моделі — різні речі. Anki цілком може допомагати студентам надійно запам’ятовувати матеріал, навіть якщо завантаження схожого контенту в мовну модель майже не піднімає її бал на question bank.

Інакше кажучи, це дослідження радше про межі кастомізації AI, ніж про межі retrieval practice.

Обмеження й те, чого ми ще не знаємо

Результати отримано в одній екзаменаційній галузі, на одному джерелі питань і при одному варіанті кастомного налаштування. Інші prompting-стратегії, retrieval-системи або глибший fine-tuning можуть дати інший результат. Тому сприймати цю роботу як остаточну відповідь для всіх зв’язок Anki плюс AI не варто.

Точність на multiple-choice board-питаннях — теж лише один результат. Кастомна система все ще може давати переваги, не відбиті тут: краще пояснювати, точніше відповідати конкретній програмі або вести корисніший навчальний діалог для окремого студента.

У короткому описі, на який ми спираємося, підкреслено відсутність значущого приросту точності, але не розкрито всі технічні деталі реалізації. Тому практична відтворюваність усе ще залежить від того, як саме будувалася кастомна система і наскільки оцінювання було близьким до реального використання.

Проте головний висновок достатньо стійкий, щоб бути корисним: сильніша базова модель дає великий приріст, а додавання flashcard-контексту до вже сильної моделі не гарантує помітного покращення точності на екзаменаційних питаннях.