K-кратна перехресна перевірка (CV) є найпоширенішим підходом до визначення ймовірності того, що результат машинного навчання генерується випадково, і часто перевершує звичайну перевірку гіпотез. 29 січня 2024 р.
K-кратна перехресна перевірка є одним із найбільш широко використовуваних методів перехресної перевірки. Він ділить ваші дані на k згорток однакового розміру та використовує один із них як тестовий набір, а решту як навчальний набір. Цей процес повторюється k разів, кожного разу використовуючи іншу складку як тестовий набір.
Існує кілька типів методів перехресної перевірки, в тому числі k-кратна перехресна валідація, перехресна валідація з пропуском одного виходу та валідація затримки, стратифікована перехресна перевірка. Вибір методу залежить від розміру та характеру даних, а також від конкретних вимог задачі моделювання.
Голова до голови, порівняння k-Fold дає більш стабільний і надійний результат оскільки навчання та тестування виконується на кількох різних частинах набору даних. Ми можемо зробити загальну оцінку ще надійнішою, якщо збільшимо кількість згорток, щоб перевірити модель на багатьох різних піднаборах даних.
Стандартний підхід такий: 0) розділити набір тренувань/тестів 1) запустити CV з усіма комбінаціями параметрів на навчальному наборі 2) виберіть найкращу комбінацію параметрів із середньої продуктивності по згортках 3) повторно навчіть модель, використовуючи лише вибрані параметри на повному навчальному наборі 4) оцініть модель на…
K-кратна перехресна перевірка має деякі недоліки. Це може бути дорогим з точки зору обчислень, особливо для великих наборів даних або складних моделей, оскільки вимагає навчання моделі k разів. Це збільшення обчислювального навантаження може призвести до довшого часу навчання.