Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 8 - LLM Evaluation
Stanford Online. Методичный проход по rule-based метрикам, смещениям LLM-as-judge, оценке фактологичности и агентов и режимам отказа статичных бенчмарков. Используйте как теоретического спутника к разделу статьи про выбор того, что измерять, и почему большинство готовых метрик недооценивают реальные регрессии.
Заметка AI Expert
Концепция остаётся полезной, но проверьте примеры на актуальных инструментах перед применением в реальной работе.
Что вынести из этого видео
Оценить архитектурный подход, возможные сбои и защитные меры до разработки.
Что посмотреть или знать заранее
Полезно понимать API, автоматизации, RAG или базовую архитектуру агентов.
Смотреть дальше
Продолжайте тот же учебный путь со следующими связанными видео.
Похожие видео
Углубиться
Тщательно подобранные внешние курсы, которые глубже раскрывают эту тему.






