Вступление

Оценка технических кандидатов быстро меняется вместе с развитием ИИ. То, что еще год назад позволяло уверенно отличать сильного инженера от среднего, сегодня легко решается моделью. В Anthropic с этим столкнулись напрямую: их тестовое задание для performance-инженеров три раза переставало работать из-за прогресса Claude.

Внутренний опыт компании превратился в показательный кейс того, как ИИ меняет саму логику технического найма и почему стандартные take-home задания больше не гарантируют сигнал.

Как появился тест и почему он работал

В конце 2023 года Anthropic активно масштабировала вычислительную инфраструктуру и столкнулась с нехваткой performance-инженеров. Поток кандидатов оказался слишком большим для классических интервью. Тогда команда разработала take-home задание на оптимизацию кода под симулированный ускоритель, напоминающий TPU. Задание было максимально приближено к реальной работе: ручное управление памятью, SIMD, VLIW, анализ трасс выполнения, поиск узких мест. Кандидаты получали ограниченное время, но могли использовать любые инструменты, включая ИИ. Результат оказался неожиданно сильным. За полтора года задание прошло около тысячи человек, и именно по нему была нанята большая часть текущей команды. Тест хорошо выявлял талант даже у кандидатов без громкого резюме.

Когда Claude начал выигрывать

Проблемы начались с роста возможностей Claude. Сначала модели стали помогать кандидатам настолько эффективно, что ручная работа теряла смысл. Затем Claude Opus 4 начал сам показывать результаты лучше большинства людей в отведенное время. После первой переработки задания Claude Opus 4.5 догнал и лучших человеческих решений. В условиях жесткого тайм-лимита разница между сильным инженером и моделью практически исчезла. Фактически оптимальной стратегией стало просто делегировать задачу ИИ.

Почему запрет ИИ не сработал

В Anthropic сознательно отказались от запрета ИИ в заданиях. Такой запрет трудно контролировать и плохо отражает реальную работу, где инженеры активно используют модели. Проблема была не в самом ИИ, а в формате оценки. Попытка просто повысить порог тоже выглядела сомнительной. Модели работают быстрее людей, а человек неизбежно тратит время на понимание задачи и проверку решений. В результате кандидат всегда отставал бы от ИИ даже при отличных навыках.

Попытки усложнить задачу

Команда попробовала заменить задание на более сложную задачу оптимизации, основанную на реальном опыте работы с ускорителями. Однако Claude снова нашел неожиданные ходы и в итоге решил и ее, особенно при увеличенном времени на размышление. Тогда подход изменился радикально. Вместо реалистичной инженерной задачи был создан набор странных, сильно ограниченных головоломок с необычным instruction set, вдохновленных Zachtronics-играми. Эти задачи были заведомо вне распределения типовых данных обучения моделей. Кандидатам не дали готовых инструментов отладки. Способность самому решить, что автоматизировать, а что анализировать вручную, стала частью оценки.

Что в итоге сработало

Новый формат оказался менее реалистичным, но более устойчивым к ИИ. Он хуже симулирует реальную работу, зато лучше выявляет человеческое мышление в условиях неопределенности. Первые результаты показали хорошую корреляцию с реальным уровнем кандидатов. Anthropic признает компромисс: прежняя глубина и близость к настоящей инженерии утеряны, но иначе задание переставало отличать человека от модели.