Китайский стартап DeepSeek привлек внимание своим заявлением о разработке конкурентоспособной модели искусственного интеллекта, обучение которой обошлось всего в $6 миллионов. По утверждениям компании, для подготовки нейросети DeepSeek V3 использовалось лишь 2048 графических процессоров. Однако, аналитики из SemiAnalysis раскрыли, что на самом деле компания управляет значительной вычислительной инфраструктурой, насчитывающей около 50 000 графических процессоров Nvidia Hopper, в том числе 10 000 единиц H800 и H100. Общее инвестирование DeepSeek в свою серверную инфраструктуру достигает $1,6 миллиарда, а операционные расходы составляют $944 миллиона.
DeepSeek является дочерним проектом китайского хедж-фонда High-Flyer, который с 2023 года выделил его в отдельное направление, сосредоточенное на разработке ИИ. В отличие от большинства стартапов, которые арендуют вычислительные мощности облачных провайдеров, DeepSeek располагает собственными дата-центрами, что позволяет компании контролировать процессы оптимизации своих ИИ-моделей и ускорять внедрение инноваций. Благодаря самофинансированию DeepSeek имеет большую гибкость в принятии решений. Однако сообщается, что зарплаты некоторых исследователей в компании превышают $1,3 миллиона в год, что помогает привлекать высококвалифицированных специалистов из ведущих китайских университетов, тогда как иностранных специалистов в коллектив принимать не планируется.
Подобные факты ставят под сомнение реальность недавних заявлений компании о стоимости обучения новых моделей, которые как кажется, относятся только к затратам на графические процессоры для предварительного обучения. Не учитываются другие расходы, такие как исследовательские, затраты на доработку моделей, обработку данных и общие эксплуатационные расходы. С момента своего основания DeepSeek вложила более $500 миллионов в развитие ИИ. Несмотря на свою компактную структуру, которая позволяет быстро и эффективно внедрять новые технологии, эксперты утверждают, что успех DeepSeek во многом зависит от многомиллиардных инвестиций, технологических достижений и сильной команды, в то время как заявление о минимальных затратах выглядит несколько преувеличено.
Тем не менее, затраты на обучение ИИ-моделей у DeepSeek значительно ниже, чем у конкурентов. Например, обучение модели на «R1» обошлось в $5 миллионов, в то время как затраты на «ChatGPT-4» составили около $100 миллионов. Эти данные подчеркивают различия в подходах к финансированию и развитию технологий в сфере ИИ, а также демонстрируют возможности, которые открываются перед независимыми, но хорошо финансируемыми компаниями.