Microsoft и OpenAI подозревают, что китайский стартап DeepSeek мог получить доступ к технологиям OpenAI несанкционированным образом.
Эта информация была впервые обсуждена в Bloomberg, а затем подтверждена другими источниками.
Исследователи Microsoft в области кибербезопасности обнаружили, что в осень 2024 года определенные лица, по предположениям связанных с DeepSeek, скачали значительное количество данных через API OpenAI.
Разработчики могут легально использовать этот API, оплачивая лицензию для интеграции AI-моделей OpenAI в свои приложения.
Этим способом OpenAI получает доход, наряду с подпиской на «ChatGPT».
Microsoft, являясь стратегическим партнером и основным инвестором OpenAI, проинформировала компанию о выявленной деятельности, которая, предположительно, нарушает условия лицензирования API.
Дэвид Сакс, спецпредставитель администрации Трампа по криптовалютам и AI, также высказал мнение, что имеются серьезные доказательства того, что DeepSeek извлекает знания из моделей OpenAI.
Данные события поднимают вопросы о безопасности технологий и соблюдении лицензий в международном контексте.
Метод дистилляции в искусственном интеллекте, названный Саксом, представляет собой процесс, при котором менее сложная модель обучается на данных, предоставленных мощной нейросетью.
Такой подход позволяет значительно сократить ресурсы, избегая повторного затратного обучения и разметки данных, ведь инженеры могут просто перенять знания уже обученной модели.
Получаемая таким образом нейросеть может быть менее мощной, чем оригинал, но остается эффективной.
Артем Бондарь, руководитель направления обработки естественного языка в Т-Банке, отметил, что дистилляция изначально имела ограниченный успех из-за того, что ключевые способности языковых моделей формировались на этапе предварительного обучения с использованием больших объемов текстов из интернета.
Однако с моделью OpenAI o1 произошел значительный прорыв: она научилась строить логические цепочки перед формулировкой ответа, что стало сложной инженерной задачей, требующей глубоких исследований.
Дистилляция упростила этот процесс, что дало возможность обучать новые модели, перенимая логические рассуждения от более продвинутых нейросетей.
Этот подход значительно улучшает качество моделей при меньших затратах.
OpenAI не комментировала заявления Сакса, однако заявила о принятии мер для защиты своей интеллектуальной собственности и о важности сотрудничества с правительством США для предотвращения утечки технологий.
В последнее время начали обсуждать дообучение моделей на основе ответов, генерируемых ИИ от OpenAI.
По словам Владислава Беляева, исполнительного директора платформы AutoFAQ, суть в том, что «неправомерные данные» могут включать уже готовые ответы, которые не обязательно доступны в открытых источниках.
Главное в этом процессе - это механика формирования таких ответов, что также является ценным активом.
Но возникает вопрос, как отследить использование готовых моделей для дообучения, так как запросы к API могут не отличаться.
Выход на рынок приложения DeepSeek-R1, которое показало высокие результаты в тестах, вызвал панику среди инвесторов.
Акции компании NVIDIA резко упали на 17,8%, что отразилось на убытках в 600 миллиардов долларов, став рекордом для компании.
Другие компании, такие как Oracle и Dell, также понесли потери, а индекс Nasdaq Composite снизился на 3,5%.
DeepSeek-R1 рассматривается как конкурент ChatGPT и доступен пользователям бесплатно, за исключением коммерческого использования в других сервисах.
В ИИ-сфере продолжают развиваться новые научные открытия, архитектуры нейросетей и методы обработки данных, что подчеркивает важность актуальных наработок для разработчиков.
По словам эксперта Беляева, использование информации, опубликованной ведущими IT-корпорациями и научными учреждениями, которые занимаются искусственным интеллектом, не нарушает права, если код и данные распространяются под открытыми лицензиями.
Однако, некоторые датасеты могут быть защищены авторскими правами, что приводит к искам от новостных изданий или отдельных авторов к разработчикам ИИ.
Заявления Microsoft и Сакса о промышленном шпионаже, похоже, являются попыткой смягчить негативный имидж, который затронул американские технологические компании.
В то же время, DeepSeek выделяется своей открытостью. Компания делает свои разработки доступными в формате Open Source, предоставляя полную лицензию на коммерческое использование.
Вместе с релизами, DeepSeek представила подробный технический отчет, в котором освещены методологии создания моделей и технологические решения, приведшие к достижениям.
Такой открытый подход в индустрии является редкостью, и опыт DeepSeek впечатляет. Их отчет отличается высокой степенью детализации, однако это не означает, что каждый может легко воспроизвести их достижения.
Всё же, степень открытости нашей эпохи позволяет высокую вероятность успешного воспроизведения подходов компании, создавая новые стандарты для отрасли.
Также стоит отметить, что DeepSeek смогла добиться значительных результатов по обучению моделей, которые требуют меньших затрат, что выгодно отличает их от таких гигантов, как OpenAI и Google.
Отчет DeepSeek, вероятно, станет катализатором значительного прогресса в базовых технологиях индустрии.
Это важно, поскольку их подход открывает возможности для создания компактных, быстрых и эффективных моделей, специально адаптированных под определенные задачи.