Доступ к датасетам и моделям для разработки в российских IT-компаниях

Июн 20, 2025 / 18:27

Российские IT-компании все чаще предоставляют доступ к своим датасетам и моделям для разработки. Например, «Яндекс» анонсировала датасет Yambda, используемый для обучения рекомендательных систем, а МТС открыла доступ к большой языковой модели, предназначенной для генерации кода. Это становится важным для стартапов и молодых разработчиков, так как реальное использование уже существующих технологий значительно снижает порог входа в индустрию.

Тем не менее, многие модели требуют оплаты или соблюдения строгих лицензионных соглашений. Открытые модели же имеют свои преимущества, так как их можно запускать локально, что позволяет сохранять данные в безопасности и тестировать ИИ в защищенных условиях. Разработчики могут адаптировать эти модели под свои конкретные нужды, а исследователи изучают их архитектуру для улучшения алгоритмов. Как отметили эксперты из MWS AI, доступность открытых данных способствует научным изысканиям.

Доступ к датасетам и моделям для разработки в российских IT-компаниях

Создание различных баз данных, таких как Materials Project и GitHub, подтверждает этот факт, однако часто данные имеют общую структуру и могут оказаться недостаточно специализированными. Аспирантка «Сколтеха» Александра Радина подчеркивает, что специалисты применяют любые подходящие открытые базы данных и коды, чтобы натренировать модели под конкретные задачи. Однако им зачастую приходится самим проводить многочисленные вычисления, создавать обучающие базы и улучшать существующие алгоритмы.

Александр Плошкин, руководитель направления по качеству персонализации в «Яндексе», подчеркивает, что для современных алгоритмов необходимо значительно больше объемов данных для обучения, чем можно найти в публично доступных источниках. Коммерческие решения часто используют терабайты данных, которых нет в открытом доступе, поскольку компании не готовы делиться ими из-за их высокой коммерческой ценности. Это обстоятельство вынуждает исследователей работать с устаревшими и ограниченными наборами данных.

По словам эксперта, ведущие компании в сфере рекомендательных систем активно ищут пути решения проблемы нехватки данных. Открытие своих датасетов является шагом, способствующим развитию технологий и стимулирующим инновации в данной области. Это, в свою очередь, открывает возможности для вузов и исследователей, позволяя им экспериментировать с новыми подходами, что в конечном итоге в значительной степени влияет на развитие бизнеса.

Компания активно сотрудничает с вузами, такими как НИУ ВШЭ, где обучают специалистов в области машинного обучения и высоконагруженных систем, и МФТИ, который предлагает магистратуру по ИИ и социальным медиа.

Формат совместных научных лабораторий показывает свою эффективность, позволяя студентам под руководством опытных менторов решать реальные R&D-задачи. Эта практика, включая привлечение аспирантов и научных сотрудников, способствует разработке решений с открытым кодом и участвует в создании значимых проектов.

Руководитель фронтирной лаборатории ИТМО, Николай Никитин, подчеркивает, что «Open Source»-практики помогают снизить барьеры для студентов, вовлекая их в значимые проекты. Развитие культуры открытости играет ключевую роль в укреплении позиций России в глобальной ИИ-экосистеме.

В ИТМО считают, что совместные лаборатории объединяют преимущества индустриальных и академических подходов и направляют ресурсы на создание конкурентоспособных продуктов, способствуя более эффективному использованию кадров, чем традиционный подход к трудоустройству студентов.

По материалам: news.rambler.ru