Российские IT-компании все чаще предоставляют доступ к своим датасетам и моделям для разработки. Например, «Яндекс» анонсировала датасет Yambda, используемый для обучения рекомендательных систем, а МТС открыла доступ к большой языковой модели, предназначенной для генерации кода. Это становится важным для стартапов и молодых разработчиков, так как реальное использование уже существующих технологий значительно снижает порог входа в индустрию.
Тем не менее, многие модели требуют оплаты или соблюдения строгих лицензионных соглашений. Открытые модели же имеют свои преимущества, так как их можно запускать локально, что позволяет сохранять данные в безопасности и тестировать ИИ в защищенных условиях. Разработчики могут адаптировать эти модели под свои конкретные нужды, а исследователи изучают их архитектуру для улучшения алгоритмов. Как отметили эксперты из MWS AI, доступность открытых данных способствует научным изысканиям.

Создание различных баз данных, таких как Materials Project и GitHub, подтверждает этот факт, однако часто данные имеют общую структуру и могут оказаться недостаточно специализированными. Аспирантка «Сколтеха» Александра Радина подчеркивает, что специалисты применяют любые подходящие открытые базы данных и коды, чтобы натренировать модели под конкретные задачи. Однако им зачастую приходится самим проводить многочисленные вычисления, создавать обучающие базы и улучшать существующие алгоритмы.
Александр Плошкин, руководитель направления по качеству персонализации в «Яндексе», подчеркивает, что для современных алгоритмов необходимо значительно больше объемов данных для обучения, чем можно найти в публично доступных источниках. Коммерческие решения часто используют терабайты данных, которых нет в открытом доступе, поскольку компании не готовы делиться ими из-за их высокой коммерческой ценности. Это обстоятельство вынуждает исследователей работать с устаревшими и ограниченными наборами данных.
По словам эксперта, ведущие компании в сфере рекомендательных систем активно ищут пути решения проблемы нехватки данных. Открытие своих датасетов является шагом, способствующим развитию технологий и стимулирующим инновации в данной области. Это, в свою очередь, открывает возможности для вузов и исследователей, позволяя им экспериментировать с новыми подходами, что в конечном итоге в значительной степени влияет на развитие бизнеса.
Компания активно сотрудничает с вузами, такими как НИУ ВШЭ, где обучают специалистов в области машинного обучения и высоконагруженных систем, и МФТИ, который предлагает магистратуру по ИИ и социальным медиа.
Формат совместных научных лабораторий показывает свою эффективность, позволяя студентам под руководством опытных менторов решать реальные R&D-задачи. Эта практика, включая привлечение аспирантов и научных сотрудников, способствует разработке решений с открытым кодом и участвует в создании значимых проектов.
Руководитель фронтирной лаборатории ИТМО, Николай Никитин, подчеркивает, что «Open Source»-практики помогают снизить барьеры для студентов, вовлекая их в значимые проекты. Развитие культуры открытости играет ключевую роль в укреплении позиций России в глобальной ИИ-экосистеме.
В ИТМО считают, что совместные лаборатории объединяют преимущества индустриальных и академических подходов и направляют ресурсы на создание конкурентоспособных продуктов, способствуя более эффективному использованию кадров, чем традиционный подход к трудоустройству студентов.