Публичный контент для обучения ИИ может иссякнуть к 2030 году
Исследователи из группы Epoch предупреждают, что при нынешнем темпе роста вычислительных мощностей и объема данных, доступных для обучения больших языковых моделей (LLM), к началу следующего десятилетия может закончиться публичный контент, созданный человеком. Это существенно затормозит развитие ИИ и потребует изменения стратегии их обучения.
На сегодняшний день LLM, такие как GPT, используют триллионы слов для своего обучения. Однако люди пишут относительно мало, и, по прогнозам, между 2026 и 2032 годами объем доступных данных может исчерпаться. Технологические компании столкнутся с острой нехваткой текстов, созданных людьми. А это ключевой источник данных для обучения ИИ.
Аналитики отмечают, что объем текстовых данных, используемых языковыми моделями, растет в 2,5 раза в год, а вычислительные мощности увеличиваются примерно в четыре раза ежегодно. Например, самая большая версия LLM, Llama 3, была обучена на 15 триллионах токенов, каждый из которых представляет собой слово или его часть.
Исследование указывает на несколько возможных путей решения проблемы: использование конфиденциальных данных, таких как электронная переписка и телефонные разговоры, или применение синтетических данных, которые ИИ генерируют самостоятельно. Однако использование личных данных сталкивается с серьезными проблемами конфиденциальности. Синтетические данные в свою очередь могут привести к так называемому «коллапсу модели», когда ИИ начинает повторять и усиливать собственные ошибки и предубеждения.
Если контент, созданный человеком, останется основным источником данных для ИИ, владельцы «качественных данных» — таких как Reddit и Wikipedia — станут обладателями настоящих сокровищ. Представители Фонда Викимедиа уже отметили, что обсуждение данных, как «природных ресурсов» становится все более актуальным.