
ChatGPT уже настолько загрязнил интернет мусорным контентом, что это может привести к оглуплению ИИ

Стремительный рост ChatGPT и других генеративных моделей конкурентов уже загрязнили интернет таким количеством хлама, что это тормозит развитие будущих моделей искусственного интеллекта.
Как сообщает издание The Register, генеративные модели уже создали большое количество контента — достаточное, чтобы другие ИИ обучались именно на их творениях. В результате это напоминает игру в «испорченный телефон», в которой все игроки стремительно глупеют. В индустрии такой сценарий развития называют «коллапсом модели».
Кроме того, проявляется и другой интересный эффект: данные из той версии интернета, которая предшествовала активному росту ChatGPT и других ИИ, стали представлять чрезвычайную ценность. The Register проводит аналогию со сталью, которая производилась до первых ядерных испытаний в США в июле 1945 года. Так же, как резкий рост генеративных моделей испортил интернет, так и ядерные взрывы в результате привели к тому, что радионуклиды проникли во все образцы стали, произведенные после. Из‑за этого "чистая" сталь ценится при производстве высокочувствительных научных и медицинских приборов, где малая радиоактивность может исказить результаты измерений, а главным ее источником стали корабли времен Первой и Второй мировых войн.
Научный сотрудник Центра изучения экзистенциального риска при Кембриджском университете Морис Чиодо в своем комментарии изданию заявил, что использование данных, произведенных до 2022 года, позволяет быть уверенным в минимальном наличии «загрязнения» от ИИ. В свою очередь, более поздние данными нельзя назвать «безопасными, хорошими и чистыми». При этом доступный источник «чистых данных» необходим не только для предотвращения коллапса модели, но и обеспечения честной конкуренции между разработчиками ИИ. В противном случае ранние разработчики получат преимущество в будущем, уничтожив способность конкурентных моделей обучаться на «чистых данных» благодаря популярности ИИ в настоящем.
Исследователи уже несколько лет бьют тревогу — даже если коллапса модели не произойдет, загрязнение интернета по‑прежнему является актуальной проблемой, и его очистка будет либо непомерно дорогой, либо попросту невозможной.
Одной из областей, где уже существуют трудности из‑за загрязнения интернета, авторы статьи называют генерацию дополненного поиска (RAG), которая используется для поиска актуальных данных при использовании ИИ. Модели могут основывать свои ответы на ранее сгенерированном другими ИИ контенте, в результате чего чат‑боты выдают гораздо более «небезопасные» ответы.
Чиодо предполагает, что вероятным способом хотя бы частичного решения проблемы может стать регулирование — например, маркировка произведенного ИИ контента. По его словам, более жесткие правила помогут очистке, но будут трудно осуществимы.
Вот хороший пример загрязнения интернета "мусором" от ИИ. Как писал недавно Otkrito.lv, одна из ведущих американских газет опубликовала недавно на своих страницах список книг на летнее чтение, которых не существует. Эти книги зачем-то сгенерировал ИИ, и люди поверили, что такое чтение действительно есть. Теперь эти выдуманные чат-ботом "произведения" могут вновь и вновь всплывать при новых запросах пользователей как настоящие.