Известные на сегодня ИИ обучаются на английском, чатджипити и др., или китайском и английском, дипсик. Есть отличие в их поведении?
Может ли модель создаваться для одного языка, а затем с нуля начинать обучение на другом? Конечно нейронки обучаются на любых цифровых выборках. Но для языковых моделей сам алгоритм может быть завязан на первоначальный вариант языка на котором происходит получение контекста окружающей действительности. На язык своего создателя, как бы громко это не звучало. Вряд-ли создаётся промежуточный язык на который "переводится" информация на произвольном языке в цифровом виде. Не было слышно о каком-то специальном образном языке для ИИ, в котором представлена информация в его недрах.
Не существует изначально русскоговорящей языковой модели. Можно ли используя алгоритмы английских и китайской ЯМ решать задачи носителя другого языка? Даже если исходный код ЯМ находятся в открытом доступе, а это не так для большинства ЯМ, он не предсказывают в полной мере поведение ИИ. Появление собственной ЯМ, русской, например, должно быть обязательным атрибутом для того кто хочет быть независимым в своих решениях. И похоже к этому подошли современные реалии.
Комментарии
— Месье, же не манж па сис жур...
— А теперь по-русски! (с)
В ЧатГПТ 3.5 разница в ответах на русском и английском была ну очень большой. Диксик сейчас по-английски отвечает подробнее.
Пишут, что нейросети, которые обучаются на токенах китайского языка получаются экономичнее, потому что у токенов китайского выше информационная ёмкость.
Конечно, качество ответа зависит от объёма информации на определённом языке.
А так, этот вопрос изучают сейчас, как ЯМ выдаёт ответ - сначала переводит на английский (другой основной язык) и потом ищет, либо как то иначе.
Почему же тогда отличаются ответы на разных языках.
Грубо если ответить, то из-за разного объёма обучающей выборки.
А тонкий ответ, что информация "проходит" по разным языковым "доменам" в многомерном пространстве, в котором закодирована информация о знании.
Прямой вопрос на английском идёт одним образом, вопрос на другом языке идёт в домен на этом языке, напрямую, либо через английский. Этот трек и ответ тогда будут разными.
Почему такой ответ либо другой, определить трудно, этим занимаются.
Всё равно не понимаю. ЧаГПТ 3.5 мог выдавать абсолютно разные ответы в зависимости от языка запроса. Тогда еще говорилось, что на маленьких языках у него гораздо меньше цензуры, говорить можно было практически о чем угодно.
Авторы дипсик многое стырили из исходников ChatGPT и взяли много обучающих данных тех же и много вопросов задали чатгопоте чтоб свою модель обучить на ответах. Есть даже версии что в OpenAI был или есть китайский шпион-программист
Поэтому и отличий мало и иногда дипсик отвечал людям что он - ChatGPT
Исходники на хотя бы ранние версии чатгпт открыты? ЯМ в основе англоязычные. Понятно это упрощённый взгляд, но практически весь объем обучающих выборок это "вопросы - ответы" на английском. Это логично, весь Интернет в базе английский.