Как создавали первую большую языковую модель KazLLM
В Казахстане завершена работа над первой версией большой языковой модели на казахском языке (KazLLM). Kazinform побеседовал с разработчиками до того, как их детище накануне было презентовано Главе государства. Что сегодня тормозит развитие ИИ в стране и почему так важен вопрос наличия серверов - аналитическому обозревателю агентства рассказала заместитель директора по внешним связям и продукту, старший аналитик данных Института умных систем и искусственного интеллекта (ISSAI) при NU Мадина Абдрахманова.
- В контексте исследований в области ИИ создание большой языковой модели на казахском языке (KazLLM) имеет важнейшее значение. Можно ли сказать, что это базовая платформа для всей дальнейшей работы в этой сфере?
- Это основополагающий фундамент, вокруг которого в будущем все наше казахстанское IT сообщество сможет создавать продукты и сервисы, основанные на отечественных разработках.
Сейчас многие из нас используют чат GPT. Проблема в том, что когда вы работаете с ним, особенно в бесплатной версии, все ваши данные утекают. Поэтому очень важно было создать отечественную языковую модель. Это делают все развитые государства: Корея, Китай, Арабские Эмираты, Великобритания, Франция и другие. Они создают языковые модели сфокусированные на их мировоззрении, на их менталитете, культурных особенностях, истории. Казахстан, таким образом, становится в один ряд с этими передовыми странами.
- Когда вы собираетесь представить KazLLM широкой общественности?
- Технически мы готовимся к запуску. Делаем последние тренировки. Мы оговаривали, что модель будет представлена ко Дню Независимости Казахстана как символ суверенитета в сфере искусственного интеллекта. Я надеюсь, что она окажет позитивное влияние на развитие экосистемы в этой сфере. Потому что у нас, действительно, много талантливых стартаперов, у нас есть очень сильные телекоммуникационные и финтех компании, которые заинтересованы в этой разработке.
- Что представляет собой большая языковая модель, если говорить подробнее, и как шла работа над этим проектом?
- Наш институт был образован в 2019 году. Это была небольшая команда, работающая над созданием различных моделей искусственного интеллекта. Наша главная задача - продвижении науки. Тем не менее, именно это позволило получить бесценный опыт, чтобы выйти в последующем на такой легендарный проект. На протяжении предыдущих четырех лет мы не только создавали модели, но мы также создавали данные. Мы вообще были одними из первых, кто начал создавать данные для оцифровки казахского языка.
Работа над проектом началась в апреле 2024 года. Так как сейчас на территории Казахстана не существует серверов, которые поддерживают тренировку такой большой языковой модели, мы обратились к облачным провайдерам. Порядка 95 процентов всей использованной информации собирали в открытых источниках. Дополняли данные с помощью перевода, пользуясь собственными наработками, поскольку в нашей команде есть не только инженеры по машинному обучению, которые умеют программировать и тренировать модели, но также хорошая команда лингвистов.
Таким образом, было собрано свыше 150 млрд токенов. Токен - это единица данных. Мы можем сказать, что, токен - это, по сути, слово. Параметры больших языковых моделей построены на трансформерах, которые требуют миллиарды параметров. Конкретно мы работаем над двумя вариациями 8-миллиардной и 70 миллиардной моделями. И это еще не самые крупные. Например, мы знаем, что модель, которая находится под движком OpenAI, насчитывает около триллиона параметров. Есть также модель от МЕТА - LLaMA, которая насчитывает 405 млрд параметров.
Мы же сфокусировались на создании оптимизированной модели для нашего сообщества, чтобы любой гражданин нашей страны, независимо от того на каком языке он разговаривает, мог получить потенциальные услуги.
Наша модель сможет понимать казахский, русский, английский турецкий языки, исполнять определенные задачи, переводить, либо делать выжимку из текста, что очень важно для аналитической работы.
- Работа большой языковой модели базируется на текстовых сообщениях. Но я правильно понимаю, что вы только в начале пути?
- Мы бы, конечно, хотели, чтобы эта модель понимала голос и, например, изображение. Вообще, в принципе, наилучший способ следующего пути – предоставление изображений. Например, есть такое приложение Midjourney, которое часто используется нашими контент-креаторами. Gemini и OpenAI – также понимают фотографии. Это очень важно, например, в делопроизводстве.
Если мы посмотрим на мировой ландшафт, то увидим очень много продуктов, где объединяется языковая модель с пониманием изображения, но не так много продуктов и моделей, где используется аудио голос. Это еще более сложная проблема. Но тем не менее мы работаем и в этом направлении.
В частности, нашей командой разработано первое многофункциональное казахстанское приложение Soyle App на основе фундаментальной речевой модели. Если KAZ-LLM это научный проект, то Soyle App это полноценный продукт на основе ранних исследовательских работ института.
Мы начали работать над этим проектом в июне этого года и 20 ноября, совсем недавно, представили его широкой общественности.
Soyle может не только переводить на четыре языка: казахский, русский, английский и турецкий. Она может переводить речь в текст, текст в речь, текст в другой язык, а также прыгать с одного языка на другой. Она пока не может этого делать в режиме реального времени. Это еще на этапе разработки.
- В начале вы кратко затронули вопрос сохранения персональных данных. Можно ли сегодня сказать, что есть риск в этой сфере, если государственные органы будут пользоваться бесплатными приложениями?
- Я думаю, это риск для всех нас. Когда мы используем чат GPT, бесплатную версию, либо другие приложения – это всегда делается по такому принципу: вы не платите деньги, но зато вы платите своими данными, что сейчас еще ценнее. Считается, что данные – это новое золото. Это аспект многие не понимают, либо не улавливают. Соответственно, это может быть определенным риском не только для госорганов, но и для других пользователей в зависимости от тех задач, которые они исполняют.
Для госорганов очень важно использовать приложения, которые прошли определенную сертификацию и запущены на территории Казахстана.
- Можно ли сказать, что это отчасти вопрос ИИ-суверенитета?
- Это действительно вопрос ИИ- суверенитета страны. В целом, наш подход как исследовательского института состоит в том, чтобы наши разработки были лучшими друзьями, облегчали жизнь, могли решать рутинные задачи, что позволит вывести продуктивность человека на высший уровень, улучшить общее качество жизни.
Мы надеемся, что инвесторы будут вкладывать деньги не только в нас, но и в другие центры по стране для того, чтобы усиливать наш суверенитет в этой сфере.
- Много ли выпускников NU из тех ребят, что работают в вашей команде?
- Половина нашей команды – выпускники Назарбаев Университета. Обычно наша проблема в том, что многие талантливые ребята, получив образование, уезжают за рубеж. Но благодаря этим двум проектам мы смогли удержать их, подключить к интересной работе.
Мы и зашли в этот проект, потому что хотели передать нашим сотрудникам ценный опыт. Центров по разработке больших языковых моделей в мире немного. Попасть в эти команды очень тяжело. И то, что появилась возможность обучить наших ребят, а у нас в команде уже 70 человек, это был просто подарок судьбы. За год мы смогли получить невероятное ноу хау. При этом проект ведется на спонсорские деньги, без участия государственного бюджета.
Наша казахстанская молодежь уникальна, она мотивирована, она быстро обучаема, и она может делать великолепные вещи. В конце концов самый главный показатель именно в том, что казахстанцы, при достаточном финансировании, могут делать разработки на уровне западных компаний и лабораторий.
- В стране была принята концепция по развитию искусственного интеллекта до 2029 года, которая как раз и призвана сформировать инфраструктуру и человеческий капитал для нашего прорыва в этой сфере. Вы находитесь внутри этого процесса и нам интересно в этом контексте ваше видение происходящих процессов.
- Если говорить о развитии искусственного интеллекта, есть три важных компонента. Первое – это данные. Данные можно найти, создать, собрать различными способами. Второе - человеческий капитал. Кадры можно взрастить, научить, дать финансирование. Третье – оборудование. Мы смогли заниматься искусственным интеллектом с 2019 года потому, что руководством университета в этом ключе были созданы все условия. Мы являемся первой и единственной на данный момент академической организацией в Центральной Азии, которая имеет сервера производства Nvidia, главного поставщика чипов и серверов для работы с искусственным интеллектом.
Но, к сожалению, на данный момент есть определенные сложности с поставками. Это задерживает развитие искусственного интеллекта у нас в стране.
С точки зрения разработчиков мы видим, что первые два компонента можно восполнить, можно найти деньги, а казахстанские сервера, через которые, к сожалению, невозможно работать – это замедляющий фактор. И с этим сталкиваются все стартапы, которые тоже вынуждены использовать облачные решения.
Если приобрести сервера для Казахстана мы получим не только опыт по тренировке моделей, но и еще более ценный опыт работы с этими серверами.
10 декабря KazIM был выложен командой ISSAI в открытый доступ на международном портале HuggingFace. 11 декабря Директор ISSAI профессор NU Хусейн Атакан Варол представил SoyleApp и KazLLM Главе государства Касым-Жомарту Токаеву.
На данный момент, Институт рассматривает дальнейшее развитие обоих проектов в 2025 г.