Когда искусственный интеллект освоит казахский язык, рассказали в Минцифры

Первую версию большой языковой модели на казахском языке (KazLLM) планируется представить в декабре этого года. Об этом сообщил министр цифрового развития, инноваций и аэрокосмической промышленности РК Жаслан Мадиев на заседании Правительства, передает корреспондент агентства.

По словам министра, для развития исследований в области ИИ определены два основных направления. Первое — создание большой языковой модели на казахском языке (KazLLM) силами НУ и НИТ. Данная модель будет основана на 100 млрд токенов.

  • Для обеспечения высокого качества модели критически важно собрать максимальное количество данных на казахском языке. Для этих целей будет проводиться национальный сбор данных — ​масштабная кампания по сбору данных на платформе Hugging Face. В настоящее время собрано 28 млрд токенов из открытых источников и порядка 100 терабайт данных из государственных и квазигосударственных органов, а также государственных архивов и СМИ, — пояснил Жаслан Мадиев.

Параллельно будет разработана KazLLM совместно с международными компаниями. Партнером арабской стороны выступит НИТ. Модель будет основана на 30-40 млрд токенов на основе данных из открытых источников. Проект будет реализован на безвозмездной основе.

  • Планируется представить первую версию KazLLM в декабре текущего года. К 2029 году мы планируем довести количество патентов в области ИИ до показателя не менее 20 в год, — сказал глава Минцифры.

Добавить комментарий Отменить ответ

Exit mobile version