Первую версию большой языковой модели на казахском языке (KazLLM) планируется представить в декабре этого года. Об этом сообщил министр цифрового развития, инноваций и аэрокосмической промышленности РК Жаслан Мадиев на заседании Правительства, передает корреспондент агентства.
По словам министра, для развития исследований в области ИИ определены два основных направления. Первое — создание большой языковой модели на казахском языке (KazLLM) силами НУ и НИТ. Данная модель будет основана на 100 млрд токенов.
- Для обеспечения высокого качества модели критически важно собрать максимальное количество данных на казахском языке. Для этих целей будет проводиться национальный сбор данных — масштабная кампания по сбору данных на платформе Hugging Face. В настоящее время собрано 28 млрд токенов из открытых источников и порядка 100 терабайт данных из государственных и квазигосударственных органов, а также государственных архивов и СМИ, — пояснил Жаслан Мадиев.
Параллельно будет разработана KazLLM совместно с международными компаниями. Партнером арабской стороны выступит НИТ. Модель будет основана на 30-40 млрд токенов на основе данных из открытых источников. Проект будет реализован на безвозмездной основе.
- Планируется представить первую версию KazLLM в декабре текущего года. К 2029 году мы планируем довести количество патентов в области ИИ до показателя не менее 20 в год, — сказал глава Минцифры.