Он отметил, что из-за нехватки токенов популярный на сегодняшний день ChatGPT не может полноценно генерировать тексты и отвечать корректно на казахском языке.
— Для того, чтобы ChatGPT полноценно говорил и правильно отвечал, нужно порядка 13 миллиардов токенов. На сегодня сам ChatGPT насчитывает всего порядка 1,5 миллиарда токенов, что в 10 раз меньше. Почему? Потому что корпус открытых данных, которые есть в мире, всего насчитывает столько данных. Поэтому большая задача сегодня состоит в том, чтобы разработать отечественную версию с нашими библиотеками, с произведениями, с учетом менталитета казахстанского и так далее, — сказал Рустем Бигари.
По его словам, отечественную модель ChatGPT представят казахстанцам к концу текущего года. При этом МЦРИАП РК окажет поддержку разработчикам и бизнесменам. Сумму, необходимую для создания казахстанского ChatGPT, спикер не назвал.
— Бюджет сегодня только формируется. Цифру мы не можем сейчас сказать. Потому что создается языковая модель из нескольких этапов. Необходимо не только собрать данные, нужна еще потом большая работа лингвистов, которые правильно должны все разметить. Ну и большое участие граждан планируется в развитии разметки языка. Например, Корея тратит миллиарды гражданам для того, чтобы они помогали развивать собственную языковую модель. Такой же подход будет, — отметил гендиректор центра поддержки цифрового правительства.