Обзор проекта «BharatGen»: Индия представляет мультимодальные языковые модели в IIT Бомбей

09:24, 26 ноября

Отредактировано: Vera Mo

25 ноября 2025 года в Индийском технологическом институте (IIT) Бомбей состоялся обзор хода реализации проекта «BharatGen» — первой в Индии суверенной инициативы по созданию Большой Языковой Модели (LLM). Министр штата (независимый портфель) по науке и технологиям доктор Джитендра Сингх ознакомился с разработками, которые позиционируются как ключевой национальный актив в сфере искусственного интеллекта.

Профессор Ганеш Рамакришнан, ответственный за «BharatGen», представил функционал модели, подчеркнув ее ориентацию на индийские реалии. Проект нацелен на отражение лингвистического, культурного и социального многообразия Индии, обеспечивая поддержку более чем двадцати двух индийских языков. Система интегрирует три основные модальности: текст, речь и визуальное распознавание документов, что позволяет ей обрабатывать информацию в манере, естественной для индийских граждан. Инициатива соответствует видению премьер-министра Нарендры Моди о развитии технологий, укорененных в сильных сторонах Индии.

Финансирование проекта осуществляется в рамках Национальной миссии по междисциплинарным киберфизическим системам (NM-ICPS) Департамента науки и технологий (DST) через Технологический инновационный хаб при IIT Бомбей, куда было направлено 235 крор рупий. Министерство электроники и информационных технологий (MeitY) выделило дополнительную поддержку в размере 1 058 крор рупий в рамках Миссии Индии по ИИ (India AI Mission). Общая государственная поддержка проекта «BharatGen» достигла 1 293 крор рупий.

В ходе обзора были представлены ключевые разработанные модели. Среди них — Param-1, базовая текстовая модель с 2,9 миллиардами параметров, обученная на 7,5 триллионах токенов, где более трети данных составлял индийский контент. Эта модель, выпущенная в июле 2025 года, использует токенизатор, осведомленный о скриптах, что критически важно для индийских языков. Также были продемонстрированы Shrutam, система автоматического распознавания речи (ASR) с 30 миллионами параметров, и Sooktam, модель преобразования текста в речь (TTS) с 150 миллионами параметров, доступная на девяти индоязычных диалектах.

Индия также представила свою первую модель для работы с документами — Patram, обладающую семью миллиардами параметров и обученную на 2,5 миллиардах токенов для интерпретации сложных документов в индийских форматах. В качестве доказательства концепции были продемонстрированы прикладные решения, такие как Krishi Sathi, инструмент для фермеров, работающий через WhatsApp с голосовым управлением, и e-VikrAI, генерирующий описания продуктов по одному изображению. Важным элементом, обеспечивающим цифровую суверенность, является Bharat Data Sagar — репозиторий данных, разработанный для обеспечения полного владения и контроля Индии над своими цифровыми знаниями. В консорциум входят ведущие учреждения, включая IIT Мадрас, IIIT Хайдарабад и IIT Канпур.

Large Language Models (LLMs)

BharatGen

28 Просмотров

Источники

newKerala.com
Jammu Kashmir Latest News | Tourism | Breaking News J&K
ANI News
PIB Delhi
Indian PSU | Public Sector Undertaking News
The Economic Times
ET Edge Insights
ANI News
BABL AI
PIB Delhi
PIB Delhi

Читайте больше новостей по этой теме:

03 марта

Сериал «Избранные» установил рекорд Гиннесса по лингвистическому охвату

23 февраля

Нейронная синхронность у билингвальных матерей и детей сохраняется независимо от языка общения

23 февраля

Нейробиологические данные подтверждают когнитивные преимущества рукописного ввода перед клавиатурой

Вы нашли ошибку или неточность?Мы учтем ваши комментарии как можно скорее.