Indie prezentują BharatGen: Wielomodalne modele językowe dla suwerenności AI

09:24, 26 listopada

Edytowane przez: Vera Mo

25 listopada 2025 roku dr Jitendra Singh, Minister Stanu (niezależny portfel) ds. Nauki i Technologii, dokonał przeglądu postępów projektu BharatGen w Indyjskim Instytucie Technologicznym (IIT) Bombay. Inicjatywa ta stanowi pierwszy suwerenny wysiłek Indii na rzecz opracowania Wielkiego Modelu Językowego (LLM). Profesor Ganesh Ramakrishnan, profesor nadzorujący projekt, przedstawił BharatGen jako przyszły krajowy zasób sztucznej inteligencji, podkreślając jego znaczenie dla zapewnienia autonomii technologicznej państwa.

BharatGen to finansowane ze środków państwowych przedsięwzięcie, którego celem jest stworzenie wydajnej i inkluzywnej sztucznej inteligencji skoncentrowanej na językach indyjskich. Model ten został zaprojektowany tak, aby odzwierciedlać lingwistyczną, kulturową i społeczną mozaikę Indii, oferując wsparcie dla ponad dwudziestu dwóch języków indyjskich. Integracja trzech głównych modalności – tekstu, mowy oraz wizji dokumentów – umożliwia mu przetwarzanie informacji w sposób naturalny dla komunikacji obywateli. Strategia ta wpisuje się w wizję premiera Narendry Modiego dotyczącą technologii zakorzenionej w mocnych stronach Indii, mającej na celu budowanie inkluzywnej przyszłości cyfrowej.

Projekt jest realizowany w ramach szerszej misji IndiaAI, mającej na celu redukcję zależności od technologii zagranicznych, co jest kluczowe dla samowystarczalności technologicznej kraju. Finansowanie pochodzi z Departamentu Nauki i Technologii (DST) w ramach Krajowej Misji ds. Interdyscyplinarnych Systemów Cyber-Fizycznych (NM-ICPS), z kwotą 235 crore rupii przekazaną przez Ośrodek Innowacji Technologicznych (Technology Innovation Hub) na IIT Bombay. Dodatkowo, Ministerstwo Elektroniki i Technologii Informacyjnych (MeitY) wsparło projekt kwotą ₹1,058 crore w ramach Misji India AI, co podnosi całkowite wsparcie rządowe do ₹1,293 crore. Całkowity budżet Misji IndiaAI wynosi 10,000 crore rupii, z czego znacząca część jest przeznaczona na zdolności obliczeniowe niezbędne do trenowania zaawansowanych modeli.

Podczas przeglądu zaprezentowano kluczowe modele rozwijane w ramach inicjatywy. Param-1, model bazowy tekstu, posiada 2,9 miliarda parametrów i był trenowany na 7,5 biliona tokenów, z czego ponad jedna trzecia to treści indyjskie; wcześniej trenowano go na pięciu bilionach tokenów w językach angielskim i hindi. Wśród zaprezentowanych systemów znalazły się także Shrutam, system automatycznego rozpoznawania mowy (ASR) z 30 milionami parametrów, oraz Sooktam, model syntezy mowy (TTS) z 150 milionami parametrów, obsługujący dziewięć języków indyjskich. Indie zaprezentowały także Patram, swój pierwszy model wizji dokumentów, posiadający siedem miliardów parametrów i trenowany na 2,5 miliarda tokenów, specjalnie do interpretacji złożonych dokumentów w formatach indyjskich.

Demonstracje obejmowały praktyczne zastosowania, takie jak Krishi Sathi, narzędzie WhatsApp z obsługą głosu przeznaczone dla rolników, oraz Docbodh, platforma oparta na Patram, która upraszcza skomplikowane dokumenty, wspierając administrację i cyfrową inkluzywność. Fundamentalnym elementem projektu jest Bharat Data Sagar, repozytorium danych stworzone w celu zagwarantowania Indiom pełnej własności i kontroli nad ich zasobami wiedzy cyfrowej, wzmacniając suwerenność cyfrową. Konsorcjum BharatGen, kierowane przez IIT Bombay, obejmuje wiodące instytucje, w tym IIT Madras, IIIT Hyderabad, IIT Kanpur, IIT Mandi, IIM Indore i IIIT Delhi, tworząc solidną podstawę dla badań dostosowanych do unikalnego krajobrazu społeczno-kulturowego Indii.

Large Language Models (LLMs)

BharatGen

28 Wyświetlenia

Źródła

newKerala.com
Jammu Kashmir Latest News | Tourism | Breaking News J&K
ANI News
PIB Delhi
Indian PSU | Public Sector Undertaking News
The Economic Times
ET Edge Insights
ANI News
BABL AI
PIB Delhi
PIB Delhi

Przeczytaj więcej wiadomości na ten temat:

03 marca

Serial "The Chosen" ustanawia rekord Guinnessa w tłumaczeniu na 125 języków

23 lutego

Synchronia Międzymózgowa Matek Dwujęzycznych Utrzymana Niezależnie od Języka Interakcji

23 lutego

Badania potwierdzają wyższość pisma ręcznego nad klawiaturą w utrwalaniu pamięci

Czy znalazłeś błąd lub niedokładność?Rozważymy Twoje uwagi tak szybko, jak to możliwe.