印度主权AI项目“BharatGen”展示多模态模型进展，聚焦技术自主

09:24, 26 十一月

编辑者： Vera Mo

印度首个主权大型语言模型（LLM）倡议“BharatGen”的最新进展，已于2025年11月25日在印度理工学院孟买分校（IIT Bombay）接受正式审查。此次审查由印度科技部国务部长（独立掌管）吉滕德拉·辛格博士主持，BharatGen的负责人加尼什·拉马克里希南教授汇报了该模型作为国家未来人工智能资产的运作状态。此项技术展示明确了该项目在关键的生成式人工智能系统领域实现技术自给自足的战略轨迹，这是印度数字未来的核心要求。

BharatGen的架构设计旨在深度融合印度广阔的语言、文化和社会图景，并明确声明其能力可支持超过二十二种印度官方语言。功能上，该系统集成了文本处理、语音识别与生成以及文档视觉三大核心模态，使其能够解读和生成符合印度公民自然交流模式的信息。此项技术发展与总理纳伦德拉·莫迪所阐述的战略愿景高度契合，即着重于开发植根于并能反映印度独特国家优势与传统的解决方案。

该重大工程的财政基础由科学与技术部（DST）通过国家跨学科信息物理系统国家任务（NM-ICPS）提供，该任务通过位于孟买IIT的技术创新中心（TIH）拨付了初步的2.35亿卢比资金。此外，电子和信息技术部（MeitY）根据全面的“印度人工智能任务”（India AI Mission）框架，又额外获得了高达1,058亿卢比的专项追加资金，凸显了政府对实现BharatGen宏大目标和规模的协同高层承诺。

审查期间，核心团队展示了数个关键的基石模型，包括作为主要文本LLM的Param-1，其拥有29亿参数，并在7.5万亿个标记（tokens）的庞大语料库上进行了训练，其中超过三分之一的训练数据明确包含印度本土内容。与文本能力相辅相成的是Shrutam，一个拥有3000万参数的自动语音识别（ASR）系统，以及Sooktam，一个拥有1.5亿参数的文本到语音（TTS）模型，目前已在九种印度语言中投入使用。

该倡议在视觉处理方面也取得了突破，推出了Patram，被认为是印度首个文档视觉模型，它利用70亿参数，在25亿标记的数据集上进行训练，以精确解析印度各类文档格式的复杂性。为验证这些基础资产的实际效用，演示了概念验证应用，其中最引人注目的是Krishi Sathi，一个通过WhatsApp部署的语音辅助工具，专门设计用于向全国农民群体提供可操作的信息和支持。

确保长期战略自主权的关键要素是Bharat Data Sagar，这是一个国家级知识资源库的建立，旨在确保印度对其不断增长的数字知识资源的绝对所有权和治理权，从而巩固国家的数字主权。BharatGen的这种系统性、模块化构建方法，旨在创建一个全面的多模态人工智能生态系统，该生态系统不仅要满足技术前沿，更要根植于印度独特的文化和语言现实。

该国家级努力的协作性质体现在其联盟结构中，汇集了印度顶尖的技术机构，包括印度理工学院马德拉斯分校、海得拉巴印度信息技术学院以及印度理工学院坎普尔分校等。这种多机构伙伴关系对于汇集维持和推进如此规模项目所需的专业知识和计算资源至关重要，确保最终形成的人工智能框架在快速演变的人工智能发展格局中是稳健、包容且具有全球竞争力的。