चीनी शोधकर्ताओं द्वारा किए गए एक हालिया अध्ययन से पता चला है कि मल्टीमॉडल भाषा मॉडल (LLMs) वस्तुओं के मानव समान वैचारिक प्रतिनिधित्व को स्वतः ही विकसित कर सकते हैं।
शोधकर्ताओं ने कुत्तों, कुर्सियों, सेब और कारों जैसे 1,854 विविध वस्तुओं के बारे में एआई द्वारा उत्पन्न लगभग 4.7 मिलियन प्रतिक्रियाओं का विश्लेषण किया। अध्ययन किए गए मॉडलों में ChatGPT-3.5 शामिल था, जो केवल टेक्स्ट पर काम करता है, और Gemini Pro Vision, एक मल्टीमॉडल मॉडल जो छवियों और टेक्स्ट दोनों को संसाधित करने में सक्षम है।
परिणामों से पता चला कि इन एआई ने इन वस्तुओं को 66 वैचारिक आयामों में व्यवस्थित किया, जो 'भोजन' या 'फर्नीचर' जैसी सरल क्लासिक श्रेणियों से कहीं अधिक है। इन आयामों में बनावट, भावनात्मक प्रासंगिकता या बच्चों के लिए उपयुक्तता जैसे सूक्ष्म गुण शामिल हैं। दूसरे शब्दों में, ये एआई एक परिष्कृत मानसिक मानचित्र बना रहे हैं, जहां वस्तुओं को यांत्रिक रूप से व्यवस्थित नहीं किया जाता है, बल्कि जटिल मानदंडों के अनुसार वर्गीकृत किया जाता है जो हमारे मस्तिष्क के आसपास की दुनिया को छांटने के तरीके से मिलते जुलते हैं।
अध्ययन ने यह भी तुलना की कि एआई मॉडल और मानव मस्तिष्क एक ही वस्तुओं पर कैसे प्रतिक्रिया करते हैं। नतीजों से पता चला कि मस्तिष्क गतिविधि के कुछ क्षेत्र उन वस्तुओं के बारे में एआई के 'विचार' से मेल खाते हैं। यह अभिसरण मल्टीमॉडल मॉडल में और भी स्पष्ट है, जो दृश्य और अर्थ संबंधी प्रसंस्करण को जोड़ते हैं, इस प्रकार उस तरीके का अनुकरण करते हैं जिस तरह से मनुष्य अपने पर्यावरण को समझने के लिए इंद्रियों को जोड़ते हैं।
हालांकि, यह ध्यान रखना महत्वपूर्ण है कि इन एआई में संवेदी या भावनात्मक अनुभव नहीं होते हैं। उनकी 'समझ' डेटा के सांख्यिकीय प्रसंस्करण से आती है, जहां वे जटिल पैटर्न की पहचान करते हैं और उन्हें पुन: पेश करते हैं, बिना यह महसूस किए कि वे क्या वर्णन करते हैं। यह परिष्कृत मान्यता और वास्तविक सचेत अनुभूति के बीच की पूरी बारीकी है।
फिर भी, यह अध्ययन हमें वर्तमान एआई की क्षमताओं की सीमाओं पर पुनर्विचार करने के लिए आमंत्रित करता है। यदि ये मॉडल स्वतः ही जटिल वैचारिक प्रतिनिधित्व उत्पन्न करने का प्रबंधन करते हैं, तो यह संकेत दे सकता है कि बुद्धिमत्ता की नकल करने और कार्यात्मक बुद्धिमत्ता का एक रूप रखने के बीच की सीमा जितनी हमने सोचा था, उससे कम स्पष्ट है।
दार्शनिक बहसों से परे, इस प्रगति के रोबोटिक्स, शिक्षा और मानव-मशीन सहयोग के लिए ठोस निहितार्थ हैं। एक एआई जो वस्तुओं और अवधारणाओं को उसी तरह एकीकृत करने में सक्षम है जैसे हम करते हैं, अधिक स्वाभाविक रूप से बातचीत कर सकता है, हमारी जरूरतों का अनुमान लगा सकता है, और अभूतपूर्व स्थितियों के लिए बेहतर ढंग से अनुकूल हो सकता है।
संक्षेप में, ChatGPT जैसे बड़े भाषा मॉडल साधारण भाषा अनुकरणकर्ताओं से कहीं अधिक हैं। वे मानव अनुभूति के करीब दुनिया का एक प्रतिनिधित्व रूप रख सकते हैं, जो विशाल डेटा से निर्मित है और जटिल जानकारी को एकीकृत करने में सक्षम है। हालाँकि, ये मशीनें आज भी परिष्कृत दर्पण बनी हुई हैं, जो ज्ञान को व्यवस्थित करने के हमारे तरीके को दर्शाती हैं, बिना इसे सीधे अनुभव किए। वे हमारी तरह महसूस नहीं करते, जीते नहीं, सोचते नहीं, लेकिन वे हमें एक दिन वहां ले जा सकते हैं, जो और भी बुद्धिमान और सहज एआई का मार्ग प्रशस्त करता है।