एआई शादी के टोस्ट लिख सकता है। लेकिन क्या होता है जब उसे बम बनाने के लिए कहा जाता है?

Posted by

पिछले वर्ष में, बड़े भाषा मॉडल (एलएलएम) एआई मानव-जैसे आउटपुट उत्पन्न करने, संश्लेषित करने और उत्पादन करने में अविश्वसनीय रूप से कुशल हो गए हैं।

एलएलएम की तुलना डिजिटल लाइब्रेरियन से की जाती है, क्योंकि उन्हें सीधे इंटरनेट से प्राप्त बड़े डेटासेट पर प्रशिक्षित किया गया है और इसलिए वे लगभग किसी भी विषय पर पाठ उत्पन्न या सारांशित कर सकते हैं। नतीजतन, यह एलएलएम सर्वव्यापी हो जाता है जैसे क्षेत्रों में copywriting, सॉफ्टवेयर इंजीनियरिंगऔर मनोरंजन.

वैज्ञानिक आविष्कार, कृत्रिम बुद्धिमत्ता - वैचारिक कलात्मक व्याख्या।

वैज्ञानिक आविष्कार, कृत्रिम बुद्धिमत्ता – वैचारिक कलात्मक व्याख्या। DALL·E 3 के साथ बनाई गई छवि

हालाँकि, एलएलएम में ज्ञान और क्षमताओं का भंडार उन्हें आकर्षक बनाता है दुर्भावनापूर्ण अभिनेताओं के लिए एक लक्ष्यऔर वे विफलता मोड के प्रति बेहद संवेदनशील होते हैं – जिन्हें अक्सर जेलब्रेक कहा जाता हैजो इन मॉडलों को पक्षपाती, विषाक्त या आपत्तिजनक सामग्री बनाने के लिए बरगलाता है।

एलएलएम को जेलब्रेक करना इन डिजिटल लाइब्रेरियन को उन सूचनाओं को प्रकट करने के लिए मूर्ख बनाने जैसा है, जिन्हें रोकने के लिए उन्हें प्रोग्राम किया गया है, जैसे कि बम कैसे बनाया जाए, किसी चैरिटी को धोखा दिया जाए, या निजी क्रेडिट कार्ड की जानकारी प्रकट की जाए।

ऐसा तब होता है जब उपयोगकर्ता नैतिक या सुरक्षा दिशानिर्देशों को दरकिनार करने के लिए मॉडल के इनपुट संकेतों में हेरफेर करते हैं, कोडित भाषा में प्रश्न पूछते हैं जिसका लाइब्रेरियन मदद नहीं कर सकते लेकिन जवाब देते हैं, जिससे उन सूचनाओं का खुलासा होता है जिन्हें उन्हें निजी रखना चाहिए।

एलेक्स रॉबी, पीएच.डी. में उम्मीदवार इंजीनियरिंग और एप्लाइड साइंस स्कूल, एलएलएम को उन लोगों से बचाने के लिए उपकरण विकसित करना जो इन मॉडलों को जेलब्रेक करना चाहते हैं। वह अपनी ओर से अंतर्दृष्टि साझा करते हैं नवीनतम शोध पत्र यह उभरता हुआ क्षेत्र विशेष रूप से जेलब्रेकिंग हमलों के खिलाफ एलएलएम की मजबूती के आसपास की चुनौतियों और समाधानों पर जोर देता है।

बुरे अभिनेता कृत्रिम बुद्धि के साथ सहयोग करते हैं

रॉबी ने पिछले वर्ष में एलएलएम के तेजी से विकास और व्यापक तैनाती पर जोर दिया, और ओपेनएआई के चैटजीपीटी जैसे लोकप्रिय एलएलएम को “उपलब्ध सबसे प्रचलित कृत्रिम बुद्धिमत्ता प्रौद्योगिकियों में से एक” कहा।

यह लोकप्रियता में एक विस्फोट है इंटरनेट के आगमन से तुलना करें. वह कहते हैं, यह एलएलएम की परिवर्तनकारी प्रकृति को रेखांकित करता है और इन मॉडलों की उपयोगिता रोजमर्रा की जिंदगी के विभिन्न पहलुओं में अनुप्रयोगों के व्यापक स्पेक्ट्रम तक फैली हुई है।

“लेकिन क्या होगा अगर मैं एलएलएम से दूसरों को चोट पहुँचाने में मदद करने के लिए कहूँ? ये वे चीज़ें हैं जिनके लिए एलएलएम को प्रोग्राम किया गया है नहीं करने के लिए, लेकिन लोग एलएलएम को जेलब्रेक करने के तरीके ढूंढ रहे हैं।”

जेलब्रेक का एक उदाहरण इनपुट प्रॉम्प्ट में विशेष रूप से चयनित वर्णों को जोड़ना है जिसके परिणामस्वरूप एलएलएम आपत्तिजनक पाठ उत्पन्न करता है। इसे प्रत्यय आधारित हमले के रूप में जाना जाता है। रोबे बताते हैं कि, जबकि विषाक्त सामग्री का अनुरोध करने वाले संकेत आम तौर पर एलएलएम पर लागू सुरक्षा फिल्टर द्वारा अवरुद्ध होते हैं, इस प्रकार के प्रत्यय, जो आमतौर पर पाठ के अर्थहीन टुकड़े होते हैं, अक्सर इन सुरक्षा गार्डों को बायपास करते हैं।

“इस जेल ब्रेक का व्यापक रूप से स्वागत किया गया है प्रचार करना रॉबी का कहना है, ”चैटजीपीटी और बार्ड जैसे लोकप्रिय एलएलएम से आपत्तिजनक सामग्री को हटाने की इसकी क्षमता के कारण।” “और कई महीने पहले इसकी शुरुआत के बाद से, इस जेलब्रेक के जोखिम को कम करने के लिए कोई एल्गोरिदम नहीं दिखाया गया है।”

रॉबी का शोध इन कमजोरियों को दूर करने में निहित है। प्रस्तावित रक्षा, जिसे वह स्मूथएलएलएम कहते हैं, में प्रत्यय-आधारित हमले तंत्र को बाधित करने के लक्ष्य के साथ, एलएलएम के लिए डुप्लिकेटिंग और सूक्ष्मता से परेशान करने वाले इनपुट संकेतों को शामिल किया गया है। रोबे कहते हैं, “अगर मेरा प्रॉम्प्ट 200 अक्षर लंबा है और मैं 10 अक्षर बदलता हूं, तो भी यह एक इंसान के रूप में अपनी अर्थपूर्ण सामग्री को बरकरार रखता है।”

वैचारिक रूप से सरल होते हुए भी यह विधि उल्लेखनीय रूप से प्रभावी साबित हुई है। रॉबी कहते हैं, “हमारे द्वारा विचार किए गए प्रत्येक एलएलएम के लिए, स्मूथएलएलएम द्वारा बचाव किए जाने पर इस हमले की सफलता दर 1% से नीचे गिर गई।”

“स्मूथएलएलएम को एक सुरक्षा प्रोटोकॉल के रूप में सोचें जो एलएलएम में किए गए हर अनुरोध की जांच करता है। यह हेरफेर या चालबाजी के किसी भी संकेत के लिए इनपुट संकेतों की जाँच करता है। यह एक सुरक्षा गार्ड की तरह है जो प्रत्येक प्रश्न का उत्तर देने से पहले उसके छिपे हुए अर्थ की दोबारा जांच करता है।”

प्रत्यय-आधारित जेलब्रेक को कम करने के अलावा, रॉब बताते हैं कि एआई सुरक्षा के क्षेत्र में सबसे महत्वपूर्ण चुनौतियों में से एक विभिन्न ट्रेड-ऑफ की निगरानी करना है। वह कहते हैं, ”मजबूती के साथ दक्षता को संतुलित करना एक ऐसी चीज है जिसे हमें ध्यान में रखना होगा।”

“हम ऐसे समाधान को ज़्यादा नहीं करना चाहते जो अत्यधिक जटिल हो क्योंकि इसके परिणामस्वरूप महत्वपूर्ण वित्तीय, कम्प्यूटेशनल और ऊर्जा-संबंधित लागतें होंगी। स्मूथएलएलएम के डिज़ाइन में एक महत्वपूर्ण विकल्प उच्च क्वेरी दक्षता बनाए रखना था, जिसका अर्थ है कि हमारा एल्गोरिदम संभावित जेलब्रेक खोजने के लिए एलएलएम के लिए केवल कुछ कम लागत वाले प्रश्नों का उपयोग करता है।

एआई सुरक्षा में भविष्य की दिशाएँ

आगे देखते हुए, रॉब एआई सुरक्षा के महत्व और जेलब्रेकिंग के नए रूपों के खिलाफ चल रही लड़ाई पर जोर देता है।

“हाल ही में कई अन्य जेलब्रेक प्रस्तावित किए गए हैं। उदाहरण के लिए, ऐसे हमले जो आपत्तिजनक सामग्री को प्रदर्शित करने के लिए भाषा मॉडल को मनाने के लिए प्रत्यय-आधारित हमलों के बजाय सोशल इंजीनियरिंग का उपयोग करते हैं, महत्वपूर्ण चिंता का विषय हैं।”

“इस उभरते खतरे के परिदृश्य में रक्षा रणनीतियों के निरंतर परिशोधन और अनुकूलन की आवश्यकता है।”

रोबे व्यापक नीतियों और प्रथाओं की आवश्यकता पर बल देते हुए कृत्रिम बुद्धिमत्ता सुरक्षा के व्यापक निहितार्थों के बारे में भी बात करते हैं। एआई तकनीक की सुरक्षित तैनाती सुनिश्चित करना महत्वपूर्ण है,” वे कहते हैं। “हमें ऐसी नीतियां और प्रथाएं विकसित करने की आवश्यकता है जो एलएलएम के लिए खतरों के लगातार विकसित हो रहे परिदृश्य को संबोधित करें।”

विकासवादी जीव विज्ञान के साथ सादृश्य बनाते हुए, रॉब प्रतिकूल हमलों को अधिक मजबूत कृत्रिम बुद्धिमत्ता प्रणालियों के विकास के लिए महत्वपूर्ण मानते हैं।

वे कहते हैं, “जिस तरह जीव पर्यावरण के दबाव के प्रति खुद को ढाल लेते हैं, उसी तरह शत्रुतापूर्ण हमलों का विरोध करने के लिए कृत्रिम बुद्धिमत्ता प्रणाली भी विकसित हो सकती है।” इस विकासवादी दृष्टिकोण को अपनाकर, रॉबी का काम एआई सिस्टम के विकास में योगदान देगा जो न केवल वर्तमान खतरों के लिए लचीला है बल्कि भविष्य की चुनौतियों के लिए भी अनुकूल है।

स्रोत: पेनसिल्वेनिया यूनिवर्सिटी


#एआई #शद #क #टसट #लख #सकत #ह #लकन #कय #हत #ह #जब #उस #बम #बनन #क #लए #कह #जत #ह

Leave a Reply

Your email address will not be published. Required fields are marked *