AI Could Change How Blind People See the World-TGN

उसके 38वें के लिए जन्मदिन पर, चेला रोबल्स और उनके परिवार ने ब्रिस्केट सैंडविच और ब्राउनी के लिए कैलिफ़ोर्निया के बेनिसिया में उनकी पसंदीदा बेकरी, वन हाउस की यात्रा की। कार से घर जाते समय, उसने अपनी कनपटी पर एक छोटी सी टचस्क्रीन टैप की और बाहर की दुनिया का विवरण मांगा। “आसमान में बादल छाए हुए हैं,” उसके Google ग्लास के माध्यम से प्रतिक्रिया वापस आई।

जब रोबल्स 28 वर्ष की थीं, तब उन्होंने अपनी बाईं आंख से देखने की क्षमता खो दी और एक साल बाद अपनी दाहिनी आंख से देखने की क्षमता खो दी। वह कहती हैं, अंधापन आपको उन छोटी-छोटी जानकारियों से वंचित कर देता है जो लोगों को एक-दूसरे से जुड़ने में मदद करती हैं, जैसे चेहरे के संकेत और भाव। उदाहरण के लिए, उसके पिता बहुत सारे रूखे चुटकुले सुनाते हैं, इसलिए वह हमेशा आश्वस्त नहीं हो पाती कि वह कब गंभीर हैं। वह कहती हैं, “अगर एक तस्वीर 1,000 शब्द बता सकती है, तो जरा सोचिए कि एक अभिव्यक्ति कितने शब्द बता सकती है।”

रोबल्स ने अतीत में मदद के लिए ऐसी सेवाओं की कोशिश की है जो उसे दृष्टिबाधित लोगों से जोड़ती हैं। लेकिन अप्रैल में, उसने आस्क एनविज़न के साथ एक परीक्षण के लिए साइन अप किया, जो एक एआई सहायक है जो ओपनएआई के जीपीटी -4 का उपयोग करता है, एक मल्टीमॉडल मॉडल जो छवियों और पाठ और आउटपुट वार्तालाप प्रतिक्रियाओं को ले सकता है। यह प्रणाली दृष्टिबाधित लोगों के लिए भाषा मॉडल को एकीकृत करना शुरू करने के लिए कई सहायता उत्पादों में से एक है, जो उपयोगकर्ताओं को उनके आसपास की दुनिया के बारे में कहीं अधिक दृश्य विवरण और बहुत अधिक स्वतंत्रता देने का वादा करती है।

एनविज़न को 2018 में तस्वीरों में टेक्स्ट पढ़ने के लिए एक स्मार्टफोन ऐप के रूप में और 2021 की शुरुआत में Google ग्लास पर लॉन्च किया गया था। इस साल की शुरुआत में, कंपनी ने एक ओपन सोर्स वार्तालाप मॉडल का परीक्षण शुरू किया जो बुनियादी सवालों का जवाब दे सकता है। फिर एनविज़न ने छवि-से-पाठ विवरण के लिए OpenAI के GPT-4 को शामिल किया।

बी माई आइज़, एक 12 साल पुराना ऐप जो उपयोगकर्ताओं को उनके आस-पास की वस्तुओं को पहचानने में मदद करता है, ने मार्च में GPT-4 को अपनाया। Microsoft-जो OpenAI में एक प्रमुख निवेशक है-ने अपनी SeeingAI सेवा के लिए GPT-4 का एकीकरण परीक्षण शुरू कर दिया है, जो Microsoft के जिम्मेदार AI प्रमुख सारा बर्ड के अनुसार समान कार्य प्रदान करता है।

अपने पहले पुनरावृत्ति में, एनविज़न ने एक छवि में पाठ को शुरू से अंत तक पढ़ा। अब यह फोटो में टेक्स्ट का सारांश प्रस्तुत कर सकता है और अनुवर्ती प्रश्नों का उत्तर दे सकता है। इसका मतलब है कि आस्क एनविज़न अब एक मेनू पढ़ सकता है और कीमतों, आहार प्रतिबंध और मिठाई विकल्पों जैसी चीजों के बारे में सवालों के जवाब दे सकता है।

एक अन्य आस्क एनविज़न प्रारंभिक परीक्षक, रिचर्ड बियर्डस्ले का कहना है कि वह आम तौर पर बिल पर संपर्क जानकारी ढूंढने या भोजन के बक्से पर सामग्री सूची पढ़ने जैसे काम करने के लिए सेवा का उपयोग करते हैं। Google ग्लास के माध्यम से हैंड्स-फ़्री विकल्प होने का मतलब है कि वह अपने गाइड कुत्ते का पट्टा और छड़ी पकड़कर इसका उपयोग कर सकता है। “पहले, आप पाठ के किसी विशिष्ट भाग तक नहीं पहुंच सकते थे,” वे कहते हैं। “इसके होने से वास्तव में जीवन बहुत आसान हो जाता है क्योंकि आप बिल्कुल वही पा सकते हैं जिसकी आपको तलाश है।”

नेत्रहीन कंप्यूटर वैज्ञानिक और एक कंसल्टेंसी की प्रमुख सिना बहराम का कहना है कि एआई को देखने वाले उत्पादों में एकीकृत करने से उपयोगकर्ताओं पर गहरा प्रभाव पड़ सकता है, जो संग्रहालयों, थीम पार्कों और Google और Microsoft जैसी तकनीकी कंपनियों को पहुंच और समावेशन पर सलाह देती है।

बहराम जीपीटी-4 के साथ बी माई आइज़ का उपयोग कर रहे हैं और कहते हैं कि बड़ा भाषा मॉडल अपनी क्षमताओं के कारण तकनीक की पिछली पीढ़ियों की तुलना में “परिमाण के क्रम” में अंतर लाता है, और क्योंकि उत्पादों का उपयोग सहजता से किया जा सकता है और तकनीकी कौशल की आवश्यकता नहीं होती है। उनका कहना है कि दो हफ़्ते पहले, वह न्यूयॉर्क शहर में सड़क पर चल रहे थे, तभी उनका बिज़नेस पार्टनर किसी चीज़ को करीब से देखने के लिए रुका। बहराम ने जीपीटी-4 के साथ बी माई आइज़ का उपयोग किया, यह जानने के लिए कि यह स्टिकर, कुछ कार्टून, साथ ही कुछ पाठ, कुछ भित्तिचित्रों का एक संग्रह था। वह कहते हैं, “जानकारी का यह स्तर कुछ ऐसा है जो एक साल पहले प्रयोगशाला के बाहर मौजूद नहीं था।” “यह संभव ही नहीं था।”

(टैग्सटूट्रांसलेट)कृत्रिम बुद्धिमत्ता(टी)मशीन लर्निंग(टी)संवर्धित वास्तविकता