The IGNOU MCS-230 Solved Question Paper PDF Download page is designed to help students access high-quality exam resources in one place. Here, you can find ignou solved question paper IGNOU Previous Year Question paper solved PDF that covers all important questions with detailed answers. This page provides IGNOU all Previous year Question Papers in one PDF format, making it easier for students to prepare effectively.
- IGNOU MCS-230 Solved Question Paper in Hindi
- IGNOU MCS-230 Solved Question Paper in English
- IGNOU Previous Year Solved Question Papers (All Courses)
Whether you are looking for IGNOU Previous Year Question paper solved in English or ignou previous year question paper solved in hindi, this page offers both options to suit your learning needs. These solved papers help you understand exam patterns, improve answer writing skills, and boost confidence for upcoming exams.
IGNOU MCS-230 Solved Question Paper PDF

This section provides IGNOU MCS-230 Solved Question Paper PDF in both Hindi and English. These ignou solved question paper IGNOU Previous Year Question paper solved PDF include detailed answers to help you understand exam patterns and improve your preparation. You can also access IGNOU all Previous year Question Papers in one PDF for quick and effective revision before exams.
IGNOU MCS-230 Previous Year Solved Question Paper in Hindi
Q1. (a) इमेज अधिग्रहण से आपका क्या तात्पर्य है? विभिन्न प्रकार की इमेजिंग और डेटा अधिग्रहण प्रणालियों की व्याख्या करें। (b) स्थानिक डोमेन में इमेज वृद्धि के महत्व की व्याख्या करें। इमेज वृद्धि के लिए उपयोग की जाने वाली कम से कम तीन सामान्य तकनीकों का विस्तृत विवरण प्रदान करें, और स्पष्ट करें कि ये तकनीकें किसी इमेज की दृश्य गुणवत्ता में सुधार के लिए कैसे काम करती हैं। उनकी प्रभावशीलता को दर्शाने के लिए वास्तविक दुनिया के उदाहरण शामिल करें। (c) कंप्यूटर विज़न प्रौद्योगिकी में विकास और हाल की प्रगति पर चर्चा करें। उन प्रमुख सफलताओं पर प्रकाश डालें जिन्होंने इस क्षेत्र को आकार दिया है, जैसे कि डीप लर्निंग। बताएं कि इन प्रगतियों ने एकल और बहु-कैमरा प्रणालियों की क्षमताओं में कैसे सुधार किया है, जिससे स्वायत्त वाहनों, रोबोटिक्स और स्वास्थ्य सेवा जैसे क्षेत्रों में अधिक मजबूत और परिष्कृत अनुप्रयोग हुए हैं। (d) पर्यवेक्षित शिक्षण एल्गोरिदम की विभिन्न श्रेणियां क्या हैं? पर्यवेक्षित और गैर-पर्यवेक्षित मशीन लर्निंग तकनीकों के बीच किसी भी पांच अंतर पर चर्चा करें। (e) लो-पास और हाई-पास फ़्रीक्वेंसी डोमेन फ़िल्टर की तुलना करें। ये फ़िल्टर किसी इमेज की फ़्रीक्वेंसी सामग्री को कैसे प्रभावित करते हैं, और इमेज प्रोसेसिंग में उनके संबंधित अनुप्रयोग क्या हैं?
Ans. (a) इमेज अधिग्रहण (Image Acquisition)
इमेज अधिग्रहण किसी वस्तु या दृश्य से जानकारी प्राप्त करने और उसे डिजिटल प्रारूप में परिवर्तित करने की प्रक्रिया है। यह डिजिटल इमेज प्रोसेसिंग का पहला और सबसे महत्वपूर्ण चरण है। इसका लक्ष्य एक ऐसी इमेज बनाना है जिसे कंप्यूटर द्वारा संसाधित किया जा सके। प्रक्रिया में एक सेंसर द्वारा किसी वस्तु से आने वाली ऊर्जा (जैसे प्रकाश) को मापा जाता है और फिर उस माप को डिजिटल रूप में परिवर्तित किया जाता है।
इमेजिंग और डेटा अधिग्रहण प्रणालियों के प्रकार:
इमेजिंग प्रणालियों को ऊर्जा स्रोत के आधार पर वर्गीकृत किया जा सकता है:
- विद्युत चुम्बकीय (Electromagnetic) इमेजिंग: यह सबसे आम प्रकार है, जिसमें एक्स-रे (चिकित्सा), पराबैंगनी (औद्योगिक निरीक्षण), दृश्यमान प्रकाश (फोटोग्राफी), और इन्फ्रारेड (थर्मल इमेजिंग) शामिल हैं।
- ध्वनिक (Acoustic) इमेजिंग: इसमें ध्वनि तरंगों का उपयोग किया जाता है, जैसे कि सोनार और अल्ट्रासाउंड इमेजिंग (चिकित्सा निदान)।
- इलेक्ट्रॉन (Electron) इमेजिंग: इलेक्ट्रॉन माइक्रोस्कोपी में बहुत उच्च आवर्धन पर छवियों को कैप्चर करने के लिए इलेक्ट्रॉनों का उपयोग किया जाता है।
डेटा अधिग्रहण प्रणालियों को सेंसर के विन्यास के आधार पर वर्गीकृत किया जा सकता है:
- एकल सेंसर (Single Sensor): एक फोटोडायोड जैसे एकल सेंसर का उपयोग करके, इमेज को बिंदु-दर-बिंदु स्कैन करके बनाया जाता है।
- सेंसर स्ट्रिप्स (Sensor Strips): सेंसर की एक पंक्ति का उपयोग किया जाता है, जो फ्लैटबेड स्कैनर और एरियल इमेजिंग में आम है। इमेज बनाने के लिए सेंसर स्ट्रिप या वस्तु को स्थानांतरित किया जाता है।
- सेंसर एरे (Sensor Arrays): ये सेंसर का एक 2D ग्रिड होता है, जैसा कि CCD (चार्ज-कपल्ड डिवाइस) और CMOS (कॉम्प्लिमेंटरी मेटल-ऑक्साइड-सेमीकंडक्टर) सेंसर में पाया जाता है। ये डिजिटल कैमरों और स्मार्टफ़ोन में उपयोग किए जाते हैं और एक ही बार में पूरी इमेज कैप्चर कर सकते हैं।
(b) स्थानिक डोमेन में इमेज वृद्धि (Image Enhancement in Spatial Domain)
स्थानिक डोमेन में इमेज वृद्धि का महत्व इस तथ्य में निहित है कि यह सीधे इमेज के पिक्सल पर काम करता है। यह तकनीकों का एक संग्रह है जिसका उद्देश्य किसी इमेज की दृश्य गुणवत्ता में सुधार करना या किसी विशेष अनुप्रयोग के लिए कुछ विशेषताओं को उजागर करना है। यह सीधे पिक्सेल मानों को संशोधित करके प्राप्त किया जाता है।
तीन सामान्य तकनीकें:
- हिस्टोग्राम इक्वलाइजेशन (Histogram Equalization): यह एक ऐसी तकनीक है जो इमेज के कंट्रास्ट को बेहतर बनाती है। यह इमेज के तीव्रता हिस्टोग्राम को फैलाकर काम करती है ताकि तीव्रता स्तरों की पूरी श्रृंखला का अधिक प्रभावी ढंग से उपयोग किया जा सके। यह उन छवियों के लिए विशेष रूप से उपयोगी है जो बहुत गहरी या बहुत उज्ज्वल हैं।
- कार्यप्रणाली: यह प्रत्येक तीव्रता स्तर के लिए एक संचयी वितरण फ़ंक्शन (CDF) बनाता है और इसका उपयोग पिक्सेल मानों को फिर से मैप करने के लिए करता है, जिससे एक समान (फ्लैट) हिस्टोग्राम बनता है।
- उदाहरण: एक अंधेरे एक्स-रे इमेज में, हिस्टोग्राम इक्वलाइजेशन हड्डियों और कोमल ऊतकों के बीच के कंट्रास्ट को बढ़ा सकता है, जिससे निदान में सहायता मिलती है।
- कंट्रास्ट स्ट्रेचिंग (Contrast Stretching): इसे नॉर्मलाइजेशन भी कहा जाता है, यह तकनीक इमेज के पिक्सेल मानों की सीमा को बढ़ाकर कंट्रास्ट में सुधार करती है। यह न्यूनतम और अधिकतम तीव्रता मानों को पूर्ण काले (0) और पूर्ण सफेद (255) तक “फैलाता” है।
- कार्यप्रणाली: यह प्रत्येक पिक्सेल पर एक रैखिक परिवर्तन फ़ंक्शन लागू करता है, जो मूल तीव्रता सीमा को एक नई, व्यापक सीमा पर मैप करता है।
- उदाहरण: एक धुंधली या फीकी पड़ी लैंडस्केप तस्वीर को कंट्रास्ट स्ट्रेचिंग द्वारा अधिक जीवंत और स्पष्ट बनाया जा सकता है।
- स्थानिक फ़िल्टरिंग (Spatial Filtering): इस तकनीक में प्रत्येक पिक्सेल के पड़ोस में एक ऑपरेशन करना शामिल है। एक छोटा मैट्रिक्स, जिसे कर्नेल (kernel) या मास्क कहा जाता है, इमेज पर स्लाइड किया जाता है। आउटपुट पिक्सेल का मान कर्नेल में भार और पड़ोसी पिक्सेल के मानों के आधार पर गणना किया जाता है।
- कार्यप्रणाली: शार्पनिंग के लिए, एक हाई-पास फ़िल्टर कर्नेल (जैसे लाप्लासियन) का उपयोग किया जाता है जो किनारों को बढ़ाता है। स्मूथिंग के लिए, एक लो-पास फ़िल्टर कर्नेल (जैसे औसत फ़िल्टर) का उपयोग किया जाता है जो शोर को कम करता है।
- उदाहरण: किसी धुंधली तस्वीर में विवरणों को तेज करने के लिए शार्पनिंग फ़िल्टर का उपयोग करना या शोर वाली तस्वीर से अवांछित दानों को हटाने के लिए स्मूथिंग फ़िल्टर का उपयोग करना।
(c) कंप्यूटर विज़न में विकास और प्रगति
कंप्यूटर विज़न, जो मशीनों को दृश्य दुनिया की व्याख्या और समझ करने में सक्षम बनाने पर केंद्रित है, ने महत्वपूर्ण विकास देखा है। प्रारंभिक दिनों में, डेविड मार्र के सिद्धांत जैसे सैद्धांतिक दृष्टिकोणों का प्रभुत्व था, जो किनारे का पता लगाने और ज्यामितीय मॉडलिंग पर ध्यान केंद्रित करते थे। हालांकि, इन विधियों की जटिल और परिवर्तनशील वास्तविक दुनिया के परिदृश्यों में सीमित सफलता थी।
प्रमुख सफलता डीप लर्निंग (Deep Learning) , विशेष रूप से कन्वेन्शनल न्यूरल नेटवर्क्स (CNNs) के आगमन के साथ हुई। CNNs छवियों से सीधे विशेषताओं के पदानुक्रम को स्वचालित रूप से सीखने में सक्षम हैं, जिससे मैन्युअल फ़ीचर इंजीनियरिंग की आवश्यकता समाप्त हो जाती है। बड़े पैमाने पर लेबल किए गए डेटासेट (जैसे ImageNet) और शक्तिशाली GPU के विकास ने इस क्रांति को बढ़ावा दिया।
इन प्रगतियों ने कैमरा प्रणालियों की क्षमताओं में सुधार किया है:
- एकल-कैमरा सिस्टम (Single-Camera Systems): डीप लर्निंग ने एकल कैमरे का उपयोग करके ऑब्जेक्ट डिटेक्शन, इमेज सेगमेंटेशन और सीन अंडरस्टैंडिंग में सटीकता को काफी बढ़ा दिया है। स्मार्टफ़ोन अब वास्तविक समय में चेहरों, वस्तुओं और दृश्यों को पहचान सकते हैं।
- बहु-कैमरा सिस्टम (Multi-Camera Systems): डीप लर्निंग ने स्टीरियो विज़न और 3D पुनर्निर्माण जैसे कार्यों को भी बढ़ाया है। कई कैमरों से इनपुट को संसाधित करके, सिस्टम गहराई का अनुमान लगा सकते हैं और दुनिया के अधिक मजबूत 3D मॉडल बना सकते हैं।
परिष्कृत अनुप्रयोग:
- स्वायत्त वाहन (Autonomous Vehicles): कारें अब कई कैमरों और डीप लर्निंग का उपयोग करके पैदल चलने वालों, अन्य वाहनों और लेन मार्करों का पता लगाने और ट्रैक करने के लिए परिवेश की 360-डिग्री समझ बनाने के लिए करती हैं।
- रोबोटिक्स (Robotics): रोबोट अब वस्तुओं को अधिक सटीकता के साथ पहचानने, पकड़ने और हेरफेर करने के लिए विज़न का उपयोग करते हैं, जिससे विनिर्माण और लॉजिस्टिक्स में स्वचालन सक्षम होता है।
- स्वास्थ्य सेवा (Healthcare): कंप्यूटर विज़न एल्गोरिदम चिकित्सा छवियों (जैसे एक्स-रे, एमआरआई) का विश्लेषण करके ट्यूमर का पता लगाने, बीमारियों का निदान करने और सर्जिकल योजना में सहायता करते हैं, जो अक्सर मानव रेडियोलॉजिस्ट की क्षमताओं से मेल खाते हैं या उनसे बेहतर प्रदर्शन करते हैं।
(d) पर्यवेक्षित शिक्षण एल्गोरिदम और इसकी तुलना
पर्यवेक्षित शिक्षण (Supervised Learning) मशीन लर्निंग का एक प्रकार है जिसमें मॉडल को लेबल किए गए डेटा पर प्रशिक्षित किया जाता है। इसका मतलब है कि प्रत्येक डेटा इनपुट एक सही आउटपुट के साथ टैग किया गया है।
पर्यवेक्षित शिक्षण एल्गोरिदम की श्रेणियां:
- वर्गीकरण (Classification): जब आउटपुट वैरिएबल एक श्रेणी हो, जैसे ‘बिल्ली’ या ‘कुत्ता’, या ‘स्पैम’ या ‘नॉट स्पैम’। लक्ष्य इनपुट डेटा को असतत वर्गों में वर्गीकृत करना है। उदाहरण एल्गोरिदम में सपोर्ट वेक्टर मशीन (SVM), डिसीजन ट्री और लॉजिस्टिक रिग्रेशन शामिल हैं।
- प्रतिगमन (Regression): जब आउटपुट वैरिएबल एक सतत (वास्तविक) मान हो, जैसे ‘कीमत’ या ‘तापमान’। लक्ष्य इनपुट वेरिएबल्स के आधार पर एक सतत मात्रा की भविष्यवाणी करना है। उदाहरण एल्गोरिदम में रैखिक प्रतिगमन और बहुपद प्रतिगमन शामिल हैं।
- रैंकिंग (Ranking): इसका उपयोग सापेक्ष क्रम या वस्तुओं की रैंकिंग सीखने के लिए किया जाता है, बजाय सटीक मान या वर्ग के। यह अक्सर सूचना पुनर्प्राप्ति और recommender सिस्टम में उपयोग किया जाता है।
पर्यवेक्षित और गैर-पर्यवेक्षित शिक्षण के बीच पांच अंतर:
- इनपुट डेटा:
- पर्यवेक्षित: लेबल किए गए डेटा (इनपुट-आउटपुट जोड़े) का उपयोग करता है।
- गैर-पर्यवेक्षित: बिना लेबल वाले डेटा का उपयोग करता है।
- लक्ष्य (Goal):
- पर्यवेक्षित: नए, अनदेखे डेटा के लिए आउटपुट की भविष्यवाणी करना।
- गैर-पर्यवेक्षित: डेटा में छिपी संरचना या पैटर्न की खोज करना।
- प्रक्रिया (Process):
- पर्यवेक्षित: एक मैपिंग फ़ंक्शन सीखता है जो इनपुट को ज्ञात आउटपुट से मैप करता है।
- गैर-पर्यवेक्षित: डेटा में अंतर्निहित समूहों या संघों को खोजने की कोशिश करता है।
- एल्गोरिदम (Algorithms):
- पर्यवेक्षित: रैखिक प्रतिगमन, SVM, डिसीजन ट्री, रैंडम फ़ॉरेस्ट।
- गैर-पर्यवेक्षित: के-मीन्स क्लस्टरिंग, पदानुक्रमित क्लस्टरिंग, प्रमुख घटक विश्लेषण (PCA)।
- जटिलता और मूल्यांकन:
- पर्यवेक्षित: प्रशिक्षण के लिए लेबल किए गए डेटा की आवश्यकता होती है जो महंगा हो सकता है। प्रदर्शन का मूल्यांकन करना सीधा है (जैसे सटीकता, त्रुटि)।
- गैर-पर्यवेक्षित: मूल्यांकन अधिक व्यक्तिपरक है क्योंकि कोई “सही” उत्तर नहीं है। परिणामों की व्याख्या करना कठिन हो सकता है।
(e) लो-पास और हाई-पास फ़्रीक्वेंसी डोमेन फ़िल्टर
फ़्रीक्वेंसी डोमेन फ़िल्टर किसी इमेज के फूरियर ट्रांसफ़ॉर्म को संशोधित करके काम करते हैं। वे इमेज में विशिष्ट फ़्रीक्वेंसी घटकों को बढ़ाने या दबाने की अनुमति देते हैं।
लो-पास फ़िल्टर (Low-Pass Filters – LPF):
- प्रभाव: एक लो-पास फ़िल्टर उच्च फ़्रीक्वेंसी को अटेन्यूएट (attenuate) करता है और कम फ़्रीक्वेंसी को पास होने देता है। चूंकि उच्च फ़्रीक्वेंसी इमेज में तेज विवरण और किनारों के अनुरूप होती हैं, इसलिए उन्हें हटाने से इमेज स्मूथ या धुंधली हो जाती है। फूरियर स्पेक्ट्रम में, यह केंद्र के पास की फ़्रीक्वेंसी (कम फ़्रीक्वेंसी) को संरक्षित करता है और केंद्र से दूर की फ़्रीक्वेंसी को हटा देता है।
- अनुप्रयोग: इसका मुख्य अनुप्रयोग शोर में कमी (noise reduction) है। चूंकि शोर में अक्सर उच्च-फ़्रीक्वेंसी घटक होते हैं, LPF इसे प्रभावी ढंग से कम कर सकता है। सामान्य LPF में आइडियल लो-पास, बटरवर्थ लो-पास और गॉसियन लो-पास फ़िल्टर शामिल हैं।
हाई-पास फ़िल्टर (High-Pass Filters – HPF):
- प्रभाव: एक हाई-पास फ़िल्टर कम फ़्रीक्वेंसी को अटेन्यूएट करता है और उच्च फ़्रीक्वेंसी को पास होने देता है। यह इमेज में कम-फ़्रीक्वेंसी वाले घटकों (जैसे धीमी गति से बदलने वाली तीव्रता वाले क्षेत्र) को दबा देता है और उच्च-फ़्रीक्वेंसी वाले घटकों (जैसे किनारे, रेखाएं और अन्य तेज विवरण) को बढ़ाता है। परिणामी इमेज में मुख्य रूप से किनारे और बनावट दिखाई देंगे।
- अनुप्रयोग: इनका उपयोग इमेज शार्पनिंग (image sharpening) और किनारे का पता लगाने (edge detection) के लिए किया जाता है। जब एक हाई-पास फ़िल्टर की गई इमेज को मूल इमेज में वापस जोड़ा जाता है, तो यह किनारों को तेज कर देती है। सामान्य HPF में आइडियल हाई-पास, बटरवर्थ हाई-पास और गॉसियन हाई-पास फ़िल्टर शामिल हैं। लाप्लासियन फ़िल्टर भी एक प्रकार का हाई-पास फ़िल्टर है।
सारांश में तुलना:
- लक्ष्य: LPF स्मूथिंग के लिए है; HPF शार्पनिंग के लिए है।
- फ़्रीक्वेंसी पर प्रभाव: LPF उच्च फ़्रीक्वेंसी को हटाता है; HPF निम्न फ़्रीक्वेंसी को हटाता है।
- स्थानिक डोमेन में समतुल्य: LPF औसत या स्मूथिंग कर्नेल के साथ कनवल्शन के बराबर है; HPF शार्पनिंग कर्नेल के साथ कनवल्शन के बराबर है।
Q2. (a) डिस्क्रीट फूरियर ट्रांसफॉर्म, डिस्क्रीट कोसाइन ट्रांसफॉर्म और डिस्क्रीट वेवलेट ट्रांसफॉर्म की तुलना करें। उनके अनुप्रयोगों, कम्प्यूटेशनल दक्षता और विभिन्न प्रकार के संकेतों या छवियों का प्रतिनिधित्व करने की उनकी क्षमता के संदर्भ में प्रत्येक ट्रांसफॉर्म की ताकत और कमजोरियों पर प्रकाश डालें। (b) निम्नलिखित की व्याख्या करें: (i) गॉसियन शोर (ii) के-मीन्स क्लस्टरिंग (c) इमेज प्रोसेसिंग के लिए विभिन्न रंग मॉडल की व्याख्या करें।
Ans. (a) DFT, DCT, और DWT की तुलना
डिस्क्रीट फूरियर ट्रांसफॉर्म (DFT), डिस्क्रीट कोसाइन ट्रांसफॉर्म (DCT), और डिस्क्रीट वेवलेट ट्रांसफॉर्म (DWT) सिग्नल और इमेज प्रोसेसिंग में संकेतों को एक डोमेन (जैसे, स्थानिक) से दूसरे (जैसे, फ़्रीक्वेंसी) में बदलने के लिए मौलिक उपकरण हैं।
डिस्क्रीट फूरियर ट्रांसफॉर्म (Discrete Fourier Transform – DFT)
- विवरण: DFT एक सिग्नल को विभिन्न फ़्रीक्वेंसी और एम्प्लिट्यूड के जटिल साइनसोइड्स के योग के रूप में विघटित करता है।
- ताकत: यह फ़्रीक्वेंसी विश्लेषण की नींव है और रैखिक समय-अपरिवर्तनीय प्रणालियों के विश्लेषण के लिए आदर्श है। फास्ट फूरियर ट्रांसफॉर्म (FFT) एल्गोरिथ्म इसकी कम्प्यूटेशनल दक्षता में काफी सुधार करता है।
- कमजोरियाँ:
- यह मानता है कि सिग्नल आवधिक है, जो परिमित संकेतों के लिए स्पेक्ट्रल लीकेज (spectral leakage) का कारण बन सकता है।
- इसमें कोई समय-स्थानीयकरण जानकारी नहीं है; यह बताता है कि कौन सी फ़्रीक्वेंसी मौजूद हैं, लेकिन यह नहीं कि वे कब होती हैं।
- तीक्ष्ण संक्रमणों वाले संकेतों के लिए गिब्स परिघटना (Gibbs phenomenon) हो सकती है।
डिस्क्रीट कोसाइन ट्रांसफॉर्म (Discrete Cosine Transform – DCT)
- विवरण: DCT एक सिग्नल को विभिन्न फ़्रीक्वेंसी और एम्प्लिट्यूड के कोसाइन कार्यों के योग के रूप में व्यक्त करता है।
- ताकत:
- इसमें उत्कृष्ट ऊर्जा संघनन (energy compaction) गुण होते हैं, खासकर अत्यधिक सहसंबद्ध संकेतों (जैसे छवियों) के लिए। अधिकांश सिग्नल ऊर्जा कुछ कम-फ़्रीक्वेंसी DCT गुणांकों में केंद्रित होती है।
- यह DFT की सीमा कलाकृतियों से बचता है, जिससे यह ब्लॉक-आधारित कोडिंग के लिए उपयुक्त हो जाता है।
- यह JPEG इमेज कम्प्रेशन मानक का आधार है।
- कमजोरियाँ: DFT की तरह, इसमें समय-स्थानीयकरण की कमी होती है। यह उन संकेतों के लिए इष्टतम नहीं है जिनमें तीक्ष्ण, स्थानीयकृत असंतोष हैं।
डिस्क्रीट वेवलेट ट्रांसफॉर्म (Discrete Wavelet Transform – DWT)
- विवरण: DWT सिग्नल को वेवलेट्स के एक सेट पर प्रोजेक्ट करता है, जो छोटे, तरंग-जैसे दोलन होते हैं जो समय में स्थानीयकृत होते हैं।
- ताकत:
- यह उत्कृष्ट समय-फ़्रीक्वेंसी स्थानीयकरण (time-frequency localization) प्रदान करता है। यह न केवल यह बताता है कि कौन सी फ़्रीक्वेंसी मौजूद हैं, बल्कि यह भी कि वे सिग्नल में कहाँ स्थित हैं।
- यह गैर-स्थिर संकेतों (जिनकी फ़्रीक्वेंसी सामग्री समय के साथ बदलती है) और असंतोष वाले संकेतों का विश्लेषण करने के लिए बहुत प्रभावी है।
- यह JPEG2000 इमेज कम्प्रेशन और डेनोइजिंग अनुप्रयोगों में उपयोग किया जाता है।
- कमजोरियाँ: यह DFT और DCT की तुलना में वैचारिक रूप से और कम्प्यूटेशनल रूप से अधिक जटिल है। इसमें शिफ्ट-इनवेरिएंस की कमी होती है, जिसका अर्थ है कि सिग्नल में एक छोटा सा शिफ्ट ट्रांसफॉर्म गुणांक में महत्वपूर्ण परिवर्तन कर सकता है।
(b) निम्नलिखित की व्याख्या
(i) गॉसियन शोर (Gaussian Noise): गॉसियन शोर एक सांख्यिकीय शोर है जिसका संभाव्यता घनत्व फ़ंक्शन (PDF) सामान्य वितरण (जिसे गॉसियन वितरण भी कहा जाता है) के बराबर होता है। इमेज प्रोसेसिंग में, यह एक योगात्मक शोर मॉडल है, जिसका अर्थ है कि प्रत्येक पिक्सेल का शोर मान मूल पिक्सेल मान में जोड़ा जाता है। यह इमेज में एक महीन, दानेदार पैटर्न के रूप में दिखाई देता है। गॉसियन शोर अक्सर इमेज सेंसर के थर्मल शोर, खराब रोशनी की स्थिति या इलेक्ट्रॉनिक सर्किट शोर के कारण होता है। इसे आमतौर पर औसत (मीन) और विचरण (वैरिएंस) द्वारा वर्णित किया जाता है। गॉसियन स्मूथिंग फिल्टर जैसे स्थानिक फिल्टर का उपयोग करके इसे प्रभावी ढंग से कम किया जा सकता है।
(ii) के-मीन्स क्लस्टरिंग (K-means Clustering): के-मीन्स क्लस्टरिंग एक गैर-पर्यवेक्षित (unsupervised) मशीन लर्निंग एल्गोरिथ्म है जिसका उपयोग डेटा को पूर्व-निर्धारित संख्या (K) के समूहों में विभाजित करने के लिए किया जाता है। एल्गोरिथ्म का लक्ष्य डेटा बिंदुओं को इस तरह से समूहित करना है कि एक ही क्लस्टर के भीतर के बिंदु एक-दूसरे के समान हों, जबकि विभिन्न क्लस्टर के बिंदु एक-दूसरे से भिन्न हों। प्रक्रिया पुनरावृत्त है:
- आरंभ: डेटासेट से यादृच्छिक रूप से K डेटा बिंदुओं को प्रारंभिक क्लस्टर सेंट्रोइड्स के रूप में चुनें।
- असाइनमेंट: प्रत्येक डेटा बिंदु को उसके निकटतम सेंट्रोइड (आमतौर पर यूक्लिडियन दूरी का उपयोग करके) को असाइन करें।
- अपडेट: प्रत्येक क्लस्टर के लिए, क्लस्टर में सभी बिंदुओं के माध्य के रूप में सेंट्रोइड की पुनर्गणना करें।
- दोहराएं: चरण 2 और 3 को तब तक दोहराएं जब तक कि सेंट्रोइड्स स्थिर न हो जाएं (अर्थात, वे अब महत्वपूर्ण रूप से नहीं बदलते हैं)।
इमेज प्रोसेसिंग में, इसका उपयोग इमेज सेगमेंटेशन (पिक्सेल को रंग या बनावट के आधार पर समूहित करना) और रंग परिमाणीकरण (quantization) के लिए किया जाता है।
(c) इमेज प्रोसेसिंग के लिए रंग मॉडल
एक रंग मॉडल (या कलर स्पेस) एक अमूर्त गणितीय मॉडल है जो रंगों को संख्याओं के टुपल्स (tuples) के रूप में वर्णित करता है, आमतौर पर तीन या चार मानों के रूप में। यह एक समन्वय प्रणाली स्थापित करता है जिसमें प्रत्येक रंग का प्रतिनिधित्व किया जा सकता है। इमेज प्रोसेसिंग में कई रंग मॉडल का उपयोग किया जाता है, प्रत्येक के अपने फायदे हैं।
1. RGB (लाल, हरा, नीला) मॉडल:
- प्रकार: योगात्मक (Additive) मॉडल।
- विवरण: इस मॉडल में, लाल, हरे और नीले प्रकाश को विभिन्न अनुपातों में एक साथ जोड़कर रंगों की एक विस्तृत श्रृंखला बनाई जाती है। जब तीनों रंग पूरी तीव्रता पर संयुक्त होते हैं, तो वे सफेद रंग का उत्पादन करते हैं।
- अनुप्रयोग: यह रंगीन मॉनिटर, टेलीविजन, डिजिटल कैमरे और स्कैनर जैसे प्रकाश उत्सर्जक उपकरणों के लिए मानक है। यह हार्डवेयर-उन्मुख है।
2. CMYK (सियान, मैजेंटा, पीला, कुंजी/काला) मॉडल:
- प्रकार: व्यवकलनात्मक (Subtractive) मॉडल।
- विवरण: यह मॉडल सफेद प्रकाश से शुरू होता है और रंगों को बनाने के लिए प्रकाश को घटाता है। सियान, मैजेंटा और पीले स्याही को मिलाकर, वे लाल, हरे और नीले प्रकाश को अवशोषित करते हैं। सैद्धांतिक रूप से, C, M, और Y का मिश्रण काला होना चाहिए, लेकिन व्यवहार में यह एक गहरा भूरा होता है, इसलिए शुद्ध काले के लिए काली (K) स्याही जोड़ी जाती है।
- अनुप्रयोग: यह मुख्य रूप से रंगीन मुद्रण में उपयोग किया जाता है।
3. HSI/HSV (ह्यू, सैचुरेशन, इंटेंसिटी/वैल्यू) मॉडल:
- प्रकार: मानव धारणा-उन्मुख (Human perception-oriented) मॉडल।
- विवरण: यह मॉडल रंग को उन घटकों में अलग करता है जो मानव दृष्टि के लिए अधिक सहज हैं।
- ह्यू (Hue): प्रमुख रंग का प्रकार (जैसे, लाल, पीला, नीला)। इसे रंग चक्र पर एक कोण के रूप में दर्शाया जाता है।
- सैचुरेशन (Saturation): रंग की “शुद्धता” या “जीवंतता”। यह सफेद प्रकाश की मात्रा का वर्णन करता है जिसे एक ह्यू के साथ मिलाया जाता है। उच्च संतृप्ति वाले रंगों में कोई सफेद नहीं होता है।
- इंटेंसिटी/वैल्यू (Intensity/Value): रंग की चमक या अंधकार।
- अनुप्रयोग: यह मॉडल इमेज प्रोसेसिंग कार्यों के लिए बहुत उपयोगी है जहां रंग जानकारी को चमक से अलग करने की आवश्यकता होती है। उदाहरण के लिए, किसी विशिष्ट रंग की वस्तु का पता लगाना, चाहे वह उज्ज्वल रूप से प्रकाशित हो या छाया में हो।
Q3. (a) ऑब्जेक्ट रिकग्निशन के लिए पर्यवेक्षित शिक्षण में लेबल किए गए डेटासेट की भूमिका की व्याख्या करें। लेबल किए गए डेटा की गुणवत्ता और मात्रा रिकग्निशन मॉडल के प्रदर्शन को कैसे प्रभावित करती है? (b) डिजिटल इमेज प्रोसेसिंग क्या है? यह पारंपरिक इमेज प्रोसेसिंग तकनीकों से कैसे भिन्न है? (c) लाप्लासियन फिल्टर से क्या तात्पर्य है? दूसरी व्युत्पत्ति (second derivative) का उपयोग करके, इमेज शार्पनिंग के लिए एक लाप्लासियन मास्क विकसित करें।
Ans. (a) लेबल किए गए डेटासेट और ऑब्जेक्ट रिकग्निशन
ऑब्जेक्ट रिकग्निशन के लिए पर्यवेक्षित शिक्षण में, लेबल किए गए डेटासेट (labelled datasets) की भूमिका सर्वोपरि है। ये डेटासेट प्रशिक्षण प्रक्रिया के लिए “ग्राउंड ट्रुथ” प्रदान करते हैं। एक लेबल किए गए डेटासेट में इनपुट डेटा (जैसे, छवियां) होते हैं, जहां प्रत्येक इनपुट एक या एक से अधिक लेबल के साथ जुड़ा होता है जो आउटपुट का वर्णन करता है (जैसे, ‘बिल्ली’, ‘कार’, या किसी वस्तु के बाउंडिंग बॉक्स निर्देशांक)।
भूमिका: मॉडल (जैसे, एक न्यूरल नेटवर्क) इन इनपुट-लेबल जोड़ों से सीखता है। इसका लक्ष्य एक आंतरिक प्रतिनिधित्व या एक मैपिंग फ़ंक्शन विकसित करना है जो इनपुट छवि विशेषताओं को सही आउटपुट लेबल के साथ सहसंबंधित करता है। प्रशिक्षण के दौरान, मॉडल एक भविष्यवाणी करता है, इसकी तुलना ग्राउंड ट्रुथ लेबल से करता है, और भविष्यवाणी और वास्तविक लेबल के बीच त्रुटि को कम करने के लिए अपने आंतरिक मापदंडों को समायोजित करता है। पर्याप्त उदाहरणों के बिना, मॉडल इनपुट और आउटपुट के बीच के जटिल संबंधों को नहीं सीख सकता है।
प्रदर्शन पर प्रभाव:
- डेटा की गुणवत्ता (Quality): डेटा की गुणवत्ता सीधे मॉडल के प्रदर्शन को प्रभावित करती है।
- अशुद्ध लेबल: यदि छवियों को गलत तरीके से लेबल किया गया है (उदाहरण के लिए, एक ‘कुत्ते’ के रूप में लेबल की गई बिल्ली), तो मॉडल भ्रमित हो जाएगा और गलत संबंध सीखेगा। यह “गार्बेज इन, गार्बे-आउट” का सिद्धांत है।
- असंगत लेबलिंग: यदि एक ही प्रकार की वस्तु को अलग-अलग तरीकों से लेबल किया जाता है, तो मॉडल के लिए सामान्यीकरण करना मुश्किल हो जाता है।
- उच्च-गुणवत्ता, स्वच्छ और सटीक रूप से लेबल किए गए डेटा से एक अधिक मजबूत और सटीक मॉडल बनता है।
- डेटा की मात्रा (Quantity):
- अपर्याप्त डेटा: बहुत कम डेटा के साथ, मॉडल ओवरफिट (overfit) हो सकता है। इसका मतलब है कि यह प्रशिक्षण डेटा को “रट” लेता है लेकिन नए, अनदेखे डेटा पर अच्छा प्रदर्शन नहीं करता है।
- पर्याप्त डेटा: एक बड़ा, विविध डेटासेट मॉडल को विभिन्न परिस्थितियों (जैसे, विभिन्न प्रकाश व्यवस्था, कोण, पृष्ठभूमि) में वस्तुओं को पहचानने और बेहतर सामान्यीकरण करने में मदद करता है। डीप लर्निंग मॉडल, जिनमें लाखों पैरामीटर होते हैं, को विशेष रूप से प्रभावी ढंग से प्रशिक्षित करने के लिए बड़ी मात्रा में डेटा की आवश्यकता होती है। डेटा ऑग्मेंटेशन (Data augmentation) जैसी तकनीकें (जैसे, रोटेटिंग, फ्लिपिंग, या क्रॉपिंग छवियां) प्रभावी रूप से प्रशिक्षण डेटा की मात्रा बढ़ाने और ओवरफिटिंग को कम करने में मदद करती हैं।
(b) डिजिटल इमेज प्रोसेसिंग (DIP)
डिजिटल इमेज प्रोसेसिंग एक डिजिटल कंप्यूटर का उपयोग करके डिजिटल छवियों पर विभिन्न संचालन करने के क्षेत्र को संदर्भित करता है। एक डिजिटल छवि को एक 2D फ़ंक्शन, f(x, y) के रूप में दर्शाया जाता है, जहाँ x और y स्थानिक निर्देशांक हैं, और किसी भी बिंदु (x, y) पर f का मान उस बिंदु पर छवि की तीव्रता या ग्रे स्तर है। DIP में ऐसे एल्गोरिदम का विकास और अनुप्रयोग शामिल है जो इनपुट के रूप में एक छवि लेते हैं और आउटपुट के रूप में या तो एक संशोधित छवि (जैसे, इमेज वृद्धि) या छवि से संबंधित जानकारी (जैसे, ऑब्जेक्ट रिकग्निशन) का उत्पादन करते हैं।
पारंपरिक इमेज प्रोसेसिंग से अंतर:
- माध्यम (Medium):
- डिजिटल: कंप्यूटर और डिजिटल सर्किटरी का उपयोग करके पिक्सल के एक मैट्रिक्स के रूप में संग्रहीत छवियों में हेरफेर करता है।
- पारंपरिक (एनालॉग): भौतिक माध्यमों जैसे कि फोटोग्राफिक फिल्म, प्लेट्स या एनालॉग वीडियो संकेतों पर काम करता है।
- तकनीकें (Techniques):
- डिजिटल: गणितीय और कम्प्यूटेशनल एल्गोरिदम का उपयोग करता है। संचालन में पिक्सेल मानों में हेरफेर करना, फूरियर ट्रांसफॉर्म लागू करना और जटिल मशीन लर्निंग मॉडल चलाना शामिल है।
- पारंपरिक: रासायनिक प्रक्रियाओं (जैसे, डार्करूम में फिल्म विकसित करना) और ऑप्टिकल उपकरणों (जैसे, लेंस, फिल्टर) पर निर्भर करता है। उदाहरणों में डॉजिंग और बर्निंग शामिल हैं।
- लचीलापन और पुनरावृत्ति (Flexibility & Repeatability):
- डिजिटल: अत्यधिक लचीला, संचालन आसानी से पूर्ववत किया जा सकता है, और एल्गोरिदम को विभिन्न छवियों पर सटीक रूप से दोहराया जा सकता है। जटिल संचालन की एक विस्तृत श्रृंखला संभव है।
- पारंपरिक: कम लचीला और पुनरावृत्ति करना मुश्किल है। परिणाम ऑपरेटर के कौशल और भौतिक स्थितियों पर बहुत अधिक निर्भर करते हैं।
(c) लाप्लासियन फिल्टर और मास्क का विकास
लाप्लासियन फिल्टर (Laplacian Filter) एक एज डिटेक्शन ऑपरेटर है जो छवि के दूसरे क्रम के स्थानिक अवकलज (second-order spatial derivative) का उपयोग करता है। यह एक रैखिक, शिफ्ट-अपरिवर्तनीय ऑपरेटर है। पहले क्रम के अवकलज (जैसे सोबेल या प्रेविट ऑपरेटर) के विपरीत, जो किनारों का पता लगाते हैं, लाप्लासियन फिल्टर किनारों को उजागर करता है और छवि शार्पनिंग के लिए उपयोगी है। यह तीव्रता में अचानक परिवर्तन के प्रति संवेदनशील है और छवि में ठीक विवरण पर प्रकाश डालता है।
मास्क का विकास: लाप्लासियन ऑपरेटर को ∇² (nabla squared) द्वारा दर्शाया जाता है। एक 2D फ़ंक्शन f(x, y) के लिए, लाप्लासियन को इस प्रकार परिभाषित किया गया है: ∇²f = ∂²f/∂x² + ∂²f/∂y² हम असतत सन्निकटन (discrete approximations) का उपयोग करके एक डिजिटल छवि के लिए इस समीकरण को लागू कर सकते हैं। x और y दिशाओं में दूसरे क्रम के अवकलज का अनुमान परिमित अंतर (finite differences) का उपयोग करके लगाया जा सकता है: ∂²f/∂x² ≈ f(x+1, y) + f(x-1, y) – 2f(x, y) ∂²f/∂y² ≈ f(x, y+1) + f(x, y-1) – 2f(x, y) इन दोनों को एक साथ जोड़ने पर हमें लाप्लासियन का असतत सन्निकटन मिलता है: ∇²f ≈ [f(x+1, y) + f(x-1, y) + f(x, y+1) + f(x, y-1)] – 4f(x, y) यह समीकरण एक फ़िल्टर मास्क या कर्नेल के रूप में कार्यान्वित किया जा सकता है जो मूल छवि के साथ कनवॉल्व किया जाता है। उपरोक्त समीकरण से मेल खाने वाला मास्क है: 0 1 0 1 -4 1 0 1 0 विकर्णों को शामिल करके एक और सामान्य मास्क भी प्राप्त किया जा सकता है, जो -8 के केंद्र भार की ओर ले जाता है: 1 1 1 1 -8 1 1 1 1
इमेज शार्पनिंग: इमेज को शार्प करने के लिए, लाप्लासियन इमेज (जो किनारों को हाइलाइट करती है) को मूल इमेज से घटाया जाता है। यह उन क्षेत्रों को पुनर्स्थापित करता है जो किनारों पर नहीं हैं और किनारों को तेज करता है। शार्प की गई इमेज, g(x, y), इस प्रकार दी गई है: g(x, y) = f(x, y) – ∇²f(x, y) यदि -4 केंद्र वाला मास्क उपयोग किया जाता है, तो शार्पनिंग मास्क बन जाता है: 0 -1 0 -1 5 -1 0 -1 0 इस मास्क के साथ मूल छवि को कनवॉल्व करने से सीधे एक शार्प की गई छवि प्राप्त होती है।
Q4. (a) सिग्नल प्रोसेसिंग में वीनर फिल्टर से आपका क्या तात्पर्य है? वीनर फिल्टर किन समस्याओं को हल करने का लक्ष्य रखता है, और यह समय और फ़्रीक्वेंसी डोमेन दोनों में कैसे काम करता है? (b) होमोग्राफी क्या है? कंप्यूटर विज़न और इमेज प्रोसेसिंग में होमोग्राफी के अनुप्रयोग पर चर्चा करें। (c) एग्लोमेरेटिव पदानुक्रमित क्लस्टरिंग का वर्णन करें।
Ans. (a) वीनर फिल्टर (Wiener Filter)
सिग्नल प्रोसेसिंग में वीनर फिल्टर एक फ़िल्टर है जिसका उपयोग शोर (noise) से विकृत (corrupted) सिग्नल या इमेज को पुनर्स्थापित करने के लिए किया जाता है। यह एक ऑप्टिमल लीनियर फिल्टर माना जाता है क्योंकि यह मूल सिग्नल और पुनर्स्थापित सिग्नल के बीच औसत वर्ग त्रुटि (mean square error) को कम करता है। यह नॉर्बर्ट वीनर के काम पर आधारित है।
हल की जाने वाली समस्याएं: वीनर फिल्टर का मुख्य लक्ष्य दो समस्याओं को एक साथ हल करना है:
- डीब्लरिंग (Deblurring): एक ज्ञात ब्लरिंग या डिग्रेडेशन फ़ंक्शन (पॉइंट स्प्रेड फ़ंक्शन) के कारण होने वाले विरूपण को उलटना।
- डीनोइजिंग (Denoising): योगात्मक शोर को हटाना या कम करना।
यह इन दो उद्देश्यों के बीच एक इष्टतम संतुलन खोजने का प्रयास करता है। एक साधारण उलटा फ़िल्टर शोर को बहुत बढ़ा देता है, जबकि एक साधारण डीनोइजिंग फ़िल्टर छवि को बहुत अधिक धुंधला कर सकता है। वीनर फिल्टर सिग्नल और शोर दोनों की सांख्यिकीय विशेषताओं को ध्यान में रखकर एक बेहतर समाधान प्रदान करता है।
कार्यप्रणाली: वीनर फिल्टर को समय (स्थानिक) और फ़्रीक्वेंसी डोमेन दोनों में वर्णित किया जा सकता है, लेकिन इसे आमतौर पर फ़्रीक्वेंसी डोमेन में लागू किया जाता है।
- फ़्रीक्वेंसी डोमेन (Frequency Domain): फ़्रीक्वेंसी डोमेन में, वीनर फिल्टर की गणना इस प्रकार की जाती है: G(u, v) = [ |H(u, v)|² / ( |H(u, v)|² + S n (u, v) / S f (u, v) ) ] * [ Y(u, v) / H(u, v) ] जहाँ:
- G(u, v) पुनर्स्थापित छवि का फूरियर ट्रांसफॉर्म है।
- H(u, v) डिग्रेडेशन फ़ंक्शन (ब्लर कर्नेल) का फूरियर ट्रांसफॉर्म है।
- Y(u, v) विकृत छवि का फूरियर ट्रांसफॉर्म है।
- S n (u, v) शोर का पावर स्पेक्ट्रम (power spectrum) है।
- S f (u, v) मूल छवि का पावर स्पेक्ट्रम है।
अनुपात S
n
/S
f
को सिग्नल-टू-नॉइज़ अनुपात (SNR) के व्युत्क्रम के रूप में सोचा जा सकता है। जब शोर कम होता है (उच्च SNR), तो ब्रैकेटेड टर्म 1 के करीब होता है, और फिल्टर एक उलटा फिल्टर की तरह व्यवहार करता है। जब शोर अधिक होता है (कम SNR), तो ब्रैकेटेड टर्म 0 के करीब होता है, जो शोर प्रवर्धन को दबाता है। - समय डोमेन (Time/Spatial Domain): समय या स्थानिक डोमेन में, वीनर फिल्टर एक परिमित आवेग प्रतिक्रिया (FIR) फिल्टर के रूप में एक कनवल्शन ऑपरेशन से मेल खाता है। हालांकि, आवश्यक कर्नेल की गणना करना और कनवल्शन करना कम्प्यूटेशनल रूप से गहन हो सकता है, यही कारण है कि FFT का उपयोग करके फ़्रीक्वेंसी-डोमेन दृष्टिकोण को प्राथमिकता दी जाती है।
(b) होमोग्राफी (Homography)
कंप्यूटर विज़न में, होमोग्राफी एक 3×3 मैट्रिक्स है जो एक 2D प्रोजेक्टिव ट्रांसफॉर्मेशन का वर्णन करता है। यह एक समतल (plane) से दूसरे समतल पर बिंदुओं को मैप करता है। सबसे आम उपयोग का मामला दो छवियों के बीच संबंध का वर्णन करना है जो एक ही समतलीय सतह को देखते हैं, लेकिन अलग-अलग दृष्टिकोणों से। यदि p = [x, y, 1] T पहली छवि में एक बिंदु के सजातीय निर्देशांक (homogeneous coordinates) हैं और p’ = [x’, y’, 1] T दूसरी छवि में संबंधित बिंदु है, तो उनका संबंध होमोग्राफी मैट्रिक्स H द्वारा दिया जाता है:
p’ = H * p
होमोग्राफी की गणना के लिए कम से कम चार संगत बिंदु जोड़े की आवश्यकता होती है।
अनुप्रयोग: होमोग्राफी के कंप्यूटर विज़न और इमेज प्रोसेसिंग में कई महत्वपूर्ण अनुप्रयोग हैं:
- इमेज स्टिचिंग (पैनोरमा निर्माण): जब कई ओवरलैपिंग छवियों से एक पैनोरमा बनाते हैं, तो होमोग्राफी का उपयोग छवियों को एक दूसरे के संबंध में संरेखित (align) और वार्प (warp) करने के लिए किया जाता है ताकि वे एक निर्बाध समग्र छवि बना सकें।
- इमेज रेक्टिफिकेशन (Image Rectification): होमोग्राफी का उपयोग एक छवि से परिप्रेक्ष्य विरूपण (perspective distortion) को हटाने के लिए किया जा सकता है। उदाहरण के लिए, एक इमारत की तिरछी तस्वीर को इस तरह से बदला जा सकता है कि यह सामने से ली गई प्रतीत हो। इसे बर्ड-आई-व्यू ट्रांसफॉर्मेशन में भी इस्तेमाल किया जाता है।
- ऑगमेंटेड रियलिटी (Augmented Reality – AR): AR अनुप्रयोगों में, होमोग्राफी का उपयोग वास्तविक दुनिया में एक समतलीय सतह (जैसे एक टेबल या एक दीवार) पर एक आभासी वस्तु को ओवरले करने के लिए किया जाता है। यह सुनिश्चित करता है कि आभासी वस्तु वास्तविक दुनिया के परिप्रेक्ष्य के साथ सही ढंग से संरेखित हो।
- कैमरा पोज एस्टिमेशन (Camera Pose Estimation): यदि कैमरा और एक ज्ञात समतलीय वस्तु (जैसे एक चेकरबोर्ड) के बीच का संबंध ज्ञात है, तो होमोग्राफी का उपयोग वस्तु के सापेक्ष कैमरे की स्थिति (रोटेशन और ट्रांसलेशन) की गणना के लिए किया जा सकता है।
(c) एग्लोमेरेटिव पदानुक्रमित क्लस्टरिंग (Agglomerative Hierarchical Clustering)
एग्लोमेरेटिव पदानुक्रमित क्लस्टरिंग एक “बॉटम-अप” क्लस्टरिंग विधि है। यह एक पदानुक्रमित क्लस्टर संरचना बनाती है, जिसे आमतौर पर एक ट्री-जैसे आरेख में दर्शाया जाता है जिसे डेंड्रोग्राम (dendrogram) कहा जाता है।
एल्गोरिथम प्रक्रिया:
- आरंभ करें: प्रत्येक डेटा बिंदु को अपना स्वयं का क्लस्टर मानें। यदि N डेटा बिंदु हैं, तो आप N क्लस्टर के साथ शुरू करते हैं।
- विलय (Merge): दो सबसे समान (या निकटतम) क्लस्टर खोजें और उन्हें एक ही क्लस्टर में मिलाएं। अब आपके पास N-1 क्लस्टर हैं।
- दोहराएं: चरण 2 को तब तक दोहराते रहें जब तक कि सभी डेटा बिंदु एक ही, बड़े क्लस्टर में न आ जाएं।
मुख्य घटक:
- डेंड्रोग्राम: यह एक ट्री आरेख है जो प्रत्येक विलय चरण को दिखाता है। ऊर्ध्वाधर अक्ष दो विलय किए गए क्लस्टर के बीच की दूरी या असमानता का प्रतिनिधित्व करता है। डेंड्रोग्राम को एक निश्चित ऊंचाई पर “काटकर”, कोई भी वांछित संख्या में क्लस्टर प्राप्त कर सकता है।
- लिंकेज मानदंड (Linkage Criterion): यह दो क्लस्टर के बीच की दूरी को परिभाषित करने की विधि है। पसंद अंतिम क्लस्टर की संरचना को महत्वपूर्ण रूप से प्रभावित कर सकती है। सामान्य मानदंड हैं:
- सिंगल लिंकेज: दो क्लस्टर के बीच की दूरी को उनके निकटतम बिंदुओं के बीच की दूरी के रूप में परिभाषित करता है। यह लंबी, पतली क्लस्टर बना सकता है।
- कम्पलीट लिंकेज: दो क्लस्टर के बीच की दूरी को उनके सबसे दूर के बिंदुओं के बीच की दूरी के रूप में परिभाषित करता है। यह कॉम्पैक्ट, गोलाकार क्लस्टर बनाता है।
- एवरेज लिंकेज: एक क्लस्टर के प्रत्येक बिंदु और दूसरे क्लस्टर के प्रत्येक बिंदु के बीच औसत दूरी की गणना करता है।
- वार्ड की विधि (Ward’s Method): दो क्लस्टर को विलय करने का प्रयास करता है जो क्लस्टर के भीतर के विचरण में न्यूनतम वृद्धि का कारण बनता है।
यह विधि उपयोगी है क्योंकि इसे पहले से क्लस्टर की संख्या जानने की आवश्यकता नहीं होती है और यह डेटा की पदानुक्रमित प्रकृति में अंतर्दृष्टि प्रदान करती है।
Q5. निम्नलिखित में से किन्हीं पाँच पर संक्षिप्त नोट्स लिखें: (i) कैमरा कैलिब्रेशन (ii) एज-आधारित सेगमेंटेशन (iii) बायेसियन वर्गीकरण (iv) स्मूथिंग फिल्टर (v) विभाजन क्लस्टरिंग (vi) फ़ीचर निष्कर्षण के अनुप्रयोग
Ans.
(i) कैमरा कैलिब्रेशन (Camera Calibration)
कैमरा कैलिब्रेशन कैमरे के आंतरिक (intrinsic) और बाह्य (extrinsic) मापदंडों को निर्धारित करने की प्रक्रिया है। आंतरिक पैरामीटर कैमरे की अपनी विशेषताओं से संबंधित होते हैं, जैसे फोकल लंबाई (focal length) , मुख्य बिंदु (principal point) (छवि केंद्र), और लेंस विरूपण गुणांक। बाह्य पैरामीटर कैमरे की स्थिति और अभिविन्यास को विश्व समन्वय प्रणाली के संबंध में वर्णित करते हैं, जिसमें रोटेशन (rotation) और ट्रांसलेशन (translation) शामिल हैं। यह प्रक्रिया आमतौर पर एक ज्ञात पैटर्न (जैसे चेकरबोर्ड) की कई छवियों को विभिन्न कोणों से कैप्चर करके की जाती है। कैलिब्रेशन 3D कंप्यूटर विज़न अनुप्रयोगों के लिए महत्वपूर्ण है, जैसे 3D पुनर्निर्माण, स्टीरियो विज़न, और रोबोट नेविगेशन, क्योंकि यह 2D छवि पिक्सेल निर्देशांक और 3D विश्व बिंदुओं के बीच एक सटीक मैपिंग की अनुमति देता है।
(ii) एज-आधारित सेगमेंटेशन (Edge-based Segmentation)
एज-आधारित सेगमेंटेशन एक ऐसी तकनीक है जो एक छवि को विभिन्न क्षेत्रों या वस्तुओं में विभाजित करती है, जो उनकी सीमाओं या किनारों का पता लगाकर की जाती है। यह इस धारणा पर आधारित है कि एक क्षेत्र की सीमा को तीव्रता में एक महत्वपूर्ण परिवर्तन द्वारा चिह्नित किया जाता है। प्रक्रिया में आमतौर पर दो मुख्य चरण होते हैं:
- किनारे का पता लगाना (Edge Detection): सोबेल, कैननी, या लाप्लासियन जैसे एज डिटेक्शन ऑपरेटरों को लागू करके छवि में तेज तीव्रता वाले ग्रेडिएंट्स वाले पिक्सल का पता लगाना।
- किनारे को जोड़ना (Edge Linking): पता लगाए गए एज पिक्सल को निरंतर और बंद सीमाओं में समूहित करना। यह अक्सर हफ ट्रांसफॉर्म या स्थानीय पड़ोस विश्लेषण जैसी तकनीकों का उपयोग करके किया जाता है।
एक बार जब बंद सीमाएं मिल जाती हैं, तो वे छवि को अलग-अलग खंडों में विभाजित कर देती हैं। यह विधि तब अच्छी तरह से काम करती है जब वस्तुओं और पृष्ठभूमि के बीच उच्च कंट्रास्ट होता है, लेकिन शोर और टूटे हुए किनारों के प्रति संवेदनशील हो सकती है।
(iii) बायेसियन वर्गीकरण (Bayesian Classification)
बायेसियन वर्गीकरण बायेस के प्रमेय (Bayes’ Theorem) पर आधारित एक संभाव्य वर्गीकरण विधि है। यह किसी दिए गए फीचर सेट के लिए एक उदाहरण के प्रत्येक वर्ग से संबंधित होने की संभावना की गणना करता है। इसका लक्ष्य उस वर्ग को खोजना है जिसकी पश्च संभाव्यता (posterior probability) सबसे अधिक है। बायेस का प्रमेय इस प्रकार है:
P(C|X) = [P(X|C) * P(C)] / P(X)
जहाँ C वर्ग है और X फीचर वेक्टर है। P(C|X) पश्च संभाव्यता है, P(X|C) संभावना है, P(C) पूर्व संभाव्यता है, और P(X) साक्ष्य है।
Naive Bayes एक लोकप्रिय बायेसियन क्लासिफायर है जो यह सरलीकृत धारणा बनाता है कि फीचर्स एक दूसरे से स्वतंत्र हैं। अपनी सादगी के बावजूद, यह कई वास्तविक दुनिया के अनुप्रयोगों जैसे स्पैम फ़िल्टरिंग, टेक्स्ट वर्गीकरण और चिकित्सा निदान में बहुत प्रभावी है।
(iv) स्मूथिंग फिल्टर (Smoothing Filters)
स्मूथिंग फिल्टर, जिन्हें लो-पास फिल्टर भी कहा जाता है, का उपयोग छवियों में शोर को कम करने और उन्हें धुंधला करने के लिए किया जाता है। वे प्रत्येक पिक्सेल के मान को उसके पड़ोस में पिक्सेल के मानों के औसत (या भारित औसत) से बदलकर काम करते हैं। यह प्रक्रिया तीव्रता में तेज, अचानक परिवर्तनों को कम करती है, जो अक्सर शोर के कारण होते हैं। सामान्य स्मूथिंग फिल्टर में शामिल हैं:
- मीन (औसत) फिल्टर: एक पिक्सेल को उसके पड़ोस के सभी पिक्सेल मानों के औसत से बदल देता है। यह सरल है लेकिन किनारों को भी धुंधला कर देता है।
- गॉसियन फिल्टर: एक भारित औसत का उपयोग करता है जहाँ आस-पास के पिक्सल को अधिक भार दिया जाता है, जिससे एक चिकना, कम कृत्रिम धुंधलापन होता है।
- मीडियन फिल्टर: एक पिक्सेल को उसके पड़ोस के पिक्सेल मानों के माध्यिका (median) से बदल देता है। यह साल्ट-एंड-पेपर शोर को हटाने के लिए विशेष रूप से प्रभावी है और मीन फिल्टर की तुलना में किनारों को बेहतर ढंग से संरक्षित करता है।
(v) विभाजन क्लस्टरिंग (Partition Clustering)
विभाजन क्लस्टरिंग (जिसे पार्टिशनल क्लस्टरिंग भी कहा जाता है) एक क्लस्टरिंग विधि है जो डेटासेट को गैर-अतिव्यापी समूहों के एक सेट में विभाजित करती है। इसका मतलब है कि प्रत्येक डेटा बिंदु ठीक एक क्लस्टर से संबंधित है। आमतौर पर, क्लस्टर की संख्या (K) एल्गोरिथ्म के लिए एक इनपुट पैरामीटर के रूप में पहले से निर्दिष्ट की जाती है। लक्ष्य ऐसे क्लस्टर बनाना है जो आंतरिक रूप से सुसंगत (एक ही क्लस्टर में बिंदु एक-दूसरे के करीब हैं) और बाहरी रूप से अलग (विभिन्न क्लस्टर में बिंदु एक-दूसरे से दूर हैं) हों। विभाजन क्लस्टरिंग का सबसे प्रसिद्ध उदाहरण के-मीन्स (K-means) एल्गोरिथ्म है। ये एल्गोरिदम आम तौर पर पुनरावृत्त रूप से काम करते हैं ताकि एक उद्देश्य फ़ंक्शन (जैसे, क्लस्टर के भीतर वर्गों का योग) को अनुकूलित किया जा सके।
(vi) फ़ीचर निष्कर्षण के अनुप्रयोग (Applications of Feature Extraction)
फ़ीचर निष्कर्षण कच्चे डेटा (जैसे एक छवि के पिक्सेल) को एक कम, अधिक जानकारीपूर्ण और गैर-अनावश्यक विशेषताओं के सेट में बदलने की प्रक्रिया है। यह बाद के कार्यों जैसे वर्गीकरण, पहचान या क्लस्टरिंग के लिए महत्वपूर्ण है क्योंकि यह आयामीता को कम करता है और प्रासंगिक जानकारी को उजागर करता है। इसके व्यापक अनुप्रयोग हैं:
- ऑब्जेक्ट रिकग्निशन: वस्तुओं का प्रतिनिधित्व करने के लिए SIFT (स्केल-इनवेरिएंट फ़ीचर ट्रांसफ़ॉर्म) , SURF (स्पीडेड-अप रोबस्ट फीचर्स) , या HOG (हिस्टोग्राम ऑफ़ ओरिएंटेड ग्रेडिएंट्स) जैसी विशेषताओं को निकालना।
- फेस रिकग्निशन: चेहरे की विशेषताओं का वर्णन करने वाली विशेषताओं को निकालना, जैसे कि आँखों के बीच की दूरी या नाक का आकार, या डीप लर्निंग का उपयोग करके सीखी गई विशेषताओं का उपयोग करना।
- इमेज रिट्रीवल: एक बड़े डेटाबेस में समान छवियों को खोजने के लिए रंग हिस्टोग्राम, बनावट के उपाय (जैसे स्थानीय बाइनरी पैटर्न), या आकार डिस्क्रिप्टर जैसी विशेषताओं का उपयोग करना।
- मेडिकल इमेज एनालिसिस: ट्यूमर या अन्य विकृतियों की पहचान करने और उनका वर्गीकरण करने के लिए मेडिकल स्कैन (जैसे एमआरआई, सीटी) से बनावट या आकार की विशेषताओं को निकालना।
IGNOU MCS-230 Previous Year Solved Question Paper in English
Q1. (a) What do you mean by Image Acquisition? Explain the various types of imaging and data acquisition systems. (b) Explain the significance of image enhancement in the spatial domain. Provide detailed explanations of at least three common techniques used for image enhancement, and elucidate how these techniques operate to improve the visual quality of an image. Include real-world examples to illustrate their effectiveness. (c) Discuss the evolution and recent advancement in computer vision technology. Highlight key breakthroughs that have shaped the field, such as Deep Learning. Explain how these advancements have improved the capabilities of both single and multi-camera systems, leading to more robust and sophisticated applications in fields like autonomous vehicles, robotics and healthcare. (d) What are the different categories of supervised learning algorithms? Discuss any five differences between supervised and unsupervised machine learning techniques. (e) Compare low-pass and high-pass frequency domain filters. How do these filters affect the frequency content of an image, and what are their respective applications in image processing?
Ans. (a) Image Acquisition Image acquisition is the process of capturing information from an object or a scene and converting it into a digital format. It is the first and most crucial step in digital image processing. The goal is to generate an image that can be processed by a computer. The process involves measuring the energy (e.g., light) from an object with a sensor and then converting that measurement into a digital representation.
Types of Imaging and Data Acquisition Systems: Imaging systems can be categorized based on the energy source:
- Electromagnetic Imaging: This is the most common type, encompassing X-rays (medical), ultraviolet (industrial inspection), visible light (photography), and infrared (thermal imaging).
- Acoustic Imaging: This uses sound waves, as seen in sonar and ultrasound imaging (medical diagnostics).
- Electron Imaging: Electron microscopy uses electrons to capture images at very high magnification.
Data acquisition systems can be categorized based on the sensor configuration:
- Single Sensor: Using a single sensor, like a photodiode, the image is built up by scanning point-by-point.
- Sensor Strips: A line of sensors is used, common in flatbed scanners and aerial imaging. Either the sensor strip or the object is moved to create the image.
- Sensor Arrays: These are a 2D grid of sensors, as found in CCD (Charge-Coupled Device) and CMOS (Complementary Metal-Oxide-Semiconductor) sensors. They are used in digital cameras and smartphones and can capture an entire image at once.
(b)
Image Enhancement in the Spatial Domain
The significance of image enhancement in the spatial domain lies in the fact that it operates directly on the pixels of the image. It is a collection of techniques aimed at improving the visual quality of an image or highlighting certain features for a specific application. This is achieved by directly modifying the pixel values.
Three Common Techniques:
- Histogram Equalization: This is a technique that improves the contrast of an image. It works by spreading out the image’s intensity histogram so that the full range of intensity levels is used more effectively. It is particularly useful for images that are too dark or too bright.
- Operation: It creates a cumulative distribution function (CDF) for each intensity level and uses this to remap the pixel values, resulting in a more uniform (flat) histogram.
- Example: In a dark X-ray image, histogram equalization can enhance the contrast between bones and soft tissues, aiding in diagnosis.
- Contrast Stretching: Also called normalization, this technique improves contrast by expanding the range of pixel values in an image. It “stretches” the minimum and maximum intensity values to full black (0) and full white (255).
- Operation: It applies a linear transformation function to each pixel, mapping the original intensity range to a new, wider range.
- Example: A hazy or washed-out landscape photograph can be made more vibrant and clear by contrast stretching.
- Spatial Filtering: This technique involves performing an operation on the neighborhood of each pixel. A small matrix, known as a kernel or mask, is slid over the image. The output pixel’s value is calculated based on the weights in the kernel and the values of the neighboring pixels.
- Operation: For sharpening, a high-pass filter kernel (like a Laplacian) is used which enhances edges. For smoothing, a low-pass filter kernel (like an averaging filter) is used which reduces noise.
- Example: Using a sharpening filter to make details in a blurry photo clearer, or using a smoothing filter to remove unwanted grain from a noisy picture.
(c)
Evolution and Advancements in Computer Vision
Computer vision, which focuses on enabling machines to interpret and understand the visual world, has undergone significant evolution. Early days were dominated by theoretical approaches like David Marr’s theory, focusing on edge detection and geometric modeling. However, these methods had limited success in complex and variable real-world scenarios.
The key breakthrough came with the advent of Deep Learning , particularly Convolutional Neural Networks (CNNs) . CNNs are able to automatically learn hierarchies of features directly from images, eliminating the need for manual feature engineering. The development of large-scale labeled datasets (like ImageNet) and powerful GPUs fueled this revolution.
These advancements have improved the capabilities of camera systems:
- Single-Camera Systems: Deep learning has drastically increased the accuracy of object detection, image segmentation, and scene understanding using a single camera. Smartphones can now recognize faces, objects, and scenes in real-time.
- Multi-Camera Systems: Deep learning has also enhanced tasks like stereo vision and 3D reconstruction. By processing inputs from multiple cameras, systems can better estimate depth and build more robust 3D models of the world.
Sophisticated Applications:
- Autonomous Vehicles: Cars now use multiple cameras and deep learning to create a 360-degree understanding of their surroundings, detecting and tracking pedestrians, other vehicles, and lane markers for safe navigation.
- Robotics: Robots now use vision to identify, grasp, and manipulate objects with greater precision, enabling automation in manufacturing and logistics.
- Healthcare: Computer vision algorithms analyze medical images (e.g., X-rays, MRIs) to detect tumors, diagnose diseases, and assist in surgical planning, often matching or exceeding the capabilities of human radiologists.
(d)
Supervised Learning Algorithms and Comparison
Supervised Learning
is a type of machine learning where the model is trained on labeled data. This means that each data input is tagged with a correct output.
Categories of Supervised Learning Algorithms:
- Classification: When the output variable is a category, such as ‘cat’ or ‘dog’, or ‘spam’ or ‘not spam’. The goal is to classify input data into discrete classes. Example algorithms include Support Vector Machine (SVM), Decision Trees, and Logistic Regression.
- Regression: When the output variable is a continuous (real) value, such as ‘price’ or ‘temperature’. The goal is to predict a continuous quantity based on input variables. Example algorithms include Linear Regression and Polynomial Regression.
- Ranking: This is used to learn the relative order or ranking of items, rather than a precise value or class. It is often used in information retrieval and recommender systems.
Five Differences Between Supervised and Unsupervised Learning:
- Input Data:
- Supervised: Uses labeled data (input-output pairs).
- Unsupervised: Uses unlabeled data.
- Goal:
- Supervised: To predict the output for new, unseen data.
- Unsupervised: To discover hidden structure or patterns in the data.
- Process:
- Supervised: Learns a mapping function that maps inputs to known outputs.
- Unsupervised: Tries to find inherent groupings or associations in the data.
- Algorithms:
- Supervised: Linear Regression, SVM, Decision Trees, Random Forest.
- Unsupervised: K-means Clustering, Hierarchical Clustering, Principal Component Analysis (PCA).
- Complexity and Evaluation:
- Supervised: Requires labeled data for training which can be expensive. Evaluating performance is straightforward (e.g., accuracy, error).
- Unsupervised: Evaluation is more subjective as there is no “right” answer. Interpretation of results can be more difficult.
(e)
Low-Pass and High-Pass Frequency Domain Filters
Frequency domain filters work by modifying the Fourier transform of an image. They allow for the enhancement or suppression of specific frequency components in the image.
Low-Pass Filters (LPF):
- Effect: A low-pass filter attenuates high frequencies and allows low frequencies to pass. Since high frequencies correspond to sharp details and edges in an image, removing them results in smoothing or blurring the image. In the Fourier spectrum, this preserves frequencies near the center (low frequencies) and removes frequencies far from the center.
- Applications: Its primary application is noise reduction . Since noise often consists of high-frequency components, an LPF can effectively reduce it. Common LPFs include the Ideal Low-pass, Butterworth Low-pass, and Gaussian Low-pass filters.
High-Pass Filters (HPF):
- Effect: A high-pass filter attenuates low frequencies and allows high frequencies to pass. This suppresses the low-frequency components in an image (like slowly varying intensity regions) and enhances the high-frequency components (like edges, lines, and other sharp details). The resulting image will appear to consist mainly of edges and textures.
- Applications: They are used for image sharpening and edge detection . When a high-pass filtered image is added back to the original image, it sharpens the edges. Common HPFs include the Ideal High-pass, Butterworth High-pass, and Gaussian High-pass filters. The Laplacian filter is also a type of high-pass filter.
Comparison in Summary:
- Goal: LPF is for smoothing; HPF is for sharpening.
- Effect on Frequencies: LPF removes high frequencies; HPF removes low frequencies.
- Spatial Domain Equivalent: LPF is equivalent to convolution with an averaging or smoothing kernel; HPF is equivalent to convolution with a sharpening kernel.
Q2. (a) Compare the Discrete Fourier Transform, Discrete Cosine Transform, and Discrete Wavelet Transform. Highlight the strengths and weaknesses of each transform in terms of their applications, computational efficiency and ability to represent different types of signals or images. (b) Explain the following: (i) Gaussian noise (ii) K-means clustering (c) Explain various colour models for image processing.
Ans. (a) Comparison of DFT, DCT, and DWT The Discrete Fourier Transform (DFT), Discrete Cosine Transform (DCT), and Discrete Wavelet Transform (DWT) are fundamental tools in signal and image processing for converting signals from one domain (e.g., spatial) to another (e.g., frequency).
Discrete Fourier Transform (DFT)
- Description: DFT decomposes a signal into a sum of complex sinusoids of different frequencies and amplitudes.
- Strengths: It is the foundation of frequency analysis and is ideal for analyzing linear time-invariant systems. The Fast Fourier Transform (FFT) algorithm significantly improves its computational efficiency.
- Weaknesses:
- It assumes the signal is periodic, which can cause spectral leakage for finite signals.
- It has no time-localization information; it tells which frequencies are present, but not when they occur.
- Can suffer from the Gibbs phenomenon for signals with sharp transitions.
Discrete Cosine Transform (DCT)
- Description: DCT expresses a signal as a sum of cosine functions of different frequencies and amplitudes.
- Strengths:
- It has excellent energy compaction properties, especially for highly correlated signals like images. Most of the signal energy is concentrated in a few low-frequency DCT coefficients.
- It avoids the boundary artifacts of the DFT, making it suitable for block-based coding.
- It is the basis of the JPEG image compression standard.
- Weaknesses: Like the DFT, it lacks time-localization. It is not optimal for signals that have sharp, localized discontinuities.
Discrete Wavelet Transform (DWT)
- Description: The DWT projects the signal onto a set of wavelets, which are small, wave-like oscillations that are localized in time.
- Strengths:
- It provides excellent time-frequency localization . It can tell not only which frequencies are present but also where in the signal they are located.
- It is very effective for analyzing non-stationary signals (whose frequency content changes over time) and signals with discontinuities.
- It is used in JPEG2000 image compression and denoising applications.
- Weaknesses: It is conceptually and computationally more complex than DFT and DCT. It lacks shift-invariance, meaning a small shift in the signal can cause significant changes in the transform coefficients.
(b)
Explanation of the Following
(i) Gaussian Noise:
Gaussian noise is a statistical noise having a probability density function (PDF) equal to that of the normal distribution (also known as the Gaussian distribution). In image processing, it is an additive noise model, meaning the noise value at each pixel is added to the original pixel value. It appears as a fine, grainy pattern in the image. Gaussian noise is often caused by the thermal noise of the image sensor, poor lighting conditions, or electronic circuit noise. It is typically described by its mean and variance. It can be effectively reduced using spatial filters like the Gaussian smoothing filter.
(ii) K-means Clustering: K-means clustering is an unsupervised machine learning algorithm used to partition data into a pre-determined number (K) of groups. The algorithm’s goal is to group data points in such a way that points within the same cluster are similar to each other, while points in different clusters are dissimilar. The process is iterative:
- Initialization: Randomly choose K data points from the dataset as the initial cluster centroids.
- Assignment: Assign each data point to its nearest centroid (usually using Euclidean distance).
- Update: For each cluster, recalculate the centroid as the mean of all points in the cluster.
- Repeat: Repeat steps 2 and 3 until the centroids stabilize (i.e., they no longer change significantly).
In image processing, it is used for image segmentation (grouping pixels based on color or texture) and color quantization.
(c)
Various Colour Models for Image Processing
A colour model (or color space) is an abstract mathematical model describing the way colors can be represented as tuples of numbers, typically as three or four values. It establishes a coordinate system in which every color can be represented. Several colour models are used in image processing, each with its own advantages.
1. RGB (Red, Green, Blue) Model:
- Type: Additive model.
- Description: In this model, a wide range of colors is created by adding red, green, and blue light together in various proportions. When all three colors are combined at full intensity, they produce white.
- Applications: It is the standard for light-emitting devices such as color monitors, televisions, digital cameras, and scanners. It is hardware-oriented.
2. CMYK (Cyan, Magenta, Yellow, Key/Black) Model:
- Type: Subtractive model.
- Description: This model starts with white light and subtracts light to create colors. By mixing cyan, magenta, and yellow inks, they absorb red, green, and blue light respectively. Theoretically, mixing C, M, and Y should produce black, but in practice, it is a dark brown, so black (K) ink is added for pure black.
- Applications: It is primarily used in color printing.
3. HSI/HSV (Hue, Saturation, Intensity/Value) Model:
- Type: Human perception-oriented model.
- Description: This model decouples color into components that are more intuitive to human vision.
- Hue: The dominant color type (e.g., red, yellow, blue). It is represented as an angle on the color wheel.
- Saturation: The “purity” or “vibrancy” of the color. It describes the amount of white light mixed with a hue. Highly saturated colors contain no white.
- Intensity/Value: The brightness or darkness of the color.
- Applications: This model is very useful for image processing tasks where color information needs to be separated from illumination. For example, detecting an object of a specific color, regardless of whether it is brightly lit or in shadow.
Q3. (a) Explain the role of labelled datasets in supervised learning for object recognition. How does the quality and quantity of labelled data impact the performance of the recognition model? (b) What is digital image processing? How does it differ from traditional image processing techniques? (c) What is meant by Laplacian filter? Using a second derivative, develop a Laplacian mask for image sharpening.
Ans. (a) Labelled Datasets and Object Recognition In supervised learning for object recognition, the role of labelled datasets is paramount. These datasets provide the “ground truth” for the training process. A labelled dataset consists of input data (e.g., images) where each input is associated with one or more labels that describe the output (e.g., ‘cat’, ‘car’, or the bounding box coordinates of an object).
Role: The model (e.g., a neural network) learns from these input-label pairs. Its goal is to develop an internal representation or a mapping function that correlates input image features to the correct output label. During training, the model makes a prediction, compares it to the ground truth label, and adjusts its internal parameters to minimize the error between the prediction and the actual label. Without sufficient examples, the model cannot learn the complex relationships between input and output.
Impact on Performance:
- Quality of Data: The quality of the data directly impacts the model’s performance.
- Inaccurate Labels: If images are incorrectly labelled (e.g., a cat labelled as a ‘dog’), the model will be confused and learn incorrect relationships. This is the principle of “garbage in, garbage out.”
- Inconsistent Labelling: If the same type of object is labelled in different ways, it becomes difficult for the model to generalize.
- High-quality, clean, and accurately labelled data leads to a more robust and accurate model.
- Quantity of Data:
- Insufficient Data: With too little data, the model might overfit . This means it “memorizes” the training data but fails to perform well on new, unseen data.
- Sufficient Data: A large, diverse dataset helps the model learn to recognize objects under various conditions (e.g., different lighting, angles, backgrounds) and generalize better. Deep learning models, with their millions of parameters, especially require large amounts of data to be trained effectively. Techniques like data augmentation (e.g., rotating, flipping, or cropping images) help to artificially increase the amount of training data and reduce overfitting.
(b)
Digital Image Processing (DIP)
Digital Image Processing
refers to the field of performing various operations on digital images using a digital computer. A digital image is represented as a 2D function, f(x, y), where x and y are spatial coordinates, and the value of f at any point (x, y) is the intensity or gray level of the image at that point. DIP involves the development and application of algorithms that take an image as input and produce either a modified image (e.g., image enhancement) or information related to the image (e.g., object recognition) as output.
Difference from Traditional Image Processing:
- Medium:
- Digital: Manipulates images stored as a matrix of pixels using computers and digital circuitry.
- Traditional (Analog): Operates on physical media like photographic film, plates, or analog video signals.
- Techniques:
- Digital: Employs mathematical and computational algorithms. Operations include manipulating pixel values, applying Fourier transforms, and running complex machine learning models.
- Traditional: Relies on chemical processes (e.g., developing film in a darkroom) and optical devices (e.g., lenses, filters). Examples include dodging and burning.
- Flexibility & Repeatability:
- Digital: Highly flexible, operations can be easily undone, and algorithms can be precisely repeated on different images. A wide range of complex operations is possible.
- Traditional: Less flexible and difficult to repeat with precision. The outcome is highly dependent on operator skill and physical conditions.
(c)
Laplacian Filter and Mask Development
The
Laplacian filter
is an edge detection operator that uses the second-order spatial derivative of an image. It is a linear, shift-invariant operator. Unlike first-order derivatives (like Sobel or Prewitt operators) which detect the presence of edges, the Laplacian filter highlights edges and is useful for image sharpening. It is sensitive to abrupt changes in intensity and highlights fine details in an image.
Development of the Mask: The Laplacian operator is denoted by ∇² (nabla squared). For a 2D function f(x, y), the Laplacian is defined as: ∇²f = ∂²f/∂x² + ∂²f/∂y²
We can apply this equation to a digital image by using discrete approximations. The second-order derivatives in the x and y directions can be estimated using finite differences: ∂²f/∂x² ≈ f(x+1, y) + f(x-1, y) – 2f(x, y) ∂²f/∂y² ≈ f(x, y+1) + f(x, y-1) – 2f(x, y)
Adding these together gives us the discrete approximation of the Laplacian: ∇²f ≈ [f(x+1, y) + f(x-1, y) + f(x, y+1) + f(x, y-1)] – 4f(x, y)
This equation can be implemented as a filter mask or kernel that is convolved with the original image. The mask corresponding to the equation above is:
0 1 0 1 -4 1 0 1 0
Another common mask can also be derived by including the diagonals, leading to a center weight of -8:
1 1 1 1 -8 1 1 1 1
Image Sharpening: To sharpen an image, the Laplacian image (which highlights the edges) is subtracted from the original image. This restores the areas that are not edges and sharpens the edges. The sharpened image, g(x, y), is given by: g(x, y) = f(x, y) – ∇²f(x, y)
If the mask with a -4 center is used, the sharpening mask becomes:
0 -1 0-1 5 -1 0 -1 0
Convolving the original image with this mask directly yields a sharpened image.
Q4. (a) What do you mean by Wiener filter in signal processing? What problems does the Wiener filter aim to solve, and how does it operate in both the time and frequency domains? (b) What is Homography? Discuss the application of Homography in computer vision and image processing. (c) Describe Agglomerative Hierarchical clustering.
Ans. (a) Wiener Filter In signal processing, the Wiener filter is a filter used to restore a signal or image that has been corrupted by noise. It is considered an optimal linear filter because it minimizes the mean square error between the original signal and the restored signal. It is based on the work of Norbert Wiener.
Problems to Solve: The Wiener filter primarily aims to solve two problems simultaneously:
- Deblurring: Reversing the distortion caused by a known blurring or degradation function (the point spread function).
- Denoising: Removing or reducing additive noise.
It attempts to find an optimal tradeoff between these two objectives. A simple inverse filter amplifies noise excessively, while a simple denoising filter might blur the image too much. The Wiener filter provides a better solution by taking into account the statistical properties of both the signal and the noise.
Operation: The Wiener filter can be described in both the time (spatial) and frequency domains, but it is typically implemented in the frequency domain.
- Frequency Domain: In the frequency domain, the Wiener filter is calculated as: G(u, v) = [ |H(u, v)|² / ( |H(u, v)|² + S n (u, v) / S f (u, v) ) ] * [ Y(u, v) / H(u, v) ] Where:
- G(u, v) is the Fourier transform of the restored image.
- H(u, v) is the Fourier transform of the degradation function (blur kernel).
- Y(u, v) is the Fourier transform of the degraded image.
- S n (u, v) is the power spectrum of the noise.
- S f (u, v) is the power spectrum of the original image.
The ratio S
n
/S
f
can be thought of as the inverse of the signal-to-noise ratio (SNR). When noise is low (high SNR), the bracketed term is close to 1, and the filter behaves like an inverse filter. When noise is high (low SNR), the bracketed term is close to 0, suppressing noise amplification. - Time/Spatial Domain: In the time or spatial domain, the Wiener filter corresponds to a convolution operation as a Finite Impulse Response (FIR) filter. However, calculating the required kernel and performing the convolution can be computationally intensive, which is why the frequency-domain approach using FFT is preferred.
(b)
Homography
In computer vision, a
Homography
is a
3×3 matrix
that describes a 2D projective transformation. It maps points from one plane to another. The most common use case is describing the relationship between two images that view the same planar surface, but from different perspectives. If
p
= [x, y, 1]
T
are the homogeneous coordinates of a point in the first image and
p’
= [x’, y’, 1]
T
is the corresponding point in the second image, their relationship is given by the homography matrix
H
:
p’ = H * p
Calculating the homography requires at least four corresponding point pairs.
Applications: Homography has numerous important applications in computer vision and image processing:
- Image Stitching (Panorama Creation): When creating a panorama from multiple overlapping images, homography is used to align and warp the images with respect to each other so they form a seamless composite image.
- Image Rectification: Homography can be used to remove perspective distortion from an image. For example, a slanted picture of a building can be transformed to make it appear as if it were taken from the front. This is also used in bird’s-eye-view transformations.
- Augmented Reality (AR): In AR applications, homography is used to overlay a virtual object onto a planar surface in the real world (like a table or a wall). It ensures the virtual object is correctly aligned with the perspective of the real world.
- Camera Pose Estimation: If the relationship between the camera and a known planar object (like a checkerboard) is known, the homography can be used to calculate the camera’s pose (rotation and translation) relative to the object.
(c)
Agglomerative Hierarchical Clustering
Agglomerative hierarchical clustering is a
“bottom-up”
clustering method. It builds a hierarchy of cluster structures, typically represented in a tree-like diagram called a
dendrogram
.
Algorithm Process:
- Initialize: Treat each data point as its own cluster. If there are N data points, you start with N clusters.
- Merge: Find the two most similar (or closest) clusters and merge them into a single cluster. You now have N-1 clusters.
- Repeat: Keep repeating step 2 until all data points are in a single, large cluster.
Key Components:
- Dendrogram: This is a tree diagram that shows each merge step. The vertical axis represents the distance or dissimilarity between the two merged clusters. By “cutting” the dendrogram at a certain height, one can obtain any desired number of clusters.
- Linkage Criterion: This is the method for defining the distance between two clusters. The choice can significantly affect the final cluster structure. Common criteria are:
- Single Linkage: Defines the distance between two clusters as the distance between their closest points. It can produce long, thin clusters.
- Complete Linkage: Defines the distance between two clusters as the distance between their farthest points. It tends to form compact, spherical clusters.
- Average Linkage: Calculates the average distance between each point in one cluster and each point in the other.
- Ward’s Method: Tries to merge two clusters that result in the minimum increase in the within-cluster variance.
This method is useful because it does not require the number of clusters to be known in advance and provides insight into the hierarchical nature of the data.
Q5. Write short notes on any five of the following: (i) Camera calibration (ii) Edge-based Segmentation (iii) Bayesian classification (iv) Smoothing filters (v) Partition clustering (vi) Applications of feature extraction
Ans. (i) Camera Calibration Camera calibration is the process of determining the intrinsic and extrinsic parameters of a camera. Intrinsic parameters are related to the camera’s own characteristics, such as focal length , principal point (image center), and lens distortion coefficients. Extrinsic parameters describe the camera’s position and orientation with respect to a world coordinate system, including its rotation and translation . The process is typically done by capturing multiple images of a known pattern (like a checkerboard) from different angles. Calibration is crucial for 3D computer vision applications, such as 3D reconstruction, stereo vision, and robot navigation, as it allows for an accurate mapping between 2D image pixel coordinates and 3D world points.
(ii) Edge-based Segmentation Edge-based segmentation is a technique that partitions an image into different regions or objects by detecting their boundaries or edges. It is based on the assumption that the boundary of a region is marked by a significant change in intensity. The process typically involves two main steps:
- Edge Detection: Finding pixels with sharp intensity gradients in the image by applying edge detection operators like Sobel, Canny, or Laplacian.
- Edge Linking: Grouping the detected edge pixels into continuous and closed boundaries. This is often done using techniques like the Hough Transform or local neighborhood analysis.
Once closed boundaries are found, they divide the image into distinct segments. This method works well when there is high contrast between objects and the background but can be sensitive to noise and broken edges.
(iii) Bayesian Classification Bayesian classification is a probabilistic classification method based on Bayes’ Theorem . It calculates the probability of an instance belonging to each class for a given feature set. The goal is to find the class with the highest posterior probability. Bayes’ Theorem is stated as: P(C|X) = [P(X|C) * P(C)] / P(X) where C is the class and X is the feature vector. P(C|X) is the posterior probability, P(X|C) is the likelihood, P(C) is the prior probability, and P(X) is the evidence. Naive Bayes is a popular Bayesian classifier that makes the simplifying assumption that features are conditionally independent of each other. Despite its simplicity, it is very effective in many real-world applications like spam filtering, text classification, and medical diagnosis.
(iv) Smoothing Filters Smoothing filters, also known as low-pass filters , are used to reduce noise and blur images. They work by replacing the value of each pixel with the average (or weighted average) of the pixel values in its neighborhood. This process attenuates sharp, abrupt changes in intensity, which are often caused by noise. Common smoothing filters include:
- Mean (Averaging) Filter: Replaces a pixel with the average of all pixel values in its neighborhood. It is simple but also blurs edges.
- Gaussian Filter: Uses a weighted average where nearby pixels are given more weight, resulting in a smoother, less artificial blur.
- Median Filter: Replaces a pixel with the median of the pixel values in its neighborhood. It is particularly effective at removing salt-and-pepper noise and preserves edges better than mean filters.
(v) Partition Clustering Partition clustering (also called partitional clustering) is a clustering method that divides a dataset into a set of non-overlapping groups. This means that each data point belongs to exactly one cluster. Typically, the number of clusters (K) is specified in advance as an input parameter to the algorithm. The goal is to create clusters that are internally coherent (points in the same cluster are close to each other) and externally distinct (points in different clusters are far from each other). The most famous example of a partition clustering algorithm is K-means . These algorithms generally work iteratively to optimize an objective function (e.g., the within-cluster sum of squares).
(vi) Applications of Feature Extraction Feature extraction is the process of transforming raw data (like the pixels of an image) into a reduced, more informative, and non-redundant set of features. This is crucial for subsequent tasks like classification, recognition, or clustering because it reduces dimensionality and highlights relevant information. It has wide-ranging applications:
- Object Recognition: Extracting features like SIFT (Scale-Invariant Feature Transform) , SURF (Speeded-Up Robust Features) , or HOG (Histogram of Oriented Gradients) to represent objects for matching.
- Face Recognition: Extracting features that describe facial characteristics, such as the distance between eyes or the shape of the nose, or using learned features from deep learning.
- Image Retrieval: Using features like color histograms, texture measures (e.g., Local Binary Patterns), or shape descriptors to find similar images in a large database.
- Medical Image Analysis: Extracting texture or shape features from medical scans (e.g., MRI, CT) to identify and classify tumors or other pathologies.
Download IGNOU previous Year Question paper download PDFs for MCS-230 to improve your preparation. These ignou solved question paper IGNOU Previous Year Question paper solved PDF in Hindi and English help you understand the exam pattern and score better.
Thanks!
Leave a Reply