The IGNOU MCS-224 Solved Question Paper PDF Download page is designed to help students access high-quality exam resources in one place. Here, you can find ignou solved question paper IGNOU Previous Year Question paper solved PDF that covers all important questions with detailed answers. This page provides IGNOU all Previous year Question Papers in one PDF format, making it easier for students to prepare effectively.
- IGNOU MCS-224 Solved Question Paper in Hindi
- IGNOU MCS-224 Solved Question Paper in English
- IGNOU Previous Year Solved Question Papers (All Courses)
Whether you are looking for IGNOU Previous Year Question paper solved in English or ignou previous year question paper solved in hindi, this page offers both options to suit your learning needs. These solved papers help you understand exam patterns, improve answer writing skills, and boost confidence for upcoming exams.
IGNOU MCS-224 Solved Question Paper PDF

This section provides IGNOU MCS-224 Solved Question Paper PDF in both Hindi and English. These ignou solved question paper IGNOU Previous Year Question paper solved PDF include detailed answers to help you understand exam patterns and improve your preparation. You can also access IGNOU all Previous year Question Papers in one PDF for quick and effective revision before exams.
IGNOU MCS-224 Previous Year Solved Question Paper in Hindi
Q1. (a) संकीर्ण AI, सामान्य AI और सुपर AI की तुलना करें। प्रत्येक के लिए उपयुक्त उदाहरण दें। 6 (b) प्रतिगमन (regression) क्या है? रैखिक प्रतिगमन (linear regression) को परिभाषित करें। 4 (c) डेम्पस्टर शेफर सिद्धांत को एक उपयुक्त उदाहरण के साथ समझाएं। 5 (d) निम्नलिखित फजी सेट के लिए: A= {a/0.5, b/.6, c/.3, d/0, e/.9}, B= {a/0.3, b/.7, c/.6, d/.3, e/.6}, फजी सेट A∩B, A∪B और (Aᶜ∪B) ज्ञात करें। 6 (e) एन्सेम्बल लर्निंग (ensemble learning) क्या है? किसी एक एन्सेम्बल लर्निंग एल्गोरिथम पर संक्षेप में चर्चा करें। 4 (f) कन्फ्यूजन मैट्रिक्स बनाएं और सटीकता (accuracy), परिशुद्धता (precision), संवेदनशीलता (sensitivity) और विशिष्टता (specificity) के लिए सूत्र लिखें। 5 (g) DBSCAN क्या है? 3 (h) लीनियर डिस्क्रिमिनेंट एनालिसिस (Linear Discriminant Analysis) को परिभाषित करें और इसकी दो सीमाएं लिखें। 7
Ans.
(a) संकीर्ण AI, सामान्य AI और सुपर AI की तुलना
आर्टिफिशियल इंटेलिजेंस (AI) को उसकी क्षमताओं के आधार पर तीन प्रकारों में वर्गीकृत किया जा सकता है:
- संकीर्ण AI (Narrow AI – ANI): इसे कमजोर AI भी कहा जाता है। यह AI का वह रूप है जिसे एक विशिष्ट कार्य करने के लिए डिज़ाइन किया गया है। यह अपने पूर्वनिर्धारित दायरे से बाहर काम नहीं कर सकता है। आज हम जिस AI का उपयोग करते हैं, वह संकीर्ण AI है। उदाहरण: एप्पल का सिरी, गूगल असिस्टेंट, आईबीएम का वाटसन, शतरंज खेलने वाले कंप्यूटर, और सेल्फ-ड्राइविंग कारें। ये सभी केवल एक या कुछ विशिष्ट कार्यों में ही उत्कृष्ट हैं।
- सामान्य AI (General AI – AGI): इसे मजबूत AI भी कहा जाता है। यह AI का एक काल्पनिक रूप है जिसमें मानव जैसी बुद्धि और चेतना होगी। AGI किसी भी बौद्धिक कार्य को समझ सकता है, सीख सकता है और उसे निष्पादित कर सकता है जो एक इंसान कर सकता है। यह विभिन्न डोमेन में ज्ञान को लागू करने और समस्याओं को हल करने में सक्षम होगा। उदाहरण: वर्तमान में कोई वास्तविक AGI मौजूद नहीं है। विज्ञान-कथा फिल्मों में देखे जाने वाले रोबोट जैसे कि “स्टार ट्रेक” में डेटा, AGI के उदाहरण हैं।
- सुपर AI (Super AI – ASI): यह AI का वह काल्पनिक रूप है जो मानव बुद्धि को हर पहलू में पार कर जाएगा, जिसमें रचनात्मकता, सामान्य ज्ञान और समस्या-समाधान शामिल हैं। ASI न केवल इंसानों द्वारा किए जाने वाले किसी भी कार्य को कर पाएगा, बल्कि उसे बहुत बेहतर तरीके से कर पाएगा। उदाहरण: यह भी एक काल्पनिक अवधारणा है और इसका कोई वास्तविक उदाहरण नहीं है। यह AI विकास का अंतिम चरण माना जाता है।
(b) प्रतिगमन (Regression) और रैखिक प्रतिगमन (Linear Regression)
प्रतिगमन (Regression): प्रतिगमन एक पर्यवेक्षित मशीन लर्निंग (supervised machine learning) तकनीक है जिसका उपयोग निरंतर (continuous) मानों का पूर्वानुमान लगाने के लिए किया जाता है। यह इनपुट चर (स्वतंत्र चर) और आउटपुट चर (आश्रित चर) के बीच संबंध को मॉडल करता है। इसका लक्ष्य एक ऐसा गणितीय फलन खोजना है जो इनपुट चर के आधार पर आउटपुट चर के मान का सबसे अच्छा अनुमान लगा सके।
उदाहरण: किसी घर के आकार, स्थान और उम्र के आधार पर उसकी कीमत का अनुमान लगाना। रैखिक प्रतिगमन (Linear Regression): रैखिक प्रतिगमन, प्रतिगमन का सबसे सरल रूप है। यह मानता है कि स्वतंत्र चर (x) और आश्रित चर (y) के बीच एक रैखिक संबंध है। इसका लक्ष्य एक सीधी रेखा (जिसे प्रतिगमन रेखा कहा जाता है) को खोजना है जो डेटा बिंदुओं के माध्यम से सबसे अच्छी तरह से फिट होती है। इस रेखा का समीकरण है:
y = mx + c
जहाँ:
- y आश्रित चर है (जिसका पूर्वानुमान लगाना है)।
- x स्वतंत्र चर है।
- m रेखा का ढलान (slope) है, जो x में प्रति इकाई परिवर्तन के लिए y में परिवर्तन को दर्शाता है।
- c y-अवरोधन (intercept) है, जो x=0 होने पर y का मान है।
(c) डेम्पस्टर-शेफर सिद्धांत (Dempster-Shafer Theory)
डेम्पस्टर-शेफर सिद्धांत साक्ष्य का एक गणितीय सिद्धांत है जो विभिन्न स्रोतों से प्राप्त अधूरी और अनिश्चित जानकारी को संयोजित करने की अनुमति देता है। यह संभाव्यता सिद्धांत (probability theory) का एक सामान्यीकरण है। यह किसी परिकल्पना के लिए न केवल विश्वास की डिग्री निर्दिष्ट करता है, बल्कि अज्ञानता को भी व्यक्त करता है।
मुख्य अवधारणाएं:
- फ्रेम ऑफ डिस्सर्नमेंट (Θ): यह सभी संभावित परिकल्पनाओं का एक सेट है।
- मास फंक्शन (m): यह Θ के प्रत्येक उपसमुच्चय को [0, 1] के बीच एक मान (द्रव्यमान) प्रदान करता है। यह किसी साक्ष्य द्वारा सीधे तौर पर समर्थित विश्वास की डिग्री है। सभी उपसमुच्चयों के द्रव्यमान का योग 1 होता है।
- बिलीफ (Bel): किसी सेट A में विश्वास, A के सभी उपसमुच्चयों के द्रव्यमान का योग होता है। Bel(A) = Σ m(B) जहाँ B, A का उपसमुच्चय है।
- प्लॉसिबिलिटी (Pl): किसी सेट A की प्लॉसिबिलिटी, A के साथ प्रतिच्छेद करने वाले सभी सेटों के द्रव्यमान का योग है। Pl(A) = Σ m(B) जहाँ B ∩ A ≠ ∅।
उदाहरण: मान लीजिए एक डॉक्टर को मरीज की बीमारी का निदान करना है। फ्रेम ऑफ डिस्सर्नमेंट Θ = {फ्लू, सर्दी, एलर्जी} है।
- साक्ष्य 1 (लक्षण): डॉक्टर को 0.6 विश्वास है कि यह {फ्लू, सर्दी} में से एक है। तो m1({फ्लू, सर्दी}) = 0.6, और शेष अज्ञानता m1(Θ) = 0.4 है।
- साक्ष्य 2 (लैब टेस्ट): टेस्ट 0.7 विश्वास देता है कि यह {सर्दी, एलर्जी} में से एक है। तो m2({सर्दी, एलर्जी}) = 0.7, और शेष अज्ञानता m2(Θ) = 0.3 है।
डेम्पस्टर के संयोजन नियम का उपयोग करके इन दोनों साक्ष्यों को जोड़ा जा सकता है ताकि विभिन्न परिकल्पनाओं के लिए एक संयुक्त विश्वास प्राप्त किया जा सके। यह सिद्धांत “मुझे नहीं पता” कहने की अनुमति देता है, जो पारंपरिक संभाव्यता में कठिन है। (d) फजी सेट गणना
दिए गए फजी सेट: A = {a/0.5, b/0.6, c/0.3, d/0, e/0.9} B = {a/0.3, b/0.7, c/0.6, d/0.3, e/0.6}
1. A ∩ B (इंटरसेक्शन): प्रत्येक तत्व के लिए न्यूनतम सदस्यता मान लिया जाता है। μ A∩B (x) = min(μ A (x), μ B (x))
- a: min(0.5, 0.3) = 0.3
- b: min(0.6, 0.7) = 0.6
- c: min(0.3, 0.6) = 0.3
- d: min(0, 0.3) = 0
- e: min(0.9, 0.6) = 0.6
A ∩ B = {a/0.3, b/0.6, c/0.3, d/0, e/0.6}
2. A ∪ B (यूनियन): प्रत्येक तत्व के लिए अधिकतम सदस्यता मान लिया जाता है। μ A∪B (x) = max(μ A (x), μ B (x))
- a: max(0.5, 0.3) = 0.5
- b: max(0.6, 0.7) = 0.7
- c: max(0.3, 0.6) = 0.6
- d: max(0, 0.3) = 0.3
- e: max(0.9, 0.6) = 0.9
A ∪ B = {a/0.5, b/0.7, c/0.6, d/0.3, e/0.9}
3. (Aᶜ ∪ B): पहले, हम A का कॉम्प्लिमेंट (Aᶜ) ज्ञात करते हैं। μ Aᶜ (x) = 1 – μ A (x) Aᶜ = {a/(1-0.5), b/(1-0.6), c/(1-0.3), d/(1-0), e/(1-0.9)} Aᶜ = {a/0.5, b/0.4, c/0.7, d/1, e/0.1} अब, हम Aᶜ और B का यूनियन ज्ञात करते हैं। μ Aᶜ∪B (x) = max(μ Aᶜ (x), μ B (x))
- a: max(0.5, 0.3) = 0.5
- b: max(0.4, 0.7) = 0.7
- c: max(0.7, 0.6) = 0.7
- d: max(1, 0.3) = 1
- e: max(0.1, 0.6) = 0.6
(Aᶜ ∪ B) = {a/0.5, b/0.7, c/0.7, d/1, e/0.6} (e) एन्सेम्बल लर्निंग (Ensemble Learning)
एन्सेम्बल लर्निंग एक मशीन लर्निंग तकनीक है जिसमें कई मॉडल (जिन्हें अक्सर “कमजोर लर्नर” कहा जाता है) को प्रशिक्षित किया जाता है और उनकी भविष्यवाणियों को संयोजित किया जाता है ताकि एक एकल मॉडल की तुलना में बेहतर प्रदर्शन वाला एक अधिक मजबूत और सटीक मॉडल (एक “मजबूत लर्नर”) बनाया जा सके। मूल विचार यह है कि मॉडलों का एक विविध समूह मिलकर व्यक्तिगत त्रुटियों को रद्द कर सकता है और बेहतर सामान्यीकरण कर सकता है।
रैंडम फॉरेस्ट (Random Forest) एल्गोरिथम: रैंडम फॉरेस्ट एक लोकप्रिय एन्सेम्बल लर्निंग एल्गोरिथम है जो बैगिंग (Bagging) नामक तकनीक का उपयोग करता है। यह क्लासिफिकेशन और रिग्रेशन दोनों कार्यों के लिए काम करता है।
- यह कई डिसीजन ट्री (Decision Trees) का एक संग्रह बनाता है।
- प्रत्येक ट्री को प्रशिक्षण डेटा के एक यादृच्छिक सबसेट (जिसे बूटस्ट्रैप सैंपल कहा जाता है) पर प्रशिक्षित किया जाता है।
- इसके अलावा, प्रत्येक ट्री में प्रत्येक स्प्लिट पर, सुविधाओं (features) के केवल एक यादृच्छिक सबसेट पर विचार किया जाता है। यह पेड़ों के बीच सहसंबंध को कम करता है और विविधता बढ़ाता है।
- अंतिम भविष्यवाणी करने के लिए, क्लासिफिकेशन के मामले में यह सभी पेड़ों से बहुमत वोट लेता है, और रिग्रेशन के मामले में यह सभी पेड़ों की भविष्यवाणियों का औसत लेता है।
यह ओवरफिटिंग को कम करने और सटीकता में सुधार करने में बहुत प्रभावी है। (f) कन्फ्यूजन मैट्रिक्स और मेट्रिक्स
कन्फ्यूजन मैट्रिक्स एक तालिका है जिसका उपयोग वर्गीकरण मॉडल के प्रदर्शन का मूल्यांकन करने के लिए किया जाता है। यह वास्तविक मानों की तुलना मॉडल द्वारा अनुमानित मानों से करता है।
एक बाइनरी वर्गीकरण के लिए कन्फ्यूजन मैट्रिक्स:
Predicted: Positive
Predicted: Negative
Actual: Positive
True Positive (TP)
False Negative (FN)
Actual: Negative
False Positive (FP)
True Negative (TN)
सूत्र:
- सटीकता (Accuracy): सभी भविष्यवाणियों में से सही भविष्यवाणियों का अनुपात। Accuracy = (TP + TN) / (TP + TN + FP + FN)
- परिशुद्धता (Precision): सभी सकारात्मक भविष्यवाणियों में से वास्तव में सकारात्मक मामलों का अनुपात। Precision = TP / (TP + FP)
- संवेदनशीलता (Sensitivity / Recall): सभी वास्तविक सकारात्मक मामलों में से सही ढंग से पहचाने गए सकारात्मक मामलों का अनुपात। Sensitivity = TP / (TP + FN)
- विशिष्टता (Specificity): सभी वास्तविक नकारात्मक मामलों में से सही ढंग से पहचाने गए नकारात्मक मामलों का अनुपात। Specificity = TN / (TN + FP)
(g) DBSCAN
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) एक घनत्व-आधारित क्लस्टरिंग एल्गोरिथम है। इसका उपयोग डेटा में क्लस्टर और शोर (आउटलायर्स) का पता लगाने के लिए किया जाता है। K-Means जैसे अन्य क्लस्टरिंग एल्गोरिदम के विपरीत, DBSCAN को क्लस्टर की संख्या पहले से निर्दिष्ट करने की आवश्यकता नहीं होती है और यह मनमाने आकार के क्लस्टर खोज सकता है।
यह दो मापदंडों पर काम करता है:
- ε (एप्सिलॉन): एक बिंदु के पड़ोस को परिभाषित करने के लिए एक दूरी माप।
- MinPts: एक बिंदु को कोर बिंदु के रूप में मानने के लिए ε-पड़ोस के भीतर आवश्यक न्यूनतम बिंदुओं की संख्या।
यह बिंदुओं को कोर पॉइंट्स, बॉर्डर पॉइंट्स और नॉइज़ पॉइंट्स के रूप में वर्गीकृत करता है ताकि क्लस्टर बनाए जा सकें। (h) लीनियर डिस्क्रिमिनेंट एनालिसिस (LDA)
लीनियर डिस्क्रिमिनेंट एनालिसिस (LDA) एक पर्यवेक्षित मशीन लर्निंग तकनीक है जिसका उपयोग आयाम में कमी (dimensionality reduction) और वर्गीकरण दोनों के लिए किया जाता है। इसका मुख्य लक्ष्य डेटा को एक निम्न-आयामी स्थान पर प्रोजेक्ट करना है जिसमें विभिन्न वर्गों के बीच अधिकतम पृथक्करण (separability) हो। LDA अंतर-वर्ग विचरण (between-class variance) और अंतः-वर्ग विचरण (within-class variance) के अनुपात को अधिकतम करके इसे प्राप्त करता है। यह उन विशेषताओं का एक नया सेट बनाता है जो मूल विशेषताओं का एक रैखिक संयोजन हैं।
LDA की दो सीमाएं:
- रैखिक पृथक्करणीयता की धारणा (Assumption of Linear Separability): LDA मानता है कि वर्ग रैखिक रूप से पृथक्करणीय हैं। यदि वर्गों के बीच की सीमा गैर-रैखिक है, तो LDA अच्छा प्रदर्शन नहीं करेगा।
- सामान्य वितरण की धारणा (Assumption of Normal Distribution): LDA मानता है कि प्रत्येक वर्ग के लिए डेटा सामान्य रूप से (normally) वितरित है और सभी वर्गों के लिए सहप्रसरण मैट्रिक्स (covariance matrices) समान हैं। यदि यह धारणा पूरी नहीं होती है, तो LDA के परिणाम इष्टतम नहीं हो सकते हैं।
Q2. (a) निम्नलिखित डेटा पर KNN-वर्गीकरण एल्गोरिथ्म लागू करें और K=3 के लिए (10, 7) के लिए मान की भविष्यवाणी करें: फीचर 1, फीचर 2, क्लास [(2, 2, A), (2, 3, A), (2, 4, A), (5, 3, A), (8, 6, B), (8, 8, B), (9, 6, B), (9, 7, B)]। 10 (b) न्यूरल नेटवर्क क्या है? जैविक न्यूरॉन कृत्रिम न्यूरॉन से कैसे संबंधित है? उपयुक्त आरेख के साथ स्पष्ट करें और जैविक न्यूरॉन के घटकों को कृत्रिम न्यूरॉन के साथ मैप करने के लिए एक तालिका बनाएं? 10
Ans.
(a) KNN-वर्गीकरण एल्गोरिथ्म का अनुप्रयोग
हमें नए डेटा बिंदु P(10, 7) के लिए क्लास की भविष्यवाणी करनी है, जिसमें K=3 है। KNN (K-Nearest Neighbors) एल्गोरिथ्म में, हम नए बिंदु से सभी मौजूदा डेटा बिंदुओं की दूरी की गणना करते हैं, K निकटतम पड़ोसियों को ढूंढते हैं, और उन पड़ोसियों के बीच बहुमत वर्ग को नए बिंदु के वर्ग के रूप में निर्दिष्ट करते हैं।
हम यूक्लिडियन दूरी सूत्र का उपयोग करेंगे: d = √((x₂ – x₁)² + (y₂ – y₁)²). नया बिंदु: P1 = (10, 7)
1. (2, 2) से दूरी: d = √((10-2)² + (7-2)²) = √(8² + 5²) = √(64 + 25) = √89 ≈ 9.43 2. (2, 3) से दूरी: d = √((10-2)² + (7-3)²) = √(8² + 4²) = √(64 + 16) = √80 ≈ 8.94 3. (2, 4) से दूरी: d = √((10-2)² + (7-4)²) = √(8² + 3²) = √(64 + 9) = √73 ≈ 8.54 4. (5, 3) से दूरी: d = √((10-5)² + (7-3)²) = √(5² + 4²) = √(25 + 16) = √41 ≈ 6.40 5. (8, 6) से दूरी: d = √((10-8)² + (7-6)²) = √(2² + 1²) = √(4 + 1) = √5 ≈ 2.24 6. (8, 8) से दूरी: d = √((10-8)² + (7-8)²) = √(2² + (-1)²) = √(4 + 1) = √5 ≈ 2.24 7. (9, 6) से दूरी: d = √((10-9)² + (7-6)²) = √(1² + 1²) = √(1 + 1) = √2 ≈ 1.41 8. (9, 7) से दूरी: d = √((10-9)² + (7-7)²) = √(1² + 0²) = √(1) = 1.00
अब, हम दूरियों को आरोही क्रम में क्रमबद्ध करते हैं:
डेटा बिंदु दूरी क्लास रैंक
(9, 7) 1.00 B 1
(9, 6) 1.41 B 2
(8, 6) 2.24 B 3
(8, 8) 2.24 B 4
(5, 3) 6.40 A 5
(2, 4) 8.54 A 6
(2, 3) 8.94 A 7
(2, 2) 9.43 A 8
चूंकि K=3 , हम तीन सबसे निकटतम पड़ोसियों को चुनते हैं:
- (9, 7) – क्लास B
- (9, 6) – क्लास B
- (8, 6) – क्लास B
तीनों निकटतम पड़ोसियों की क्लास ‘B’ है। बहुमत वोट के आधार पर, हम नए बिंदु (10, 7) को क्लास B के रूप में वर्गीकृत करते हैं। (b) न्यूरल नेटवर्क और न्यूरॉन्स
न्यूरल नेटवर्क (Neural Network): एक आर्टिफिशियल न्यूरल नेटवर्क (ANN) एक कम्प्यूटेशनल मॉडल है जो मानव मस्तिष्क की संरचना और कार्यप्रणाली से प्रेरित है। यह आपस में जुड़े हुए “न्यूरॉन्स” या नोड्स की परतों से बना होता है जो सूचनाओं को संसाधित करते हैं। प्रत्येक कनेक्शन, जैविक सिनैप्स की तरह, एक सिग्नल को एक न्यूरॉन से दूसरे में प्रसारित कर सकता है। एक न्यूरॉन जो सिग्नल प्राप्त करता है, वह उसे संसाधित करता है और फिर उससे जुड़े अन्य न्यूरॉन्स को सिग्नल देता है। न्यूरल नेटवर्क का उपयोग पैटर्न को पहचानने, डेटा को वर्गीकृत करने और भविष्यवाणियां करने के लिए किया जाता है, जो अनुभव से सीखने में सक्षम होते हैं।
जैविक और कृत्रिम न्यूरॉन के बीच संबंध:
कृत्रिम न्यूरॉन जैविक न्यूरॉन की एक सरलीकृत गणितीय प्रतिकृति है। इसका उद्देश्य जैविक न्यूरॉन के सिग्नल प्रोसेसिंग के तरीके का अनुकरण करना है।
आरेख:
जैविक न्यूरॉन: इसमें डेंड्राइट्स (इनपुट प्राप्त करते हैं), सोमा या सेल बॉडी (इनपुट को संसाधित करता है), एक्सॉन (आउटपुट सिग्नल भेजता है), और सिनैप्स (न्यूरॉन्स के बीच कनेक्शन) होते हैं।
कृत्रिम न्यूरॉन (या परसेप्ट्रॉन): इसमें इनपुट (x) होते हैं, जिनमें से प्रत्येक का एक भार (w) होता है। इनपुट को भार से गुणा किया जाता है और एक समेकन फलन (summation function) (आमतौर पर एक योग) में जोड़ा जाता है। परिणाम को फिर एक सक्रियण फलन (activation function) के माध्यम से पारित किया जाता है जो अंतिम आउटपुट (y) उत्पन्न करता है।
घटकों का मानचित्रण:
जैविक न्यूरॉन घटक
कृत्रिम न्यूरॉन घटक
कार्य
डेंड्राइट्स (Dendrites)
इनपुट (Inputs)
अन्य न्यूरॉन्स से सिग्नल प्राप्त करना।
सिनैप्स (Synapse)
भार (Weights)
कनेक्शन की ताकत को समायोजित करना; सिग्नल को बढ़ाना या घटाना।
सोमा / सेल बॉडी (Soma / Cell Body)
समेकन और सक्रियण फलन (Summation & Activation Function)
सभी आने वाले सिग्नलों को एकीकृत करना और यह तय करना कि फायर करना है या नहीं (एक आउटपुट सिग्नल उत्पन्न करना)।
एक्सॉन (Axon)
आउटपुट (Output)
संसाधित सिग्नल को अन्य न्यूरॉन्स तक पहुंचाना।
Q3. (a) आयामीयता में कमी (dimensionality reduction) का वर्णन करें। आयामीयता में कमी के फायदे और नुकसान भी लिखें। 5 (b) नीचे एकल कृत्रिम न्यूरॉन (यूनिट) का आरेख है: [Diagram of a single neuron with inputs X1, X2]। नोड में 2 इनपुट X = (X1, X2) हैं जो केवल बाइनरी सिग्नल (0, 1) प्राप्त करते हैं। यह नोड कितने अलग-अलग इनपुट पैटर्न प्राप्त कर सकता है? 5 (c) दिए गए ग्राफ पर BFS और DFS एल्गोरिदम लिखें और लागू करें: [Graph diagram with O as start and G as goal]। 10
Ans.
(a) आयामीयता में कमी (Dimensionality Reduction)
आयामीयता में कमी मशीन लर्निंग में उपयोग की जाने वाली एक प्रक्रिया है जिसका उद्देश्य डेटासेट में विशेषताओं (features) या चरों (variables) की संख्या को कम करना है। उच्च-आयामी डेटा (बहुत सारी विशेषताओं वाला डेटा) “आयाम के अभिशाप” (curse of dimensionality) जैसी समस्याओं को जन्म दे सकता है, जिससे मॉडल को प्रशिक्षित करना अधिक कठिन, धीमा और ओवरफिटिंग के प्रति अधिक प्रवण हो जाता है।
आयामीयता में कमी का लक्ष्य मूल डेटा के अधिकांश महत्वपूर्ण जानकारी को बनाए रखते हुए विशेषताओं की संख्या को कम करना है। इसकी दो मुख्य तकनीकें हैं:
- फीचर सिलेक्शन (Feature Selection): मूल विशेषताओं के एक सबसेट का चयन करना जो सबसे अधिक प्रासंगिक हैं।
- फीचर एक्सट्रैक्शन (Feature Extraction): मूल विशेषताओं को एक नए, छोटे सेट में संयोजित करके नई विशेषताएं बनाना। (उदाहरण: PCA, LDA)।
फायदे:
- कम कम्प्यूटेशनल लागत: कम विशेषताओं का मतलब है कि मॉडल प्रशिक्षण में कम समय और मेमोरी लगती है।
- ओवरफिटिंग में कमी: अनावश्यक विशेषताओं को हटाने से मॉडल को शोर के बजाय वास्तविक पैटर्न पर ध्यान केंद्रित करने में मदद मिलती है, जिससे सामान्यीकरण बेहतर होता है।
- डेटा विज़ुअलाइज़ेशन: डेटा को 2D या 3D में कम करने से इसे प्लॉट करना और समझना आसान हो जाता है।
- “आयाम के अभिशाप” का समाधान: यह उच्च आयामों में होने वाली डेटा विरलता (sparsity) और दूरी गणना की समस्याओं को कम करता है।
नुकसान:
- सूचना की हानि: विशेषताओं को हटाने या संयोजित करने से कुछ जानकारी खो सकती है, जो मॉडल के प्रदर्शन को प्रभावित कर सकती है।
- कठिन व्याख्या: फीचर एक्सट्रैक्शन द्वारा बनाई गई नई विशेषताएं (जैसे PCA में प्रमुख घटक) अक्सर मूल विशेषताओं की तरह आसानी से व्याख्या करने योग्य नहीं होती हैं।
- इष्टतम विशेषताओं का चयन: यह तय करना कि कौन सी विशेषताएं रखनी हैं या कितनी रखनी हैं, एक चुनौतीपूर्ण कार्य हो सकता है।
(b) कृत्रिम न्यूरॉन के लिए इनपुट पैटर्न
दिए गए कृत्रिम न्यूरॉन में दो इनपुट, X1 और X2 हैं। प्रत्येक इनपुट केवल बाइनरी सिग्नल (0 या 1) प्राप्त कर सकता है।
यह पता लगाने के लिए कि कितने अलग-अलग इनपुट पैटर्न संभव हैं, हम प्रत्येक इनपुट के लिए संभावित मानों के सभी संयोजनों पर विचार करते हैं।
इनपुट वेक्टर X = (X1, X2) है। संभावित मान हैं:
- जब X1 = 0, X2 = 0 → पैटर्न है (0, 0)
- जब X1 = 0, X2 = 1 → पैटर्न है (0, 1)
- जब X1 = 1, X2 = 0 → पैटर्न है (1, 0)
- जब X1 = 1, X2 = 1 → पैटर्न है (1, 1)
तो, कुल 4 अलग-अलग इनपुट पैटर्न हैं जो यह नोड प्राप्त कर सकता है।
सामान्य तौर पर, यदि ‘n’ बाइनरी इनपुट हैं, तो कुल संभावित इनपुट पैटर्न की संख्या 2ⁿ होगी। इस मामले में, n=2, इसलिए पैटर्न की संख्या 2² = 4 है। (c) BFS और DFS एल्गोरिदम का अनुप्रयोग
दिया गया ग्राफ़: O (प्रारंभ) → {A, B} A → {C, D} B → {E, F} E → {G (लक्ष्य)}
1. ब्रेड्थ-फर्स्ट सर्च (BFS) एल्गोरिथ्म BFS एक ग्राफ ट्रैवर्सल एल्गोरिथ्म है जो स्तर-दर-स्तर खोज करता है। यह एक क्यू (Queue) डेटा संरचना का उपयोग करता है।
एल्गोरिथ्म:
- एक क्यू बनाएं और प्रारंभ नोड (O) को उसमें डालें।
- एक ‘विज़िटेड’ सेट बनाएं और प्रारंभ नोड को उसमें जोड़ें।
- जब तक क्यू खाली न हो जाए:
- क्यू से एक नोड (u) निकालें।
- यदि u लक्ष्य नोड (G) है, तो रुकें और पथ लौटाएं।
- u के सभी पड़ोसी नोड्स (v) के लिए जो ‘विज़िटेड’ सेट में नहीं हैं:
- v को ‘विज़िटेड’ सेट में जोड़ें।
- v को क्यू में डालें।
अनुप्रयोग:
- क्यू = [O], विज़िटेड = {O}
- O को निकालें। O लक्ष्य नहीं है। O के पड़ोसी A, B हैं। A, B को क्यू में डालें। क्यू = [A, B], विज़िटेड = {O, A, B}
- A को निकालें। A लक्ष्य नहीं है। A के पड़ोसी C, D हैं। C, D को क्यू में डालें। क्यू = [B, C, D], विज़िटेड = {O, A, B, C, D}
- B को निकालें। B लक्ष्य नहीं है। B के पड़ोसी E, F हैं। E, F को क्यू में डालें। क्यू = [C, D, E, F], विज़िटेड = {O, A, B, C, D, E, F}
- C को निकालें। C लक्ष्य नहीं है। कोई नया पड़ोसी नहीं। क्यू = [D, E, F]
- D को निकालें। D लक्ष्य नहीं है। कोई नया पड़ोसी नहीं। क्यू = [E, F]
- E को निकालें। E लक्ष्य नहीं है। E का पड़ोसी G है। G को क्यू में डालें। क्यू = [F, G], विज़िटेड = {O, A, B, C, D, E, F, G}
- F को निकालें। F लक्ष्य नहीं है। कोई नया पड़ोसी नहीं। क्यू = [G]
- G को निकालें। G लक्ष्य नोड है! लक्ष्य मिल गया।
BFS द्वारा खोजा गया पथ: O → B → E → G
2. डेप्थ-फर्स्ट सर्च (DFS) एल्गोरिथ्म DFS एक ग्राफ ट्रैवर्सल एल्गोरिथ्म है जो गहराई में जाकर खोज करता है। यह एक स्टैक (Stack) डेटा संरचना का उपयोग करता है। एल्गोरिथ्म:
- एक स्टैक बनाएं और प्रारंभ नोड (O) को उसमें डालें।
- एक ‘विज़िटेड’ सेट बनाएं।
- जब तक स्टैक खाली न हो जाए:
- स्टैक से एक नोड (u) निकालें (पॉप करें)।
- यदि u ‘विज़िटेड’ में नहीं है:
- u को ‘विज़िटेड’ में जोड़ें।
- यदि u लक्ष्य नोड (G) है, तो रुकें और पथ लौटाएं।
- u के सभी पड़ोसी नोड्स को स्टैक में डालें (पुश करें)।
अनुप्रयोग (मान लें कि पड़ोसी उल्टे क्रम में डाले जाते हैं ताकि बाएं से दाएं खोज हो):
- स्टैक = [O]
- O को पॉप करें। O को विज़िट करें। O लक्ष्य नहीं है। B, A को स्टैक में पुश करें। स्टैक = [B, A]
- A को पॉप करें। A को विज़िट करें। A लक्ष्य नहीं है। D, C को स्टैक में पुश करें। स्टैक = [B, D, C]
- C को पॉप करें। C को विज़िट करें। C लक्ष्य नहीं है। कोई पड़ोसी नहीं। स्टैक = [B, D]
- D को पॉप करें। D को विज़िट करें। D लक्ष्य नहीं है। कोई पड़ोसी नहीं। स्टैक = [B]
- B को पॉप करें। B को विज़िट करें। B लक्ष्य नहीं है। F, E को स्टैक में पुश करें। स्टैक = [F, E]
- E को पॉप करें। E को विज़िट करें। E लक्ष्य नहीं है। G को स्टैक में पुश करें। स्टैक = [F, G]
- G को पॉप करें। G को विज़िट करें। G लक्ष्य नोड है! लक्ष्य मिल गया।
DFS द्वारा खोजा गया पथ: O → A → C → D → B → E → G (ट्रैवर्सल पथ); लक्ष्य तक का पथ O → B → E → G है।
Q4. (a) एसोसिएशन रूल्स क्या हैं? मशीन लर्निंग में उनके महत्व पर चर्चा करें। 5 (b) ओवरफिटिंग और अंडरफिटिंग शब्दों का वर्णन करें। 5 (c) मान लें कि C(x) का अर्थ है ‘x एक प्रयुक्त-कार डीलर है’, और H(x) का अर्थ है ‘x ईमानदार है’। निम्नलिखित में से प्रत्येक का अंग्रेजी में अनुवाद करें: 2×5=10 (i) (∃x) C(x) (ii) (∃x) H(x) (iii) (∀x) (C(x) → ~ H(x)) (iv) (∃x) (C(x) ∧ H(x)) (v) (∃x) (H(x) → C(x))
Ans.
(a) एसोसिएशन रूल्स और उनका महत्व
एसोसिएशन रूल्स (Association Rules) एक अनपर्यवेक्षित (unsupervised) मशीन लर्निंग तकनीक है जिसका उपयोग बड़े डेटासेट में आइटमों के बीच दिलचस्प संबंधों या सह-घटना पैटर्न को खोजने के लिए किया जाता है। इन नियमों को “यदि-तो” (if-then) कथनों के रूप में व्यक्त किया जाता है। उदाहरण के लिए, एक नियम {ब्रेड} → {मक्खन} का अर्थ है कि यदि कोई ग्राहक ब्रेड खरीदता है, तो वे मक्खन भी खरीद सकते हैं।
नियमों की “दिलचस्पी” को मापने के लिए तीन मुख्य मेट्रिक्स का उपयोग किया जाता है:
- सपोर्ट (Support): यह बताता है कि डेटासेट में कोई आइटमसेट कितनी बार आता है। उच्च सपोर्ट का मतलब है कि आइटमसेट अक्सर एक साथ होते हैं।
- कॉन्फिडेंस (Confidence): यह नियम की विश्वसनीयता को मापता है। {A} → {B} के लिए, यह उन लेन-देनों का प्रतिशत है जिनमें A है और उनमें B भी है।
- लिफ्ट (Lift): यह मापता है कि B की उपस्थिति A की उपस्थिति से कितनी बढ़ जाती है। 1 से अधिक का लिफ्ट एक सकारात्मक सहसंबंध इंगित करता है।
मशीन लर्निंग में महत्व: एसोसिएशन रूल माइनिंग का बहुत महत्व है, खासकर रिटेल और ई-कॉमर्स में।
- मार्केट बास्केट एनालिसिस (Market Basket Analysis): यह इसका सबसे आम उपयोग है। रिटेलर्स यह समझने के लिए इसका उपयोग करते हैं कि कौन से उत्पाद एक साथ खरीदे जाते हैं। इस जानकारी का उपयोग स्टोर लेआउट डिजाइन करने, क्रॉस-सेलिंग प्रमोशन बनाने और उत्पाद बंडलिंग के लिए किया जा सकता है।
- वेब उपयोग माइनिंग: यह विश्लेषण करने के लिए कि उपयोगकर्ता कौन से पेज एक के बाद एक देखते हैं, जिससे वेबसाइट के नेविगेशन में सुधार किया जा सकता है।
- चिकित्सा निदान: विभिन्न बीमारियों के साथ लक्षणों के सह-संबंधों का पता लगाना, जिससे निदान में मदद मिलती है।
- धोखाधड़ी का पता लगाना: क्रेडिट कार्ड लेनदेन में असामान्य पैटर्न या नियमों का पता लगाना जो धोखाधड़ी का संकेत दे सकते हैं।
(b) ओवरफिटिंग और अंडरफिटिंग
ओवरफिटिंग और अंडरफिटिंग मशीन लर्निंग मॉडल के प्रशिक्षण में दो आम समस्याएं हैं, जो मॉडल की सामान्यीकरण क्षमता को प्रभावित करती हैं।
ओवरफिटिंग (Overfitting): एक मॉडल तब ओवरफिट होता है जब वह प्रशिक्षण डेटा को बहुत अच्छी तरह से सीख लेता है, जिसमें डेटा में मौजूद शोर (noise) और यादृच्छिक उतार-चढ़ाव भी शामिल हैं। ऐसा मॉडल प्रशिक्षण डेटा पर तो बहुत उच्च सटीकता दिखाता है, लेकिन जब उसे अनदेखे या नए डेटा (परीक्षण डेटा) पर लागू किया जाता है, तो उसका प्रदर्शन खराब हो जाता है। यह जटिल मॉडल में आम है, जैसे कि बहुत गहरे डिसीजन ट्री या कई परतों वाले न्यूरल नेटवर्क।
- लक्षण: कम प्रशिक्षण त्रुटि (low training error) और उच्च परीक्षण त्रुटि (high test error)।
- कारण: मॉडल बहुत जटिल है, प्रशिक्षण डेटा बहुत कम है।
- समाधान: क्रॉस-वैलिडेशन का उपयोग करना, मॉडल को सरल बनाना, अधिक डेटा एकत्र करना, या रेगुलराइजेशन तकनीकों का उपयोग करना।
अंडरफिटिंग (Underfitting): एक मॉडल तब अंडरफिट होता है जब वह इतना सरल होता है कि वह डेटा में मौजूद अंतर्निहित संरचना या पैटर्न को पकड़ नहीं पाता है। ऐसा मॉडल न तो प्रशिक्षण डेटा पर अच्छा प्रदर्शन करता है और न ही परीक्षण डेटा पर। यह डेटा के लिए “अयोग्य” है।
- लक्षण: उच्च प्रशिक्षण त्रुटि (high training error) और उच्च परीक्षण त्रुटि (high test error)।
- कारण: मॉडल बहुत सरल है, जैसे रैखिक मॉडल का उपयोग गैर-रैखिक डेटा पर करना।
- समाधान: एक अधिक जटिल मॉडल का उपयोग करना, अधिक विशेषताओं को शामिल करना, या फीचर इंजीनियरिंग करना।
आदर्श रूप से, एक अच्छा मॉडल ओवरफिटिंग और अंडरफिटिंग के बीच संतुलन बनाता है। (c) प्रेडिकेट लॉजिक का अंग्रेजी में अनुवाद
C(x): ‘x एक प्रयुक्त-कार डीलर है’ (x is a used-car dealer) H(x): ‘x ईमानदार है’ (x is honest)
(i) (∃x) C(x)
अनुवाद: “कोई प्रयुक्त-कार डीलर मौजूद है।” या “कम से कम एक प्रयुक्त-कार डीलर है।”
(ii) (∃x) H(x)
अनुवाद: “कोई ईमानदार व्यक्ति मौजूद है।” या “कम से कम एक व्यक्ति ईमानदार है।”
(iii) (∀x) (C(x) → ~ H(x))
अनुवाद: “सभी x के लिए, यदि x एक प्रयुक्त-कार डीलर है, तो x ईमानदार नहीं है।” या अधिक स्वाभाविक रूप से, “सभी प्रयुक्त-कार डीलर बेईमान हैं।”
(iv) (∃x) (C(x) ∧ H(x))
अनुवाद: “एक x मौजूद है जो एक प्रयुक्त-कार डीलर है और ईमानदार है।” या “कुछ प्रयुक्त-कार डीलर ईमानदार हैं।”
(v) (∃x) (H(x) → C(x))
अनुवाद: “एक x मौजूद है जिसके लिए, यदि x ईमानदार है, तो x एक प्रयुक्त-कार डीलर है।” इसका अर्थ है कि “कम से कम एक व्यक्ति ऐसा है जिसकी ईमानदारी का अर्थ है कि वह एक प्रयुक्त-कार डीलर है।” यह एक अजीब कथन है, लेकिन यह तार्किक रूप से सही अनुवाद है।
Q5. निम्नलिखित में से किन्हीं पांच में अंतर स्पष्ट करें: 5×4=20 (a) मशीन लर्निंग और डीप लर्निंग (b) वर्गीकरण और प्रतिगमन तकनीक (c) A और AO एल्गोरिथ्म (d) मिनिमैक्स और अल्फा-बीटा प्रूनिंग खोज एल्गोरिदम (e) अनइन्फॉर्म्ड और इन्फॉर्म्ड खोज (f) फॉरवर्ड चेनिंग और बैकवर्ड चेनिंग (g) पदानुक्रमित और विभाजन क्लस्टरिंग (h) प्रेडिकेट लॉजिक और प्रपोजिशनल लॉजिक
Ans.
(a) मशीन लर्निंग (Machine Learning) और डीप लर्निंग (Deep Learning)
- संबंध: डीप लर्निंग मशीन लर्निंग का एक उपक्षेत्र है। सभी डीप लर्निंग मॉडल मशीन लर्निंग हैं, लेकिन सभी मशीन लर्निंग मॉडल डीप लर्निंग नहीं हैं।
- एल्गोरिदम: मशीन लर्निंग में एल्गोरिदम की एक विस्तृत श्रृंखला शामिल है जैसे कि डिसीजन ट्री, SVM, K-मीन्स और रैखिक प्रतिगमन। डीप लर्निंग विशेष रूप से कई परतों वाले आर्टिफिशियल न्यूरल नेटवर्क (ANNs) पर केंद्रित है, जिन्हें डीप न्यूरल नेटवर्क (DNNs) कहा जाता है।
- फीचर इंजीनियरिंग: पारंपरिक मशीन लर्निंग में, डोमेन विशेषज्ञों को अक्सर मैन्युअल रूप से फीचर्स को डिजाइन और एक्सट्रेक्ट करने की आवश्यकता होती है। डीप लर्निंग मॉडल में, फीचर लर्निंग प्रक्रिया का हिस्सा होता है; नेटवर्क कच्चे डेटा से स्वचालित रूप से पदानुक्रमित विशेषताओं को सीखता है।
- डेटा आवश्यकताएँ: डीप लर्निंग मॉडल को अच्छा प्रदर्शन करने के लिए आमतौर पर बहुत बड़ी मात्रा में डेटा की आवश्यकता होती है, जबकि पारंपरिक मशीन लर्निंग मॉडल छोटे डेटासेट के साथ भी काम कर सकते हैं।
(b) वर्गीकरण (Classification) और प्रतिगमन (Regression) तकनीक
- लक्ष्य: वर्गीकरण का लक्ष्य डेटा को पूर्वनिर्धारित, असतत (discrete) श्रेणियों या क्लास में वर्गीकृत करना है। प्रतिगमन का लक्ष्य निरंतर (continuous) संख्यात्मक मानों की भविष्यवाणी करना है।
- आउटपुट: वर्गीकरण का आउटपुट एक क्लास लेबल होता है (जैसे ‘स्पैम’/’नॉट स्पैम’, ‘बिल्ली’/’कुत्ता’)। प्रतिगमन का आउटपुट एक वास्तविक संख्या होती है (जैसे घर की कीमत, तापमान)।
- उदाहरण: ईमेल को स्पैम के रूप में वर्गीकृत करना एक वर्गीकरण कार्य है। किसी व्यक्ति की उम्र के आधार पर उसके वजन का अनुमान लगाना एक प्रतिगमन कार्य है।
- मूल्यांकन: वर्गीकरण का मूल्यांकन सटीकता, परिशुद्धता, रिकॉल और F1-स्कोर जैसे मेट्रिक्स से किया जाता है। प्रतिगमन का मूल्यांकन मीन स्क्वेयर्ड एरर (MSE) या R-स्क्वेयर्ड जैसे मेट्रिक्स से किया जाता है।
(c) A और AO एल्गोरिथ्म
- ग्राफ प्रकार: A एल्गोरिथ्म का उपयोग OR ग्राफ पर सबसे कम लागत वाला पथ खोजने के लिए किया जाता है, जहाँ एक नोड से लक्ष्य तक कई पथ हो सकते हैं और हमें केवल एक चुनना होता है। AO एल्गोरिथ्म का उपयोग AND-OR ग्राफ पर एक समाधान पथ खोजने के लिए किया जाता है, जहाँ एक नोड को हल करने के लिए उसके सभी AND-लिंक्ड उत्तराधिकारियों को हल करने की आवश्यकता हो सकती है।
- समस्या प्रकार: A पथ-खोज समस्याओं (जैसे, एक शहर से दूसरे शहर का सबसे छोटा रास्ता) के लिए उपयुक्त है। AO समस्या-विघटन (problem decomposition) समस्याओं (जैसे, प्रतीकात्मक एकीकरण या तर्क प्रोग्रामिंग) के लिए उपयुक्त है, जहाँ एक समस्या को कई उप-समस्याओं में तोड़ा जा सकता है।
- मेमोरी: A खोजे गए सभी नोड्स को मेमोरी में रखता है, जबकि AO को केवल वर्तमान सर्वोत्तम समाधान पथ को ट्रैक करने की आवश्यकता होती है।
(d) मिनिमैक्स (Minimax) और अल्फा-बीटा प्रूनिंग (Alpha-Beta Pruning)
- उद्देश्य: मिनिमैक्स एक निर्णय-नियम है जिसका उपयोग दो-खिलाड़ी शून्य-राशि वाले खेलों (जैसे शतरंज, टिक-टैक-टो) में एक इष्टतम चाल खोजने के लिए किया जाता है। यह मानता है कि दोनों खिलाड़ी हमेशा अपनी उपयोगिता को अधिकतम करने वाली चाल चलेंगे।
- संबंध: अल्फा-बीटा प्रूनिंग मिनिमैक्स एल्गोरिथ्म के लिए एक अनुकूलन तकनीक (optimization technique) है। यह स्वयं एक खोज एल्गोरिथ्म नहीं है, बल्कि यह मिनिमैक्स की दक्षता में सुधार करता है।
- कार्यप्रणाली: मिनिमैक्स पूरे गेम ट्री की खोज करता है। अल्फा-बीटा प्रूनिंग गेम ट्री की उन शाखाओं को “काट देता है” (prunes) जिनका मूल्यांकन करने की आवश्यकता नहीं है क्योंकि यह पहले से ही जानता है कि वे अंतिम निर्णय को प्रभावित नहीं करेंगे। यह खोज प्रक्रिया को बहुत तेज कर सकता है।
(e) अनइन्फॉर्म्ड (Uninformed) और इन्फॉर्म्ड (Informed) खोज
- जानकारी का उपयोग: अनइन्फॉर्म्ड (या ब्लाइंड) खोज एल्गोरिदम के पास लक्ष्य की दिशा के बारे में कोई अतिरिक्त जानकारी नहीं होती है। वे केवल समस्या की परिभाषा (नोड्स, किनारे, आदि) का उपयोग करते हैं। इन्फॉर्म्ड (या ह्यूरिस्टिक) खोज एल्गोरिदम समस्या-विशिष्ट ज्ञान का उपयोग करते हैं, जिसे ह्यूरिस्टिक फ़ंक्शन कहा जाता है, जो लक्ष्य तक की अनुमानित लागत का अनुमान लगाता है ताकि खोज को निर्देशित किया जा सके।
- दक्षता: इन्फॉर्म्ड खोज आमतौर पर अनइन्फॉर्म्ड खोज की तुलना में बहुत अधिक कुशल होती है क्योंकि यह खोज स्थान के उन हिस्सों से बचती है जो लक्ष्य तक ले जाने की संभावना नहीं रखते हैं।
- उदाहरण: अनइन्फॉर्म्ड खोज के उदाहरण हैं ब्रेड्थ-फर्स्ट सर्च (BFS) और डेप्थ-फर्स्ट सर्च (DFS)। इन्फॉर्म्ड खोज के उदाहरण हैं ग्रीडी बेस्ट-फर्स्ट सर्च और A* सर्च।
(f) फॉरवर्ड चेनिंग (Forward Chaining) और बैकवर्ड चेनिंग (Backward Chaining)
- दिशा: ये दोनों नियम-आधारित विशेषज्ञ प्रणालियों में अनुमान लगाने की रणनीतियाँ हैं। फॉरवर्ड चेनिंग एक डेटा-संचालित (data-driven) दृष्टिकोण है जो ज्ञात तथ्यों से शुरू होता है और नियमों को लागू करके नए तथ्यों का अनुमान लगाता है जब तक कि लक्ष्य तक नहीं पहुँच जाता। बैकवर्ड चेनिंग एक लक्ष्य-संचालित (goal-driven) दृष्टिकोण है जो एक परिकल्पना (लक्ष्य) से शुरू होता है और इसे साबित करने वाले तथ्यों को खोजने के लिए पीछे की ओर काम करता है।
- उपयोग: फॉरवर्ड चेनिंग का उपयोग तब किया जाता है जब आप यह देखना चाहते हैं कि दिए गए प्रारंभिक तथ्यों से क्या निष्कर्ष निकाले जा सकते हैं (जैसे, निगरानी प्रणाली)। बैकवर्ड चेनिंग का उपयोग तब किया जाता है जब आपके पास एक विशिष्ट परिकल्पना होती है जिसे आप सत्यापित करना चाहते हैं (जैसे, चिकित्सा निदान प्रणाली)।
(g) पदानुक्रमित (Hierarchical) और विभाजन (Partition) क्लस्टरिंग
- संरचना: पदानुक्रमित क्लस्टरिंग क्लस्टर का एक नेस्टेड पदानुक्रम बनाती है, जिसे एक ट्री-जैसे आरेख, डेंड्रोग्राम में दर्शाया जाता है। विभाजन क्लस्टरिंग डेटा को गैर-अतिव्यापी (non-overlapping) क्लस्टर के एक सेट में विभाजित करती है, जहाँ प्रत्येक डेटा बिंदु ठीक एक क्लस्टर से संबंधित होता है।
- क्लस्टर की संख्या: पदानुक्रमित क्लस्टरिंग में क्लस्टर की संख्या को पहले से निर्दिष्ट करने की आवश्यकता नहीं होती है। विभाजन क्लस्टरिंग (जैसे K-Means) में आमतौर पर क्लस्टर (K) की संख्या को एक इनपुट पैरामीटर के रूप में निर्दिष्ट करने की आवश्यकता होती है।
- प्रकार: पदानुक्रमित क्लस्टरिंग दो प्रकार की हो सकती है: एग्लोमेरेटिव (नीचे से ऊपर) और डिविसिव (ऊपर से नीचे)। विभाजन क्लस्टरिंग के उदाहरणों में K-Means, K-Medoids और DBSCAN शामिल हैं।
(h) प्रेडिकेट लॉजिक (Predicate Logic) और प्रपोजिशनल लॉजिक (Propositional Logic)
- अभिव्यक्ति क्षमता: प्रपोजिशनल लॉजिक सरल कथनों (प्रपोजिशन) से संबंधित है जो या तो सत्य हैं या असत्य (जैसे, “P = बारिश हो रही है”)। यह इन कथनों को AND, OR, NOT जैसे कनेक्टर्स के साथ जोड़ता है। प्रेडिकेट लॉजिक अधिक अभिव्यंजक है। यह वस्तुओं, उनके गुणों (प्रिडिकेट्स) और उनके बीच संबंधों का वर्णन कर सकता है।
- घटक: प्रेडिकेट लॉजिक में प्रपोजिशनल लॉजिक के सभी घटक शामिल हैं, साथ ही चर (variables) , प्रिडिकेट्स (predicates) , और क्वांटिफायर्स (quantifiers) – ‘सभी के लिए’ (∀) और ‘अस्तित्व में है’ (∃) भी शामिल हैं।
- उदाहरण: प्रपोजिशनल लॉजिक में, “सुकरात एक आदमी है” एक एकल प्रपोजिशन ‘P’ होगा। प्रेडिकेट लॉजिक में, हम इसे Man(Socrates) के रूप में व्यक्त कर सकते हैं। हम “सभी पुरुष नश्वर हैं” जैसे सामान्य कथन भी बना सकते हैं: (∀x) (Man(x) → Mortal(x))।
IGNOU MCS-224 Previous Year Solved Question Paper in English
Q1. (a) Compare narrow AI, general AI and super AI. Give suitable example for each. 6 (b) What is regression ? Define linear regression. 4 (c) Explain Dempster Shafer theory with a suitable example. 5 (d) For the following fuzzy sets : A= {a/0.5, b/.6, c/.3, d/0, e/.9}, B= {a/0.3, b/.7, c/.6, d/.3, e/.6}, find the fuzzy sets A∩B, A∪B and (Aᶜ∪B). 6 (e) What is ensemble learning ? Briefly discuss any one of the ensemble learning algorithm. 4 (f) Draw confusion matrix and write formula for accuracy, precision, sensitivity and specificity. 5 (g) What is DBSCAN ? 3 (h) Define Linear Discriminant Analysis and write its two limitations. 7
Ans. (a) Comparison of Narrow AI, General AI, and Super AI Artificial Intelligence (AI) can be categorized into three types based on its capabilities:
- Narrow AI (ANI): Also known as Weak AI , this is the form of AI designed to perform a single specific task. It cannot operate outside its predefined scope. All the AI we use today is Narrow AI. It excels in the one task it’s programmed for but lacks general cognitive abilities. Example: Apple’s Siri, Google Assistant, IBM’s Watson, chess-playing computers, and self-driving cars. All are masters of one or a few specific tasks.
- General AI (AGI): Also known as Strong AI , this is a theoretical form of AI that would possess human-like intelligence and consciousness. An AGI could understand, learn, and perform any intellectual task that a human being can. It would be able to apply knowledge and solve problems across different domains. Example: There are no real-world examples of AGI yet. Robots seen in science-fiction movies, like Data from “Star Trek,” are examples of AGI.
- Super AI (ASI): This is a hypothetical form of AI that would surpass human intelligence in every aspect, including creativity, general wisdom, and problem-solving. An ASI would not only be able to perform any task a human can, but do it significantly better. Example: This is also a theoretical concept with no existing examples. It is considered the ultimate stage of AI development.
(b) Regression and Linear Regression Regression: Regression is a supervised machine learning technique used to predict continuous values. It models the relationship between input variables (independent variables) and an output variable (dependent variable). The goal is to find a mathematical function that best approximates the value of the output variable based on the input variables. Example: Predicting the price of a house based on its size, location, and age.
Linear Regression: Linear Regression is the simplest form of regression. It assumes a linear relationship between the independent variable(s) (x) and the dependent variable (y). Its goal is to find a straight line (called the regression line) that best fits through the data points. The equation for this line is: y = mx + c Where:
- y is the dependent variable (to be predicted).
- x is the independent variable.
- m is the slope of the line, representing the change in y for a unit change in x.
- c is the y-intercept, which is the value of y when x=0.
(c) Dempster-Shafer Theory The Dempster-Shafer (DS) theory is a mathematical theory of evidence that allows for combining incomplete and uncertain information from different sources. It is a generalization of probability theory. It assigns a degree of belief not only to a hypothesis but also expresses ignorance. Key Concepts:
- Frame of Discernment (Θ): A set of all possible hypotheses.
- Mass Function (m): Assigns a value (mass) between [0, 1] to each subset of Θ. It is the degree of belief directly supported by a piece of evidence. The sum of masses for all subsets is 1.
- Belief (Bel): The belief in a set A is the sum of the masses of all subsets of A. Bel(A) = Σ m(B) where B is a subset of A.
- Plausibility (Pl): The plausibility of a set A is the sum of the masses of all sets that intersect with A. Pl(A) = Σ m(B) where B ∩ A ≠ ∅.
Example:
Suppose a doctor needs to diagnose a patient’s illness. The Frame of Discernment is Θ = {Flu, Cold, Allergy}.
- Evidence 1 (Symptoms): The doctor has a 0.6 belief that it’s one of {Flu, Cold}. So, m1({Flu, Cold}) = 0.6, and the remaining ignorance is m1(Θ) = 0.4.
- Evidence 2 (Lab Test): The test gives a 0.7 belief that it’s one of {Cold, Allergy}. So, m2({Cold, Allergy}) = 0.7, and the remaining ignorance is m2(Θ) = 0.3.
Dempster’s rule of combination can be used to combine these two pieces of evidence to get a combined belief for the different hypotheses. The theory allows for saying “I don’t know”, which is difficult in traditional probability.
(d) Fuzzy Set Calculations Given fuzzy sets: A = {a/0.5, b/0.6, c/0.3, d/0, e/0.9} B = {a/0.3, b/0.7, c/0.6, d/0.3, e/0.6} 1. A ∩ B (Intersection): The minimum membership value is taken for each element. μ A∩B (x) = min(μ A (x), μ B (x))
- a: min(0.5, 0.3) = 0.3
- b: min(0.6, 0.7) = 0.6
- c: min(0.3, 0.6) = 0.3
- d: min(0, 0.3) = 0
- e: min(0.9, 0.6) = 0.6
A ∩ B = {a/0.3, b/0.6, c/0.3, d/0, e/0.6}
2. A ∪ B (Union): The maximum membership value is taken for each element. μ A∪B (x) = max(μ A (x), μ B (x))
- a: max(0.5, 0.3) = 0.5
- b: max(0.6, 0.7) = 0.7
- c: max(0.3, 0.6) = 0.6
- d: max(0, 0.3) = 0.3
- e: max(0.9, 0.6) = 0.9
A ∪ B = {a/0.5, b/0.7, c/0.6, d/0.3, e/0.9}
3. (Aᶜ ∪ B): First, we find the complement of A (Aᶜ). μ Aᶜ (x) = 1 – μ A (x) Aᶜ = {a/(1-0.5), b/(1-0.6), c/(1-0.3), d/(1-0), e/(1-0.9)} Aᶜ = {a/0.5, b/0.4, c/0.7, d/1, e/0.1} Now, we find the union of Aᶜ and B. μ Aᶜ∪B (x) = max(μ Aᶜ (x), μ B (x))
- a: max(0.5, 0.3) = 0.5
- b: max(0.4, 0.7) = 0.7
- c: max(0.7, 0.6) = 0.7
- d: max(1, 0.3) = 1
- e: max(0.1, 0.6) = 0.6
(Aᶜ ∪ B) = {a/0.5, b/0.7, c/0.7, d/1, e/0.6}
(e) Ensemble Learning Ensemble learning is a machine learning technique where multiple models (often called “weak learners”) are trained and their predictions are combined to create a more robust and accurate model (a “strong learner”) than any of the individual models. The core idea is that a diverse group of models can cancel out individual errors and generalize better. Random Forest Algorithm: Random Forest is a popular ensemble learning algorithm that uses a technique called Bagging (Bootstrap Aggregating). It works for both classification and regression tasks.
- It builds a collection of many Decision Trees .
- Each tree is trained on a random subset of the training data (a bootstrap sample).
- Furthermore, at each split in each tree, only a random subset of features is considered. This reduces the correlation between trees and increases diversity.
- To make a final prediction, it takes a majority vote from all trees in case of classification, and the average of all tree predictions in case of regression.
It is very effective at reducing overfitting and improving accuracy.
(f) Confusion Matrix and Metrics A Confusion Matrix is a table used to evaluate the performance of a classification model. It compares the actual values with the values predicted by the model. Confusion matrix for a binary classification:
Predicted: Positive |
Predicted: Negative |
|
Actual: Positive |
True Positive (TP) | False Negative (FN) |
Actual: Negative |
False Positive (FP) | True Negative (TN) |
Formulas:
- Accuracy: The ratio of correct predictions to the total number of predictions. Accuracy = (TP + TN) / (TP + TN + FP + FN)
- Precision: The ratio of true positives to all positive predictions. Precision = TP / (TP + FP)
- Sensitivity (Recall): The ratio of true positives to all actual positive cases. Sensitivity = TP / (TP + FN)
- Specificity: The ratio of true negatives to all actual negative cases. Specificity = TN / (TN + FP)
(g) DBSCAN DBSCAN (Density-Based Spatial Clustering of Applications with Noise) is a density-based clustering algorithm. It is used to find clusters and noise (outliers) in data. Unlike other clustering algorithms like K-Means, DBSCAN does not require the number of clusters to be specified beforehand and can find arbitrarily shaped clusters. It works on two parameters:
- ε (epsilon): A distance measure to define the neighborhood of a point.
- MinPts: The minimum number of points required within the ε-neighborhood for a point to be considered a core point.
It classifies points as core points, border points, and noise points to form clusters.
(h) Linear Discriminant Analysis (LDA) Linear Discriminant Analysis (LDA) is a supervised machine learning technique used for both dimensionality reduction and classification. Its main goal is to project data onto a lower-dimensional space with maximum separability between the different classes. LDA achieves this by maximizing the ratio of between-class variance to the within-class variance. It creates a new set of features that are a linear combination of the original features. Two Limitations of LDA:
- Assumption of Linear Separability: LDA assumes that the classes are linearly separable. If the boundary between the classes is non-linear, LDA will not perform well.
- Assumption of Normal Distribution: LDA assumes that the data for each class is normally distributed and that the covariance matrices for all classes are identical. If this assumption is not met, the results of LDA may not be optimal.
Q2. (a) Apply KNN-Classification algorithm to the following data and predict value for (10, 7) for K=3: Feature 1, Feature 2, Class [(2, 2, A), (2, 3, A), (2, 4, A), (5, 3, A), (8, 6, B), (8, 8, B), (9, 6, B), (9, 7, B)]. 10 (b) What is neural network ? How is biological neuron related to artificial neuron ? Illustrate with suitable diagram and draw a table to map the components of Biological Neuron with Artificial Neuron ? 10
Ans. (a) Application of KNN-Classification Algorithm We need to predict the class for the new data point P(10, 7) with K=3 . In the KNN (K-Nearest Neighbors) algorithm, we calculate the distance from the new point to all existing data points, find the K nearest neighbors, and assign the majority class among those neighbors as the class for the new point. We will use the Euclidean distance formula: d = √((x₂ – x₁)² + (y₂ – y₁)²). New point: P1 = (10, 7)
1. Distance from (2, 2): d = √((10-2)² + (7-2)²) = √(8² + 5²) = √(64 + 25) = √89 ≈ 9.43 2. Distance from (2, 3): d = √((10-2)² + (7-3)²) = √(8² + 4²) = √(64 + 16) = √80 ≈ 8.94 3. Distance from (2, 4): d = √((10-2)² + (7-4)²) = √(8² + 3²) = √(64 + 9) = √73 ≈ 8.54 4. Distance from (5, 3): d = √((10-5)² + (7-3)²) = √(5² + 4²) = √(25 + 16) = √41 ≈ 6.40 5. Distance from (8, 6): d = √((10-8)² + (7-6)²) = √(2² + 1²) = √(4 + 1) = √5 ≈ 2.24 6. Distance from (8, 8): d = √((10-8)² + (7-8)²) = √(2² + (-1)²) = √(4 + 1) = √5 ≈ 2.24 7. Distance from (9, 6): d = √((10-9)² + (7-6)²) = √(1² + 1²) = √(1 + 1) = √2 ≈ 1.41 8. Distance from (9, 7): d = √((10-9)² + (7-7)²) = √(1² + 0²) = √(1) = 1.00
Now, we sort the distances in ascending order:
| Data Point | Distance | Class | Rank |
|---|---|---|---|
| (9, 7) | 1.00 | B | 1 |
| (9, 6) | 1.41 | B | 2 |
| (8, 6) | 2.24 | B | 3 |
| (8, 8) | 2.24 | B | 4 |
| (5, 3) | 6.40 | A | 5 |
| (2, 4) | 8.54 | A | 6 |
| (2, 3) | 8.94 | A | 7 |
| (2, 2) | 9.43 | A | 8 |
Since
K=3
, we pick the three nearest neighbors:
- (9, 7) – Class B
- (9, 6) – Class B
- (8, 6) – Class B
All three nearest neighbors belong to class ‘B’. Based on the majority vote, we classify the new point (10, 7) as
Class B
.
(b) Neural Network and Neurons Neural Network: An Artificial Neural Network (ANN) is a computational model inspired by the structure and function of the human brain. It is composed of layers of interconnected “neurons” or nodes that process information. Each connection, like a biological synapse, can transmit a signal from one neuron to another. A neuron that receives a signal processes it and then signals other neurons connected to it. Neural networks are used to recognize patterns, classify data, and make predictions, being capable of learning from experience. Relation between Biological and Artificial Neuron: The artificial neuron is a simplified mathematical model of a biological neuron. It aims to mimic the way a biological neuron processes signals. Diagram: Biological Neuron: It consists of Dendrites (receive inputs), a Soma or Cell Body (processes the inputs), an Axon (sends the output signal), and Synapses (the connections between neurons). Artificial Neuron (or Perceptron): It consists of inputs (x) , each of which has a weight (w) . The inputs are multiplied by their weights and added up in a summation function . The result is then passed through an activation function which produces the final output (y) . Mapping of Components:
| Biological Neuron Component | Artificial Neuron Component | Function |
|---|---|---|
| Dendrites | Inputs | Receive signals from other neurons. |
| Synapse | Weights | Adjust the strength of the connection; amplify or diminish the signal. |
| Soma / Cell Body | Summation & Activation Function | Integrate all incoming signals and decide whether to fire (generate an output signal). |
| Axon | Output | Transmit the processed signal to other neurons. |
Q3. (a) Describe dimensionality reduction. Also, write the advantages and disadvantages of dimensionality reduction. 5 (b) Below is diagram of single artificial neuron (unit): [Diagram of a single neuron with inputs X1, X2]. The node has 2 inputs X = (X1, X2) that receives only binary signals (0, 1). How many different input patterns can this node receive ? 5 (c) Write and apply BFS and DFS algorithms on the given graph: [Graph diagram with O as start and G as goal]. 10
Ans. (a) Dimensionality Reduction Dimensionality reduction is a process used in machine learning to reduce the number of features or variables in a dataset. High-dimensional data (data with many features) can lead to problems like the “curse of dimensionality,” making models harder and slower to train, and more prone to overfitting. The goal of dimensionality reduction is to reduce the number of features while retaining most of the important information from the original data. There are two main techniques:
- Feature Selection: Selecting a subset of the original features that are most relevant.
- Feature Extraction: Creating new features by combining the original features into a new, smaller set. (Examples: PCA, LDA).
Advantages:
- Less Computational Cost: Fewer features mean less time and memory are required for model training.
- Reduced Overfitting: Removing redundant features helps the model focus on the real patterns instead of noise, leading to better generalization.
- Data Visualization: Reducing data to 2D or 3D makes it easier to plot and understand.
- Addresses “Curse of Dimensionality”: It mitigates issues of data sparsity and distance calculation problems that occur in high dimensions.
Disadvantages:
- Information Loss: Removing or combining features can lead to some loss of information, which might affect the model’s performance.
- Difficult Interpretation: The new features created by feature extraction (like principal components in PCA) are often not as easily interpretable as the original features.
- Optimal Feature Selection: Deciding which features to keep or how many to keep can be a challenging task.
(b) Input Patterns for an Artificial Neuron The given artificial neuron has two inputs, X1 and X2. Each input can only receive binary signals (0 or 1). To find out how many different input patterns are possible, we consider all combinations of possible values for each input. The input vector is X = (X1, X2). The possible values are:
- When X1 = 0, X2 = 0 → The pattern is (0, 0)
- When X1 = 0, X2 = 1 → The pattern is (0, 1)
- When X1 = 1, X2 = 0 → The pattern is (1, 0)
- When X1 = 1, X2 = 1 → The pattern is (1, 1)
Therefore, there are a total of
4
different input patterns this node can receive.
In general, if there are
‘n’
binary inputs, the total number of possible input patterns is
2ⁿ
. In this case, n=2, so the number of patterns is 2² = 4.
(c) Application of BFS and DFS Algorithms Given Graph: O (Start) → {A, B} A → {C, D} B → {E, F} E → {G (Goal)} 1. Breadth-First Search (BFS) Algorithm BFS is a graph traversal algorithm that explores level by level. It uses a Queue data structure. Algorithm:
- Create a queue and enqueue the start node (O).
- Create a ‘visited’ set and add the start node to it.
- While the queue is not empty:
- Dequeue a node (u).
- If u is the goal node (G), stop and return the path.
- For all unvisited neighbors (v) of u:
- Add v to the ‘visited’ set.
- Enqueue v.
Application:
- Queue = [O], Visited = {O}
- Dequeue O. Not goal. Enqueue its neighbors A, B. Queue = [A, B], Visited = {O, A, B}
- Dequeue A. Not goal. Enqueue its neighbors C, D. Queue = [B, C, D], Visited = {O, A, B, C, D}
- Dequeue B. Not goal. Enqueue its neighbors E, F. Queue = [C, D, E, F], Visited = {O, A, B, C, D, E, F}
- Dequeue C. Not goal. No new neighbors. Queue = [D, E, F]
- Dequeue D. Not goal. No new neighbors. Queue = [E, F]
- Dequeue E. Not goal. Enqueue its neighbor G. Queue = [F, G], Visited = {O, A, B, C, D, E, F, G}
- Dequeue F. Not goal. No new neighbors. Queue = [G]
- Dequeue G. It is the goal node! Goal found.
Path found by BFS:
O → B → E → G
2. Depth-First Search (DFS) Algorithm DFS is a graph traversal algorithm that explores as deeply as possible along each branch. It uses a Stack data structure. Algorithm:
- Create a stack and push the start node (O).
- Create a ‘visited’ set.
- While the stack is not empty:
- Pop a node (u) from the stack.
- If u is not in ‘visited’:
- Add u to ‘visited’.
- If u is the goal node (G), stop and return the path.
- Push all neighbors of u onto the stack.
Application (assuming neighbors are pushed in reverse order for left-to-right traversal):
- Stack = [O]
- Pop O. Visit O. Not goal. Push B, then A. Stack = [B, A]
- Pop A. Visit A. Not goal. Push D, then C. Stack = [B, D, C]
- Pop C. Visit C. Not goal. No neighbors. Stack = [B, D]
- Pop D. Visit D. Not goal. No neighbors. Stack = [B]
- Pop B. Visit B. Not goal. Push F, then E. Stack = [F, E]
- Pop E. Visit E. Not goal. Push G. Stack = [F, G]
- Pop G. Visit G. It is the goal node! Goal found.
Traversal Path by DFS:
O → A → C → D → B → E → G. The path to the goal is O → B → E → G.
Q4. (a) What are Association rules ? Discuss their importance in machine learning. 5 (b) Describe the terms overfitting and underfitting. 5 (c) Let C(x) mean ‘x is used-car dealer’, and H(x) mean ‘x is honest’. Translate each of the following into English: 2×5=10 (i) (∃x) C(x) (ii) (∃x) H(x) (iii) (∀x) (C(x) → ~ H(x)) (iv) (∃x) (C(x) ∧ H(x)) (v) (∃x) (H(x) → C(x))
Ans. (a) Association Rules and Their Importance Association Rules are an unsupervised machine learning technique used to discover interesting relationships or co-occurrence patterns between items in large datasets. These rules are expressed as “if-then” statements. For example, a rule {Bread} → {Butter} means that if a customer buys bread, they are also likely to buy butter. Three main metrics are used to measure the “interestingness” of rules:
- Support: This indicates how frequently an itemset appears in the dataset. High support means the items often occur together.
- Confidence: This measures the reliability of the rule. For {A} → {B}, it’s the percentage of transactions containing A that also contain B.
- Lift: This measures how much the presence of B is increased by the presence of A. A lift greater than 1 indicates a positive correlation.
Importance in Machine Learning:
Association rule mining is highly important, especially in retail and e-commerce.
- Market Basket Analysis: This is its most common use. Retailers use it to understand which products are bought together. This information can be used to design store layouts, create cross-selling promotions, and for product bundling.
- Web Usage Mining: To analyze which pages users visit one after another, leading to improvements in website navigation.
- Medical Diagnosis: Finding correlations between symptoms and various diseases, aiding in diagnosis.
- Fraud Detection: Detecting unusual patterns or rules in credit card transactions that may indicate fraud.
(b) Overfitting and Underfitting Overfitting and underfitting are two common problems in training machine learning models that affect the model’s ability to generalize. Overfitting: A model is said to be overfit when it learns the training data too well , including the noise and random fluctuations present in it. Such a model shows very high accuracy on the training data but performs poorly on unseen or new data (test data). This is common in complex models, like very deep decision trees or neural networks with many layers.
- Symptom: Low training error and high test error.
- Cause: The model is too complex, or the training data is too small.
- Solution: Using cross-validation, simplifying the model, collecting more data, or using regularization techniques.
Underfitting: A model is underfit when it is too simple to capture the underlying structure or patterns in the data. Such a model performs poorly on both the training data and the test data. It is “unfit” for the data.
- Symptom: High training error and high test error.
- Cause: The model is too simple, such as using a linear model on non-linear data.
- Solution: Using a more complex model, including more features, or performing feature engineering.
Ideally, a good model creates a balance between overfitting and underfitting.
(c) Translation of Predicate Logic into English C(x): ‘x is a used-car dealer’ H(x): ‘x is honest’ (i) (∃x) C(x) Translation: “There exists a used-car dealer.” or “At least one used-car dealer exists.” (ii) (∃x) H(x) Translation: “There exists an honest person.” or “Some people are honest.” (iii) (∀x) (C(x) → ~ H(x)) Translation: “For all x, if x is a used-car dealer, then x is not honest.” Or more naturally, “All used-car dealers are dishonest.” (iv) (∃x) (C(x) ∧ H(x)) Translation: “There exists an x such that x is a used-car dealer and x is honest.” Or, “Some used-car dealers are honest.” (v) (∃x) (H(x) → C(x)) Translation: “There exists an x such that if x is honest, then x is a used-car dealer.” This means “There is at least one person whose honesty implies they are a used-car dealer.” It is an awkward statement, but it is the logically correct translation.
Q5. Differentiate any five of the following : 5×4=20 (a) Machine learning and Deep learning (b) Classification and Regression technique (c) A and AO algorithm (d) Minimax and Alpha-Beta pruning search algorithms (e) Uninformed and Informed search (f) Forward chaining and Backward chaining (g) Hierarchical and Partition clustering (h) Predicate logic and Propositional logic
Ans. (a) Machine Learning and Deep Learning
- Relationship: Deep Learning is a subfield of Machine Learning. All deep learning models are machine learning, but not all machine learning models are deep learning.
- Algorithms: Machine Learning encompasses a wide range of algorithms like Decision Trees, SVMs, K-Means, and Linear Regression. Deep Learning specifically focuses on Artificial Neural Networks (ANNs) with many layers, called Deep Neural Networks (DNNs).
- Feature Engineering: In traditional Machine Learning, domain experts often need to manually design and extract features. In Deep Learning models, feature learning is part of the process; the network automatically learns hierarchical features from raw data.
- Data Requirements: Deep Learning models typically require very large amounts of data to perform well, whereas traditional Machine Learning models can work with smaller datasets.
(b) Classification and Regression Technique
- Goal: The goal of classification is to categorize data into predefined, discrete categories or classes. The goal of regression is to predict continuous numerical values.
- Output: The output of classification is a class label (e.g., ‘Spam’/’Not Spam’, ‘Cat’/’Dog’). The output of regression is a real number (e.g., house price, temperature).
- Example: Classifying an email as spam is a classification task. Predicting a person’s weight based on their height is a regression task.
- Evaluation: Classification is evaluated with metrics like accuracy, precision, recall, and F1-score. Regression is evaluated with metrics like Mean Squared Error (MSE) or R-squared.
(c) A and AO Algorithm
- Graph Type: The A algorithm is used to find the lowest-cost path on an OR graph , where there can be multiple paths from a node to the goal, and we just need to choose one. The AO algorithm is used to find a solution path on an AND-OR graph , where solving a node might require solving all of its AND-linked successors.
- Problem Type: A is suitable for path-finding problems (e.g., shortest route from one city to another). AO is suitable for problem-decomposition problems (e.g., symbolic integration or logic programming), where a problem can be broken down into multiple sub-problems.
- Memory: A keeps all explored nodes in memory, whereas AO only needs to track the current best solution path.
(d) Minimax and Alpha-Beta Pruning Search Algorithms
- Purpose: Minimax is a decision-making rule used to find an optimal move in two-player zero-sum games (like chess, tic-tac-toe). It assumes both players will always play the move that maximizes their own utility.
- Relationship: Alpha-Beta Pruning is an optimization technique for the minimax algorithm. It is not a search algorithm by itself, but it improves the efficiency of minimax.
- Functionality: Minimax explores the entire game tree. Alpha-Beta Pruning “prunes” (cuts off) branches of the game tree that do not need to be evaluated because it already knows they will not influence the final decision. This can make the search process much faster.
(e) Uninformed and Informed Search
- Use of Information: Uninformed (or blind) search algorithms have no additional information about the direction of the goal. They only use the problem definition (nodes, edges, etc.). Informed (or heuristic) search algorithms use problem-specific knowledge, called a heuristic function , which estimates the cost to the goal, to guide the search.
- Efficiency: Informed search is typically much more efficient than uninformed search because it avoids exploring parts of the search space that are unlikely to lead to the goal.
- Examples: Examples of uninformed search are Breadth-First Search (BFS) and Depth-First Search (DFS). Examples of informed search are Greedy Best-First Search and A* Search.
(f) Forward Chaining and Backward Chaining
- Direction: Both are reasoning strategies in rule-based expert systems. Forward chaining is a data-driven approach that starts with known facts and applies rules to infer new facts until the goal is reached. Backward chaining is a goal-driven approach that starts with a hypothesis (the goal) and works backward to find facts that prove it.
- Usage: Forward chaining is used when you want to see what conclusions can be drawn from a given set of initial facts (e.g., monitoring systems). Backward chaining is used when you have a specific hypothesis you want to verify (e.g., medical diagnosis systems).
(g) Hierarchical and Partition Clustering
- Structure: Hierarchical clustering creates a nested hierarchy of clusters, represented in a tree-like diagram called a dendrogram . Partition clustering divides the data into a set of non-overlapping clusters, where each data point belongs to exactly one cluster.
- Number of Clusters: Hierarchical clustering does not require the number of clusters to be specified beforehand. Partition clustering (like K-Means) typically requires the number of clusters (K) to be specified as an input parameter.
- Types: Hierarchical clustering can be agglomerative (bottom-up) or divisive (top-down). Examples of partition clustering include K-Means, K-Medoids, and DBSCAN.
(h) Predicate Logic and Propositional Logic
- Expressiveness: Propositional logic deals with simple statements (propositions) that are either true or false (e.g., “P = It is raining”). It combines these statements with connectors like AND, OR, NOT. Predicate logic is more expressive. It can describe objects, their properties (predicates), and relations between them.
- Components: Predicate logic includes all components of propositional logic, plus variables , predicates , and quantifiers —’for all’ (∀) and ‘there exists’ (∃).
- Example: In propositional logic, “Socrates is a man” would be a single proposition ‘P’. In predicate logic, we can express it as Man(Socrates). We can also make general statements like “All men are mortal”: (∀x) (Man(x) → Mortal(x)).
Download IGNOU previous Year Question paper download PDFs for MCS-224 to improve your preparation. These ignou solved question paper IGNOU Previous Year Question paper solved PDF in Hindi and English help you understand the exam pattern and score better.
Thanks!
Leave a Reply