The IGNOU BCS-040 Solved Question Paper PDF Download page is designed to help students access high-quality exam resources in one place. Here, you can find ignou solved question paper IGNOU Previous Year Question paper solved PDF that covers all important questions with detailed answers. This page provides IGNOU all Previous year Question Papers in one PDF format, making it easier for students to prepare effectively.
- IGNOU BCS-040 Solved Question Paper in Hindi
- IGNOU BCS-040 Solved Question Paper in English
- IGNOU Previous Year Solved Question Papers (All Courses)
Whether you are looking for IGNOU Previous Year Question paper solved in English or ignou previous year question paper solved in hindi, this page offers both options to suit your learning needs. These solved papers help you understand exam patterns, improve answer writing skills, and boost confidence for upcoming exams.
IGNOU BCS-040 Solved Question Paper PDF

This section provides IGNOU BCS-040 Solved Question Paper PDF in both Hindi and English. These ignou solved question paper IGNOU Previous Year Question paper solved PDF include detailed answers to help you understand exam patterns and improve your preparation. You can also access IGNOU all Previous year Question Papers in one PDF for quick and effective revision before exams.
IGNOU BCS-040 Previous Year Solved Question Paper in Hindi
Q1. ‘प्रायिकता बंटन’ शब्द की व्याख्या कीजिए। द्विपद बंटन, प्वासों बंटन से किस प्रकार भिन्न है?
Ans.
प्रायिकता बंटन (Probability Distribution) एक सांख्यिकीय फलन है जो एक यादृच्छिक चर (random variable) के सभी संभावित मानों और उनकी संगत प्रायिकताओं का वर्णन करता है। यह बताता है कि किसी प्रयोग के परिणाम के रूप में विभिन्न संभावित मानों के घटित होने की कितनी संभावना है। प्रायिकता बंटन को एक तालिका, समीकरण या ग्राफ के रूप में प्रस्तुत किया जा सकता है।
मुख्य रूप से दो प्रकार के प्रायिकता बंटन होते हैं:
- असतत (Discrete) प्रायिकता बंटन: जब चर केवल कुछ निश्चित मान ले सकता है (जैसे 0, 1, 2, 3)। द्विपद और प्वासों बंटन इसके उदाहरण हैं।
- सतत (Continuous) प्रायिकता बंटन: जब चर किसी दिए गए परास (range) में कोई भी मान ले सकता है। सामान्य बंटन (Normal Distribution) इसका एक उदाहरण है।
द्विपद (Binomial) और प्वासों (Poisson) बंटन के बीच अंतर:
यद्यपि दोनों असतत प्रायिकता बंटन हैं, वे कई महत्वपूर्ण तरीकों से भिन्न हैं:
- परीक्षणों की संख्या (Number of Trials):
- द्विपद बंटन: इसमें परीक्षणों की संख्या ‘n’ निश्चित और सीमित होती है। उदाहरण के लिए, 10 बार सिक्का उछालना।
- प्वासों बंटन: यह किसी विशेष अंतराल (जैसे समय, दूरी, या क्षेत्र) में होने वाली घटनाओं की संख्या से संबंधित है। इसमें परीक्षणों की संख्या अनंत या बहुत बड़ी होती है। उदाहरण के लिए, एक घंटे में कॉल सेंटर पर आने वाली कॉलों की संख्या।
- सफलता की प्रायिकता (Probability of Success):
- द्विपद बंटन: प्रत्येक परीक्षण में सफलता की प्रायिकता ‘p’ स्थिर रहती है।
- प्वासों बंटन: इसमें किसी घटना के घटित होने की एक औसत दर (λ या म्यू) का उपयोग किया जाता है। सफलता की प्रायिकता बहुत कम होती है।
- घटनाओं की प्रकृति (Nature of Events):
- द्विपद बंटन: इसका उपयोग उन परिदृश्यों के लिए किया जाता है जहां प्रत्येक परीक्षण के केवल दो संभावित परिणाम होते हैं: सफलता या विफलता।
- प्वासों बंटन: इसका उपयोग अक्सर दुर्लभ घटनाओं (rare events) के मॉडलिंग के लिए किया जाता है।
- मुख्य पैरामीटर:
- द्विपद बंटन: इसके दो पैरामीटर हैं: परीक्षणों की संख्या (n) और सफलता की प्रायिकता (p)।
- प्वासों बंटन: इसका केवल एक पैरामीटर है: औसत दर (λ)।
- संबंध: प्वासों बंटन को द्विपद बंटन की एक सीमान्त स्थिति (limiting case) माना जा सकता है, जब ‘n’ बहुत बड़ा हो और ‘p’ बहुत छोटा हो। इस स्थिति में, λ = np होता है।
Q2. 10 संख्याओं का निम्नलिखित नमूना दिया गया है: 12, 4, 48, 58, 4, 43, 50, 59, 5, 45 (a) माध्य, प्रसरण और मानक विचलन की गणना कीजिए। (b) यदि उपरोक्त संख्याओं के सेट में सबसे बड़े मान को 500 में बदल दिया जाए, तो इस परिवर्तन से माध्य और प्रसरण किस हद तक प्रभावित होंगे? अपने उत्तर का औचित्य सिद्ध कीजिए।
Ans. दिए गए आंकड़े: 12, 4, 48, 58, 4, 43, 50, 59, 5, 45
अवलोकनों की संख्या (n) = 10
(a) माध्य, प्रसरण और मानक विचलन की गणना
1. माध्य (Mean, μ): माध्य की गणना सभी अवलोकनों के योग को अवलोकनों की कुल संख्या से विभाजित करके की जाती है। योग (Σx) = 12 + 4 + 48 + 58 + 4 + 43 + 50 + 59 + 5 + 45 = 328 माध्य (μ) = Σx / n = 328 / 10 = 32.8
2. प्रसरण (Variance, σ²): प्रसरण की गणना माध्य से प्रत्येक अवलोकन के वर्गांतर के औसत के रूप में की जाती है। σ² = Σ(xᵢ – μ)² / n Σ(xᵢ – 32.8)² = (12-32.8)² + (4-32.8)² + (48-32.8)² + (58-32.8)² + (4-32.8)² + (43-32.8)² + (50-32.8)² + (59-32.8)² + (5-32.8)² + (45-32.8)² = (-20.8)² + (-28.8)² + (15.2)² + (25.2)² + (-28.8)² + (10.2)² + (17.2)² + (26.2)² + (-27.8)² + (12.2)² = 432.64 + 829.44 + 231.04 + 635.04 + 829.44 + 104.04 + 295.84 + 686.44 + 772.84 + 148.84 = 4965.6 प्रसरण (σ²) = 4965.6 / 10 = 496.56
3. मानक विचलन (Standard Deviation, σ): मानक विचलन प्रसरण का वर्गमूल होता है। σ = √प्रसरण = √496.56 ≈ 22.28
(b) परिवर्तन का प्रभाव
मूल आंकड़ों में सबसे बड़ा मान 59 है। इसे 500 से बदल दिया गया है।
1. माध्य पर प्रभाव: नया योग = (मूल योग – पुराना मान + नया मान) = 328 – 59 + 500 = 769 नया माध्य = 769 / 10 = 76.9 औचित्य: माध्य 32.8 से बढ़कर 76.9 हो गया है। माध्य आंकड़ा सेट के प्रत्येक मान का उपयोग करता है, इसलिए यह चरम मानों (outliers) के प्रति बहुत संवेदनशील होता है। 59 को 500 जैसे एक बहुत बड़े मान से बदलने से योग और परिणामस्वरूप माध्य में उल्लेखनीय वृद्धि होती है।
2. प्रसरण पर प्रभाव: नया माध्य 76.9 है। प्रसरण की गणना नए माध्य से दूरियों के वर्ग के रूप में की जाती है। 500 का मान नए माध्य से बहुत दूर है। (500 – 76.9)² = (423.1)² = 179013.61, यह एक बहुत बड़ी संख्या है। औचित्य: प्रसरण माध्य से फैलाव का माप है। एक चरम मान (outlier) को शामिल करने से माध्य से वर्गांतरों का योग बहुत अधिक बढ़ जाता है। इसलिए, प्रसरण में बहुत बड़ी वृद्धि होगी । यह दर्शाता है कि प्रसरण भी चरम मानों के प्रति अत्यधिक संवेदनशील है। आंकड़ा सेट अब बहुत अधिक फैला हुआ है।
Q3. एक गणित के प्रोफेसर ने पांच टेस्ट लिए हैं। एक छात्र ने पांच टेस्ट में क्रमशः 70, 75, 65, 80 और 95 अंक प्राप्त किए। प्रोफेसर 3 टेस्ट स्कोर का एक नमूना यादृच्छिक रूप से चुनकर उसका ग्रेड निर्धारित करने का निर्णय लेता है। इस प्रक्रिया के लिए प्रतिचयन बंटन का निर्माण कीजिए।
Ans. इस समस्या में, हमें दिए गए पांच टेस्ट स्कोरों में से 3 के आकार के सभी संभावित नमूनों के माध्य का प्रतिचयन बंटन (sampling distribution) बनाना है।
समष्टि (Population) के स्कोर: {70, 75, 65, 80, 95}
समष्टि का आकार (N) = 5
प्रतिदर्श (Sample) का आकार (n) = 3
चरण 1: सभी संभावित प्रतिदर्शों की संख्या ज्ञात करना।
N में से n आकार के नमूनों की संख्या संयोजन सूत्र C(N, n) का उपयोग करके ज्ञात की जा सकती है।
संभावित प्रतिदर्शों की संख्या = C(5, 3) = 5! / (3! * (5-3)!) = (5 × 4 × 3 × 2 × 1) / ((3 × 2 × 1) × (2 × 1)) = 10
अतः, 10 अद्वितीय प्रतिदर्श संभव हैं।
चरण 2: प्रत्येक संभावित प्रतिदर्श को सूचीबद्ध करना और उसके माध्य की गणना करना।
प्रत्येक प्रतिदर्श के लिए, हम प्रतिदर्श माध्य (x̄) की गणना करेंगे।
- {65, 70, 75} → माध्य = (65 + 70 + 75) / 3 = 210 / 3 = 70.00
- {65, 70, 80} → माध्य = (65 + 70 + 80) / 3 = 215 / 3 ≈ 71.67
- {65, 70, 95} → माध्य = (65 + 70 + 95) / 3 = 230 / 3 ≈ 76.67
- {65, 75, 80} → माध्य = (65 + 75 + 80) / 3 = 220 / 3 ≈ 73.33
- {65, 75, 95} → माध्य = (65 + 75 + 95) / 3 = 235 / 3 ≈ 78.33
- {65, 80, 95} → माध्य = (65 + 80 + 95) / 3 = 240 / 3 = 80.00
- {70, 75, 80} → माध्य = (70 + 75 + 80) / 3 = 225 / 3 = 75.00
- {70, 75, 95} → माध्य = (70 + 75 + 95) / 3 = 240 / 3 = 80.00
- {70, 80, 95} → माध्य = (70 + 80 + 95) / 3 = 245 / 3 ≈ 81.67
- {75, 80, 95} → माध्य = (75 + 80 + 95) / 3 = 250 / 3 ≈ 83.33
चरण 3: प्रतिचयन बंटन का निर्माण करना।
प्रतिचयन बंटन इन सभी संभावित प्रतिदर्श माध्यांकों का प्रायिकता बंटन है। हम इसे एक आवृत्ति तालिका के रूप में प्रस्तुत कर सकते हैं।
प्रतिदर्श माध्य (x̄)
आवृत्ति (f)
प्रायिकता (P(x̄))
70.00
1
1/10 = 0.1
71.67
1
1/10 = 0.1
73.33
1
1/10 = 0.1
75.00
1
1/10 = 0.1
76.67
1
1/10 = 0.1
78.33
1
1/10 = 0.1
80.00
2
2/10 = 0.2
81.67
1
1/10 = 0.1
83.33
1
1/10 = 0.1
कुल
10
1.0
यह तालिका प्रतिदर्श माध्य का प्रतिचयन बंटन है। यह दिखाती है कि 3 स्कोर के यादृच्छिक नमूने से प्रत्येक संभावित औसत स्कोर प्राप्त करने की क्या संभावना है।
Q4. माध्यिका के दो गुण और दो दोष लिखिए। निम्नलिखित आवृत्ति बंटन दिया गया है: C.I. Frequency 0-20 2 20-30 30 30-40 34 40-50 65 50-60 46 60-70 25 70-80 8 माध्यिका मान ज्ञात कीजिए।
Ans.
माध्यिका (Median) के गुण (Merits)
- चरम मानों से प्रभावित नहीं: माध्यिका एक स्थितिगत औसत है। यह डेटासेट के सबसे बड़े या सबसे छोटे मानों (outliers) से बहुत कम या बिल्कुल भी प्रभावित नहीं होती है। इसके विपरीत, माध्य चरम मानों से बहुत अधिक प्रभावित होता है।
- खुले-अंत वाले बंटनों के लिए उपयुक्त: माध्यिका की गणना तब भी की जा सकती है जब आवृत्ति बंटन के सिरे खुले हों (जैसे “20 से कम” या “80 से अधिक”), क्योंकि इसकी गणना के लिए केवल मध्य मानों की स्थिति की आवश्यकता होती है।
माध्यिका (Median) के दोष (Demerits)
- सभी अवलोकनों पर आधारित नहीं: माध्यिका की गणना केवल मध्य के एक या दो मानों पर आधारित होती है। यह डेटासेट के अन्य सभी मानों के परिमाण को ध्यान में नहीं रखती है, जिससे सूचना का नुकसान हो सकता है।
- आगे के बीजगणितीय विश्लेषण के लिए अनुपयुक्त: माध्य की तुलना में माध्यिका गणितीय रूप से कम सुविधाजनक है। उदाहरण के लिए, दो समूहों की माध्यिकाओं से संयुक्त समूह की माध्यिका की गणना सीधे नहीं की जा सकती।
माध्यिका मान की गणना
सबसे पहले, हम दी गई आवृत्ति बंटन के लिए संचयी आवृत्ति (Cumulative Frequency, cf) की गणना करेंगे।
वर्ग अंतराल (C.I.)
आवृत्ति (f)
संचयी आवृत्ति (cf)
0-20
2
2
20-30
30
32
30-40
34
66
40-50
65
131
50-60
46
177
60-70
25
202
70-80
8
210
N = 210
1. माध्यिका पद ज्ञात करें: माध्यिका पद = N / 2 = 210 / 2 = 105
2. माध्यिका वर्ग की पहचान करें: 105वाँ पद उस वर्ग में पड़ेगा जिसकी संचयी आवृत्ति 105 से ठीक अधिक हो। तालिका से, 131 वह संचयी आवृत्ति है जो 105 से ठीक अधिक है। इसलिए, माध्यिका वर्ग 40-50 है ।
3. माध्यिका सूत्र का उपयोग करें: माध्यिका = L + [ (N/2 – cf) / f ] × h जहाँ:
- L = माध्यिका वर्ग की निम्न सीमा = 40
- N = कुल आवृत्ति = 210
- cf = माध्यिका वर्ग से ठीक पहले वाले वर्ग की संचयी आवृत्ति = 66
- f = माध्यिका वर्ग की आवृत्ति = 65
- h = वर्ग अंतराल की चौड़ाई = 10
मानों को सूत्र में रखने पर:
माध्यिका = 40 + [ (105 – 66) / 65 ] × 10
माध्यिका = 40 + [ 39 / 65 ] × 10
माध्यिका = 40 + 0.6 × 10
माध्यिका = 40 + 6
माध्यिका = 46
अतः, दिए गए आवृत्ति बंटन का माध्यिका मान 46 है।
Q5. रैखिक व्यवस्थित प्रतिचयन और वृत्तीय व्यवस्थित प्रतिचयन के बीच अंतर स्पष्ट कीजिए।
Ans. व्यवस्थित प्रतिचयन (Systematic Sampling) एक प्रायिकता प्रतिचयन तकनीक है जिसमें एक क्रमबद्ध सूची से नियमित अंतराल पर तत्वों का चयन करके एक नमूना बनाया जाता है। रैखिक और वृत्तीय व्यवस्थित प्रतिचयन इस तकनीक के दो रूप हैं, जिनके बीच मुख्य अंतर इस बात पर निर्भर करता है कि समष्टि का आकार (N) प्रतिदर्श आकार (n) का गुणज है या नहीं।
रैखिक व्यवस्थित प्रतिचयन (Linear Systematic Sampling)
यह व्यवस्थित प्रतिचयन का मानक रूप है। प्रक्रिया इस प्रकार है:
- प्रतिचयन अंतराल (k) की गणना करें: k = N / n (जहाँ N समष्टि का आकार है और n प्रतिदर्श का आकार है)।
- एक यादृच्छिक शुरुआत चुनें: 1 और k के बीच एक यादृच्छिक पूर्णांक ‘r’ चुनें।
- प्रतिदर्श का चयन करें: पहला तत्व rवाँ तत्व होगा। उसके बाद, प्रत्येक k-वाँ तत्व चुना जाता है जब तक कि n तत्व पूरे न हो जाएं। प्रतिदर्श में r, r+k, r+2k, …, r+(n-1)k की स्थिति वाले तत्व शामिल होंगे।
- मुख्य विशेषता: यह विधि सबसे अच्छी तब काम करती है जब N, n का एक सटीक गुणज हो, जिससे k एक पूर्णांक बनता है।
- सीमा: यदि N, n का गुणज नहीं है, तो k एक पूर्णांक नहीं होगा। इसे पूर्णांक बनाने से या तो प्रतिदर्श का आकार बिल्कुल n नहीं रहेगा या अलग-अलग शुरुआती बिंदुओं के लिए प्रतिदर्श का आकार अलग-अलग हो सकता है।
- उदाहरण: यदि N=100 और n=10, तो k=10। यदि यादृच्छिक शुरुआत 3 है, तो प्रतिदर्श में 3, 13, 23, …, 93वें तत्व होंगे।
वृत्तीय व्यवस्थित प्रतिचयन (Circular Systematic Sampling)
इस विधि का उपयोग रैखिक विधि की सीमा को दूर करने के लिए किया जाता है, खासकर जब N, n का गुणज न हो।
- प्रतिचयन अंतराल (k) का निर्धारण करें: k को N/n के निकटतम पूर्णांक के रूप में लिया जा सकता है, या कभी-कभी k = N/n की गणना के बाद इसे अगले पूर्णांक तक पूर्णांकित किया जाता है। एक सामान्य दृष्टिकोण k को N से बड़ा या बराबर कोई भी पूर्णांक मानना है। हालाँकि, सबसे सरल तरीका k = floor(N/n) लेना है।
- एक यादृच्छिक शुरुआत चुनें: 1 और N के बीच एक यादृच्छिक पूर्णांक ‘r’ चुनें।
- प्रतिदर्श का चयन करें: सूची को एक वृत्त के रूप में माना जाता है। r से शुरू करके, प्रत्येक k-वें तत्व का चयन किया जाता है। यदि चयनित स्थिति N से अधिक हो जाती है, तो आप सूची की शुरुआत में वापस आ जाते हैं। यह प्रक्रिया तब तक जारी रहती है जब तक n तत्व नहीं चुन लिए जाते।
- मुख्य विशेषता: यह सुनिश्चित करता है कि प्रतिदर्श का आकार हमेशा ‘n’ हो, भले ही N, n का गुणज न हो। यह प्रत्येक इकाई को चुने जाने की समान संभावना देता है।
- उदाहरण: यदि N=11 और n=4, तो k = floor(11/4) = 2 (या निकटतम पूर्णांक 3)। मान लें कि हम k=3 का उपयोग करते हैं। 1 से 11 के बीच एक यादृच्छिक शुरुआत चुनें, मान लीजिए 2। प्रतिदर्श होगा: 2, 2+3=5, 5+3=8, 8+3=11। यदि शुरुआत 10 होती, तो प्रतिदर्श होता: 10, (10+3)=13। चूँकि 13 > 11, हम 13-11=2 पर वापस आ जाते हैं। अगला (2+3)=5 होगा, फिर (5+3)=8। तो प्रतिदर्श {10, 2, 5, 8} होगा।
मुख्य अंतर:
आधार
रैखिक व्यवस्थित प्रतिचयन
वृत्तीय व्यवस्थित प्रतिचयन
उपयोग की शर्त
आदर्श रूप से तब उपयोग होता है जब N, n का गुणज हो (N=nk)।
तब उपयोग होता है जब N, n का गुणज नहीं हो।
सूची का निरूपण
सूची को एक सीधी रेखा के रूप में माना जाता है।
सूची को एक वृत्त या लूप के रूप में माना जाता है।
प्रतिदर्श का आकार
यदि N, n का गुणज नहीं है तो वांछित आकार ‘n’ प्राप्त नहीं हो सकता है।
हमेशा वांछित प्रतिदर्श आकार ‘n’ प्राप्त होता है।
यादृच्छिक शुरुआत
1 से k के बीच चुनी जाती है।
1 से N के बीच चुनी जाती है।
Q6. निम्नलिखित पर संक्षिप्त टिप्पणियाँ लिखिए: (a) दो प्रसरणों की समानता के लिए F-परीक्षण (b) गुणों की स्वतंत्रता के लिए काई-वर्ग परीक्षण
Ans.
(a) दो प्रसरणों की समानता के लिए F-परीक्षण (F-test for equality of two variances)
F-परीक्षण एक सांख्यिकीय परीक्षण है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि क्या दो स्वतंत्र नमूनों के समष्टि प्रसरण (population variances) बराबर हैं। यह परीक्षण परिकल्पना परीक्षण के ढांचे के भीतर दो प्रतिदर्श प्रसरणों (sample variances) के अनुपात की तुलना करता है।
उद्देश्य: यह जाँचना कि क्या दो समष्टियों में समान फैलाव (spread) या परिवर्तनशीलता (variability) है।
परिकल्पना (Hypotheses):
- शून्य परिकल्पना (H₀): σ₁² = σ₂² (दोनों समष्टियों के प्रसरण बराबर हैं)।
- वैकल्पिक परिकल्पना (H₁): σ₁² ≠ σ₂² (प्रसरण बराबर नहीं हैं), या σ₁² > σ₂² , या σ₁² < σ₂² (एक-पुच्छीय परीक्षण)।
परीक्षण सांख्यिकी (Test Statistic):
F-सांख्यिकी की गणना बड़े प्रतिदर्श प्रसरण को छोटे प्रतिदर्श प्रसरण से विभाजित करके की जाती है ताकि F का मान हमेशा ≥ 1 रहे।
F = s₁² / s₂²
जहाँ s₁² बड़ा प्रतिदर्श प्रसरण है और s₂² छोटा प्रतिदर्श प्रसरण है।
स्वतंत्रता की कोटि (Degrees of Freedom):
F-बंटन में दो स्वतंत्रता की कोटि होती हैं:
- अंश के लिए: v₁ = n₁ – 1 (जहाँ n₁ बड़े प्रसरण वाले नमूने का आकार है)।
- हर के लिए: v₂ = n₂ – 1 (जहाँ n₂ छोटे प्रसरण वाले नमूने का आकार है)।
निर्णय नियम:
परिकलित F-मान की तुलना एक निश्चित सार्थकता स्तर (α) पर F-तालिका से प्राप्त क्रांतिक F-मान (critical F-value) से की जाती है। यदि परिकलित F > क्रांतिक F, तो हम शून्य परिकल्पना को अस्वीकार कर देते हैं और यह निष्कर्ष निकालते हैं कि प्रसरणों में एक महत्वपूर्ण अंतर है।
अनुप्रयोग: यह यह तय करने के लिए महत्वपूर्ण है कि t-test का कौन सा संस्करण (समेकित प्रसरण या अलग प्रसरण) उपयोग किया जाए और यह एनोवा (ANOVA) का भी एक मूलभूत हिस्सा है।
(b) गुणों की स्वतंत्रता के लिए काई-वर्ग परीक्षण (Chi-square test for independence of attributes)
काई-वर्ग (χ²) परीक्षण एक गैर-प्राचलिक (non-parametric) परीक्षण है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि क्या दो श्रेणीबद्ध चरों (categorical variables) के बीच कोई महत्वपूर्ण संबंध या साहचर्य (association) है। यह परीक्षण करता है कि क्या चर एक दूसरे से स्वतंत्र हैं।
उद्देश्य: यह जाँचना कि क्या दो गुणों (attributes), जैसे लिंग और धूम्रपान की आदत, के बीच कोई संबंध है।
परिकल्पना (Hypotheses):
- शून्य परिकल्पना (H₀): दोनों गुण स्वतंत्र हैं (उनके बीच कोई संबंध नहीं है)।
- वैकल्पिक परिकल्पना (H₁): दोनों गुण स्वतंत्र नहीं हैं (वे संबंधित हैं)।
परीक्षण सांख्यिकी (Test Statistic):
डेटा को एक आकस्मिकता सारणी (contingency table) में व्यवस्थित किया जाता है जो प्रेक्षित आवृत्तियों (Observed Frequencies, O) को दर्शाती है। χ² सांख्यिकी की गणना इस प्रकार की जाती है:
χ² = Σ [ (Oᵢ – Eᵢ)² / Eᵢ ]
जहाँ Oᵢ प्रेक्षित आवृत्ति है और Eᵢ अपेक्षित आवृत्ति (Expected Frequency) है।
अपेक्षित आवृत्ति (Expected Frequency):
प्रत्येक सेल के लिए अपेक्षित आवृत्ति की गणना इस धारणा के तहत की जाती है कि H₀ सत्य है (अर्थात, गुण स्वतंत्र हैं)।
Eᵢ = (पंक्ति का कुल योग × स्तंभ का कुल योग) / कुल योग
स्वतंत्रता की कोटि (Degrees of Freedom):
df = (r – 1) × (c – 1), जहाँ ‘r’ पंक्तियों की संख्या और ‘c’ स्तंभों की संख्या है।
निर्णय नियम:
परिकलित χ² मान की तुलना एक निश्चित सार्थकता स्तर (α) और df पर χ²-तालिका से प्राप्त क्रांतिक मान से की जाती है। यदि परिकलित χ² > क्रांतिक χ², तो हम शून्य परिकल्पना को अस्वीकार कर देते हैं और यह निष्कर्ष निकालते हैं कि गुणों के बीच एक महत्वपूर्ण संबंध है।
Q7. निम्नलिखित तालिका 3 स्वतंत्र सामान्य यादृच्छिक चर Xi, Xz और X3 के नमूना मान दिखाती है। यह मानते हुए कि उनके प्रसरण समान हैं, परिकल्पना का परीक्षण करें कि उनका माध्य समान है, एनोवा का उपयोग करके (दिया गया है F(2, 9)(0.05) = 4.26): Xi Xe X3 3 6 5 8 2 6 2 25 22 0
Ans.
नोट: प्रश्न में दिए गए आंकड़ों का विन्यास अस्पष्ट है। दिए गए क्रांतिक मान F(2, 9) के लिए स्वतंत्रता की कोटि (2, 9) है, जिसका अर्थ है k=3 समूह और N-k=9, जिससे कुल अवलोकन N=12 होता है। दिए गए आंकड़े इस संरचना से मेल नहीं खाते हैं। हालाँकि, हम आंकड़ों की सबसे प्रशंसनीय व्याख्या के आधार पर एनोवा (ANOVA) का प्रदर्शन करेंगे और इस विसंगति को नोट करेंगे।
हम मानेंगे कि आंकड़े इस प्रकार हैं (टाइपो को नजरअंदाज करते हुए और सबसे स्पष्ट संख्याओं का उपयोग करते हुए):
समूह 1 (X₁): {3, 8, 6} → n₁=3
समूह 2 (X₂): {6, 2, 2, 0} → n₂=4
समूह 3 (X₃): {5, 2, 5} → n₃=3
इस व्याख्या के साथ, k=3, N = 3+4+3 = 10। स्वतंत्रता की कोटि (k-1, N-k) = (2, 7) होगी, जो प्रश्न में दिए गए (2, 9) से भिन्न है। हम (2, 7) के लिए गणना के साथ आगे बढ़ेंगे।
उद्देश्य: यह परीक्षण करना कि क्या तीन समूहों का माध्य समान है।
परिकल्पना:
- H₀ (शून्य परिकल्पना): μ₁ = μ₂ = μ₃ (तीनों समूहों के माध्य बराबर हैं)।
- H₁ (वैकल्पिक परिकल्पना): कम से कम एक समूह का माध्य भिन्न है।
चरण 1: योग और माध्य की गणना
- समूह 1 (X₁): T₁ = 3+8+6 = 17, n₁ = 3, x̄₁ = 5.67
- समूह 2 (X₂): T₂ = 6+2+2+0 = 10, n₂ = 4, x̄₂ = 2.5
- समूह 3 (X₃): T₃ = 5+2+5 = 12, n₃ = 3, x̄₃ = 4.0
कुल योग (G) = T₁ + T₂ + T₃ = 17 + 10 + 12 = 39
कुल अवलोकन (N) = n₁ + n₂ + n₃ = 3 + 4 + 3 = 10
चरण 2: वर्गों के योग (Sum of Squares) की गणना
1. सुधार कारक (Correction Factor, CF):
CF = G² / N = 39² / 10 = 1521 / 10 = 152.1
2. कुल वर्गों का योग (Total Sum of Squares, TSS): TSS = Σx² – CF = (3²+8²+6² + 6²+2²+2²+0² + 5²+2²+5²) – 152.1 TSS = (9+64+36 + 36+4+4+0 + 25+4+25) – 152.1 TSS = (109 + 44 + 54) – 152.1 = 207 – 152.1 = 54.9
3. समूहों के बीच वर्गों का योग (Sum of Squares Between groups, SSB): SSB = (T₁²/n₁) + (T₂²/n₂) + (T₃²/n₃) – CF SSB = (17²/3) + (10²/4) + (12²/3) – 152.1 SSB = (289/3) + (100/4) + (144/3) – 152.1 SSB = 96.33 + 25 + 48 – 152.1 = 169.33 – 152.1 = 17.23
4. समूहों के भीतर वर्गों का योग (Sum of Squares Within groups, SSW): SSW = TSS – SSB = 54.9 – 17.23 = 37.67
चरण 3: एनोवा तालिका (ANOVA Table)
- समूहों के बीच स्वतंत्रता की कोटि (df_b) = k – 1 = 3 – 1 = 2
- समूहों के भीतर स्वतंत्रता की कोटि (df_w) = N – k = 10 – 3 = 7
- समूहों के बीच माध्य वर्ग (MSB) = SSB / df_b = 17.23 / 2 = 8.615
- समूहों के भीतर माध्य वर्ग (MSW) = SSW / df_w = 37.67 / 7 = 5.381
F-सांख्यिकी (F-Statistic):
F = MSB / MSW = 8.615 / 5.381 = 1.601
Source of Variation SS df MS F
Between Groups 17.23 2 8.615 1.601
Within Groups 37.67 7 5.381
Total 54.9 9
चरण 4: निष्कर्ष
परिकलित F-मान = 1.601
क्रांतिक F-मान: प्रश्न में F(2, 9)(0.05) = 4.26 दिया गया है। हालाँकि, हमारे आंकड़ों के लिए सही स्वतंत्रता की कोटि (2, 7) है। F(2, 7)(0.05) के लिए क्रांतिक मान 4.74 है। हम दोनों मानों से तुलना करेंगे।
निष्कर्ष (F(2, 7) = 4.74 का उपयोग करके):
चूंकि परिकलित F-मान (1.601) क्रांतिक F-मान (4.74) से कम है, हम शून्य परिकल्पना (H₀) को अस्वीकार करने में विफल रहते हैं।
निष्कर्ष (प्रश्न में दिए गए F(2, 9) = 4.26 का उपयोग करके):
चूंकि परिकलित F-मान (1.601) क्रांतिक F-मान (4.26) से कम है, हम शून्य परिकल्पना (H₀) को अस्वीकार करने में विफल रहते हैं।
अंतिम निष्कर्ष: 0.05 सार्थकता स्तर पर, यह निष्कर्ष निकालने के लिए पर्याप्त साक्ष्य नहीं हैं कि तीनों समूहों के माध्य भिन्न हैं। हम यह मान सकते हैं कि उनका माध्य समान है।
Q8. आप पूर्वानुमान से क्या समझते हैं? पूर्वानुमान भविष्य की योजना से किस प्रकार संबंधित है? अपने उत्तर के समर्थन में उपयुक्त उदाहरण दीजिए। किसी एक पूर्वानुमान मॉडल पर संक्षेप में चर्चा कीजिए।
Ans.
पूर्वानुमान (Forecasting)
पूर्वानुमान, अतीत और वर्तमान के आंकड़ों और प्रवृत्तियों के विश्लेषण के आधार पर भविष्य की घटनाओं या परिणामों के बारे में भविष्यवाणियां करने की एक प्रक्रिया है। यह अनिश्चितता के तहत निर्णय लेने के लिए एक व्यवस्थित प्रयास है। इसका उद्देश्य भविष्य को सटीकता से जानना नहीं, बल्कि भविष्य की संभावित दिशा का एक तर्कसंगत अनुमान लगाना है ताकि बेहतर निर्णय लिए जा सकें। पूर्वानुमान मात्रात्मक (सांख्यिकीय मॉडल) या गुणात्मक (विशेषज्ञ राय) हो सकते हैं।
पूर्वानुमान और भविष्य की योजना के बीच संबंध
पूर्वानुमान और भविष्य की योजना (Future Planning) के बीच एक गहरा और अविभाज्य संबंध है। पूर्वानुमान योजना प्रक्रिया के लिए एक महत्वपूर्ण आधार प्रदान करता है।
- सूचना का आधार: योजना भविष्य के लिए लक्ष्य निर्धारित करने और उन्हें प्राप्त करने के लिए कार्य योजना बनाने की प्रक्रिया है। पूर्वानुमान इन योजनाओं के लिए आवश्यक जानकारी प्रदान करता है, जैसे कि भविष्य की मांग, बिक्री, राजस्व, या संसाधन की उपलब्धता।
- संसाधन आवंटन: सटीक पूर्वानुमान संगठनों को अपने संसाधनों (जैसे, धन, कर्मचारी, सामग्री) को अधिक कुशलता से आवंटित करने में मदद करते हैं। उदाहरण के लिए, बिक्री का पूर्वानुमान उत्पादन और इन्वेंट्री स्तरों की योजना बनाने में मदद करता है।
- जोखिम में कमी: भविष्य की स्थितियों का अनुमान लगाकर, संगठन संभावित चुनौतियों और अवसरों की पहचान कर सकते हैं। यह उन्हें जोखिमों को कम करने और अवसरों का लाभ उठाने के लिए सक्रिय योजना बनाने की अनुमति देता है।
- रणनीतिक निर्णय: पूर्वानुमान दीर्घकालिक रणनीतिक निर्णयों का मार्गदर्शन करते हैं, जैसे कि नए बाजारों में प्रवेश करना, नई उत्पाद लाइनें शुरू करना, या क्षमता का विस्तार करना।
संक्षेप में, पूर्वानुमान योजना के लिए “क्या हो सकता है” का अनुमान लगाता है, जबकि योजना यह निर्धारित करती है कि “हमें क्या करना चाहिए”। बिना पूर्वानुमान के योजना केवल अनुमान और अटकलबाजी होगी।
उदाहरण
एक रिटेल कंपनी (जैसे, सुपरमार्केट) अगले त्योहारी सीजन के लिए अपनी बिक्री का पूर्वानुमान लगाना चाहती है।
- पूर्वानुमान: कंपनी पिछले 5 वर्षों के बिक्री डेटा, वर्तमान आर्थिक प्रवृत्तियों और विपणन अभियानों का विश्लेषण करके यह अनुमान लगाती है कि बिक्री में 20% की वृद्धि होगी।
- भविष्य की योजना: इस 20% वृद्धि के पूर्वानुमान के आधार पर, कंपनी योजना बनाती है:
- खरीद: 20% अधिक स्टॉक का ऑर्डर देना।
- स्टाफिंग: बढ़ी हुई भीड़ को संभालने के लिए अतिरिक्त अस्थायी कर्मचारियों की भर्ती करना।
- मार्केटिंग: बिक्री को और बढ़ावा देने के लिए विज्ञापन बजट बढ़ाना।
- लॉजिस्टिक्स: अतिरिक्त स्टॉक के भंडारण और वितरण की व्यवस्था करना।
इस उदाहरण में, पूर्वानुमान ने योजना के हर पहलू को सीधे प्रभावित किया।
एक पूर्वानुमान मॉडल: चल माध्य (Moving Average)
चल माध्य एक सरल समय-श्रृंखला पूर्वानुमान मॉडल है जो अल्पकालिक उतार-चढ़ाव को सुचारू करने के लिए उपयोग किया जाता है ताकि अंतर्निहित प्रवृत्ति को बेहतर ढंग से देखा जा सके।
- प्रक्रिया: यह हाल के ‘n’ अवधियों के आंकड़ों का औसत लेकर अगले अवधि के लिए पूर्वानुमान लगाता है। जैसे ही एक नई अवधि का आंकड़ा उपलब्ध होता है, सबसे पुराने आंकड़े को हटा दिया जाता है और नए को शामिल कर लिया जाता है, इसलिए इसे “चल” (moving) कहा जाता है।
- सूत्र (सरल चल माध्य): F t+1 = (A t + A t-1 + … + A t-n+1 ) / n जहाँ F t+1 अगली अवधि का पूर्वानुमान है, और A t वर्तमान अवधि का वास्तविक मान है।
- उदाहरण: 3-महीने के चल माध्य के लिए, अप्रैल का पूर्वानुमान = (जनवरी की बिक्री + फरवरी की बिक्री + मार्च की बिक्री) / 3।
- लाभ: इसे समझना और लागू करना आसान है। यह यादृच्छिक उतार-चढ़ाव को कम करता है।
- हानि: यह प्रवृत्तियों से पीछे रहता है और सभी पिछली अवधियों को समान महत्व देता है। यह स्थिर (stationary) समय-श्रृंखला के लिए सबसे उपयुक्त है।
Q9. एक आईटी कंपनी यह अनुमान लगाना चाहती है कि उसकी मासिक लागतें उसकी मासिक उत्पादन दर से कैसे संबंधित हैं? इसके लिए फर्म नौ महीनों के नमूने के लिए अपनी लागत और उत्पादन से संबंधित डेटा एकत्र करती है जैसा कि नीचे दिया गया है: उत्पादन आउटपुट (टन) | लागत (हजारों डॉलर में) 1 | 2 2 | 3 4 | 4 8 | 7 6 | 6 5 | 5 8 | 8 9 | 8 7 | 6 (a) सर्वश्रेष्ठ रैखिक प्रतिगमन रेखा की गणना करें। (b) इस प्रतिगमन रेखा का उपयोग फर्म की मासिक लागतों का अनुमान लगाने के लिए करें यदि वे प्रति माह 4 टन उत्पादन करने का निर्णय लेते हैं।
Ans. हमें उत्पादन आउटपुट (x) और लागत (y) के बीच संबंध के लिए सर्वश्रेष्ठ रैखिक प्रतिगमन रेखा y = a + bx की गणना करनी है।
(a) सर्वश्रेष्ठ रैखिक प्रतिगमन रेखा की गणना
चरण 1: आवश्यक योगों की गणना करें।
यहाँ n = 9 (महीनों की संख्या)।
x = उत्पादन आउटपुट, y = लागत
x (आउटपुट)
y (लागत)
x²
y²
xy
1 2 1 4 2
2 3 4 9 6
4 4 16 16 16
8 7 64 49 56
6 6 36 36 36
5 5 25 25 25
8 8 64 64 64
9 8 81 64 72
7 6 49 36 42
Σx = 50
Σy = 49
Σx² = 340
Σy² = 303
Σxy = 319
चरण 2: ढलान (b) और अंतःखंड (a) की गणना करें।
ढलान (b) का सूत्र है:
b = [ n(Σxy) – (Σx)(Σy) ] / [ n(Σx²) – (Σx)² ]
मान रखने पर:
b = [ 9(319) – (50)(49) ] / [ 9(340) – (50)² ]
b = [ 2871 – 2450 ] / [ 3060 – 2500 ]
b = 421 / 560
b ≈ 0.7518
अंतःखंड (a) का सूत्र है:
a = ȳ – bx̄
जहाँ x̄ = Σx / n = 50 / 9 ≈ 5.556
और ȳ = Σy / n = 49 / 9 ≈ 5.444
a = (49/9) – (0.7518 * (50/9))
a = (49 – 0.7518 * 50) / 9
a = (49 – 37.59) / 9
a = 11.41 / 9
a ≈ 1.2678
सर्वश्रेष्ठ रैखिक प्रतिगमन रेखा:
y = a + bx
लागत = 1.2678 + 0.7518 × (आउटपुट)
(b) 4 टन उत्पादन के लिए लागत का अनुमान
हम प्रतिगमन रेखा समीकरण का उपयोग करेंगे और x = 4 रखेंगे।
लागत = 1.2678 + 0.7518 × (4)
लागत = 1.2678 + 3.0072
लागत = 4.275
चूंकि लागत हजारों डॉलर में है, अनुमानित लागत 4.275 हजार डॉलर होगी।
अनुमानित लागत = 4.275 × 1000 = $4275
अतः, यदि फर्म प्रति माह 4 टन उत्पादन करने का निर्णय लेती है, तो अनुमानित मासिक लागत $4,275 होगी।
Q10. निम्नलिखित के बीच अंतर स्पष्ट कीजिए: (a) Z-परीक्षण और t-परीक्षण (b) सहसंबंध और प्रतिगमन
Ans.
(a) Z-परीक्षण (Z-test) और t-परीक्षण (t-test) के बीच अंतर
Z-परीक्षण और t-परीक्षण दोनों ही प्राचलिक (parametric) सांख्यिकीय परीक्षण हैं जिनका उपयोग समष्टि माध्य (population mean) के बारे में परिकल्पनाओं का परीक्षण करने के लिए किया जाता है। उनके बीच मुख्य अंतर इस प्रकार हैं:
आधार
Z-परीक्षण
t-परीक्षण
समष्टि प्रसरण/मानक विचलन (σ)
इसका उपयोग तब किया जाता है जब समष्टि का मानक विचलन (σ) ज्ञात हो।
इसका उपयोग तब किया जाता है जब समष्टि का मानक विचलन (σ) अज्ञात हो और उसे प्रतिदर्श मानक विचलन (s) से अनुमानित किया जाता है।
प्रतिदर्श आकार (Sample Size)
आमतौर पर बड़े प्रतिदर्श आकार (n > 30) के लिए उपयोग किया जाता है। केंद्रीय सीमा प्रमेय के कारण, यदि n > 30 है तो σ अज्ञात होने पर भी इसका उपयोग किया जा सकता है।
आमतौर पर छोटे प्रतिदर्श आकार (n < 30) के लिए उपयोग किया जाता है जब σ अज्ञात हो।
बंटन (Distribution)
यह मानक सामान्य बंटन (Standard Normal Distribution) पर आधारित है।
यह स्टूडेंट के t-बंटन (Student’s t-distribution) पर आधारित है, जो स्वतंत्रता की कोटि (degrees of freedom) पर निर्भर करता है।
बंटन का आकार
इसकी एक निश्चित आकृति होती है।
t-बंटन सामान्य बंटन की तुलना में अधिक फैला हुआ होता है, लेकिन जैसे-जैसे प्रतिदर्श का आकार बढ़ता है, यह सामान्य बंटन के करीब आता जाता है।
(b) सहसंबंध (Correlation) और प्रतिगमन (Regression) के बीच अंतर
सहसंबंध और प्रतिगमन दोनों का उपयोग दो चरों के बीच संबंध का अध्ययन करने के लिए किया जाता है, लेकिन वे अलग-अलग प्रश्नों का उत्तर देते हैं।
आधार
सहसंबंध (Correlation)
प्रतिगमन (Regression)
उद्देश्य
दो चरों के बीच रैखिक संबंध की ताकत (strength) और दिशा (direction) को मापता है।
एक स्वतंत्र चर के आधार पर एक आश्रित चर के मान का अनुमान या भविष्यवाणी करने के लिए संबंध की प्रकृति का वर्णन करता है।
चरों का उपचार
दोनों चरों (X और Y) को सममित रूप से माना जाता है। कोई आश्रित या स्वतंत्र चर नहीं होता है।
चरों को स्पष्ट रूप से आश्रित (Y) और स्वतंत्र (X) चर के रूप में वर्गीकृत किया जाता है। Y का X पर प्रतिगमन, X का Y पर प्रतिगमन से भिन्न है।
कार्य-कारण संबंध (Causation)
यह कार्य-कारण संबंध का संकेत नहीं देता है। उच्च सहसंबंध का मतलब यह नहीं है कि एक चर दूसरे का कारण बनता है।
यह एक आश्रित संबंध (dependency) को मॉडल करता है, लेकिन यह भी कार्य-कारण सिद्ध नहीं करता है। हालांकि, मॉडल अक्सर एक अंतर्निहित कारण-और-प्रभाव सिद्धांत पर आधारित होता है।
आउटपुट
एक एकल संख्या, सहसंबंध गुणांक (r), जो -1 और +1 के बीच होती है।
एक समीकरण (y = a + bx), जिसे प्रतिगमन रेखा कहा जाता है, जो भविष्यवाणी के लिए उपयोग किया जा सकता है।
उदाहरण
ऊंचाई और वजन के बीच सहसंबंध।
अध्ययन के घंटों के आधार पर परीक्षा के अंकों का अनुमान लगाना।
IGNOU BCS-040 Previous Year Solved Question Paper in English
Q1. Explain the term ‘probability distribution’. How does Binomial distribution differ from Poisson distribution ?
Ans. A probability distribution is a statistical function that describes all the possible values and their corresponding likelihoods that a random variable can take within a given range. It provides a complete picture of the probabilities of all possible outcomes of a random experiment. A probability distribution can be represented in the form of a table, an equation, or a graph. There are two main types of probability distributions:
- Discrete Probability Distribution: Applicable when the random variable can only take a finite or countably infinite number of distinct values (e.g., 0, 1, 2, 3…). The Binomial and Poisson distributions are prime examples.
- Continuous Probability Distribution: Applicable when the random variable can take any value within a given continuous range. The Normal distribution is a well-known example.
Difference between Binomial and Poisson Distribution:
Although both are discrete probability distributions, they differ in several key aspects:
- Number of Trials:
- Binomial Distribution: It deals with a fixed and finite number of trials, denoted by ‘n’. For example, the number of heads in 10 coin flips.
- Poisson Distribution: It describes the number of events occurring within a specific interval (e.g., time, distance, or area). The number of potential trials is essentially infinite or very large . For example, the number of calls received at a call center in an hour.
- Probability of Success:
- Binomial Distribution: The probability of success, ‘p’, remains constant for each independent trial.
- Poisson Distribution: It uses an average rate of occurrence (λ or mu) of an event. The probability of success in any one instance is very small.
- Nature of Events:
- Binomial Distribution: It is used for scenarios where each trial has only two possible outcomes, typically labeled as success or failure.
- Poisson Distribution: It is often used for modeling rare events .
- Key Parameters:
- Binomial Distribution: It is characterized by two parameters: the number of trials (n) and the probability of success (p).
- Poisson Distribution: It is characterized by a single parameter: the average rate of occurrence (λ).
- Relationship: The Poisson distribution can be seen as a limiting case of the Binomial distribution. When the number of trials ‘n’ is very large and the probability of success ‘p’ is very small, the Binomial distribution approximates the Poisson distribution with the parameter λ = np.
Q2. Given the following sample of 10 numbers : 12, 4, 48, 58, 4, 43, 50, 59, 5, 45 (a) Compute Mean, Variance and Standard Deviation. (b) If the largest value in the above set of numbers is changed to 500, to what extent are the mean and variance affected by the change ? Justify your answer.
Ans. Given data set: 12, 4, 48, 58, 4, 43, 50, 59, 5, 45 Number of observations (n) = 10
(a) Computation of Mean, Variance, and Standard Deviation
1. Mean (μ): The mean is calculated by summing all observations and dividing by the total number of observations. Sum (Σx) = 12 + 4 + 48 + 58 + 4 + 43 + 50 + 59 + 5 + 45 = 328 Mean (μ) = Σx / n = 328 / 10 = 32.8
2. Variance (σ²): The variance is the average of the squared differences from the Mean. σ² = Σ(xᵢ – μ)² / n Σ(xᵢ – 32.8)² = (12-32.8)² + (4-32.8)² + (48-32.8)² + (58-32.8)² + (4-32.8)² + (43-32.8)² + (50-32.8)² + (59-32.8)² + (5-32.8)² + (45-32.8)² = (-20.8)² + (-28.8)² + (15.2)² + (25.2)² + (-28.8)² + (10.2)² + (17.2)² + (26.2)² + (-27.8)² + (12.2)² = 432.64 + 829.44 + 231.04 + 635.04 + 829.44 + 104.04 + 295.84 + 686.44 + 772.84 + 148.84 = 4965.6 Variance (σ²) = 4965.6 / 10 = 496.56
3. Standard Deviation (σ): The standard deviation is the square root of the variance. σ = √Variance = √496.56 ≈ 22.28
(b) Effect of the Change The largest value in the original set is 59. This is changed to 500.
1. Effect on the Mean: New Sum = (Original Sum – Old Value + New Value) = 328 – 59 + 500 = 769 New Mean = 769 / 10 = 76.9 Justification: The mean has increased significantly from 32.8 to 76.9. The mean uses every value in the data set for its calculation, making it highly sensitive to extreme values (outliers) . Replacing 59 with a much larger value like 500 drastically increases the total sum and, consequently, the mean.
2. Effect on the Variance: The new mean is 76.9. The variance is calculated based on squared distances from this new mean. The term for the outlier, (500 – 76.9)², will be (423.1)² = 179013.61, which is an extremely large number. Justification: The variance measures the spread or dispersion of data around the mean. The introduction of an extreme outlier (500) will dramatically increase the sum of squared differences from the mean. Therefore, the variance will increase drastically . This shows that variance, like the mean, is also highly sensitive to outliers. The data set has become much more spread out.
Q3. A Mathematics professor has given five tests. A student scored 70, 75, 65, 80 and 95 respectively in the five tests. The professor decides to determine his grade by randomly selecting a sample of 3 test scores. Construct the sampling distribution for this process.
Ans. In this problem, we need to construct the sampling distribution of the sample mean for all possible samples of size 3 from the given five test scores.
The population of scores is: {65, 70, 75, 80, 95} Population size (N) = 5 Sample size (n) = 3
Step 1: Find the number of all possible samples. The number of possible samples of size n from a population of size N can be found using the combination formula, C(N, n). Number of possible samples = C(5, 3) = 5! / (3! * (5-3)!) = (5 × 4 × 3 × 2 × 1) / ((3 × 2 × 1) × (2 × 1)) = 10 Thus, there are 10 unique possible samples.
Step 2: List each possible sample and calculate its mean. For each sample, we will calculate the sample mean (x̄).
- {65, 70, 75} → Mean = (65 + 70 + 75) / 3 = 210 / 3 = 70.00
- {65, 70, 80} → Mean = (65 + 70 + 80) / 3 = 215 / 3 ≈ 71.67
- {65, 70, 95} → Mean = (65 + 70 + 95) / 3 = 230 / 3 ≈ 76.67
- {65, 75, 80} → Mean = (65 + 75 + 80) / 3 = 220 / 3 ≈ 73.33
- {65, 75, 95} → Mean = (65 + 75 + 95) / 3 = 235 / 3 ≈ 78.33
- {65, 80, 95} → Mean = (65 + 80 + 95) / 3 = 240 / 3 = 80.00
- {70, 75, 80} → Mean = (70 + 75 + 80) / 3 = 225 / 3 = 75.00
- {70, 75, 95} → Mean = (70 + 75 + 95) / 3 = 240 / 3 = 80.00
- {70, 80, 95} → Mean = (70 + 80 + 95) / 3 = 245 / 3 ≈ 81.67
- {75, 80, 95} → Mean = (75 + 80 + 95) / 3 = 250 / 3 ≈ 83.33
Step 3: Construct the sampling distribution. The sampling distribution is the probability distribution of all these possible sample means. We can present this as a frequency table.
| Sample Mean (x̄) | Frequency (f) | Probability (P(x̄)) |
|---|---|---|
| 70.00 | 1 | 1/10 = 0.1 |
| 71.67 | 1 | 1/10 = 0.1 |
| 73.33 | 1 | 1/10 = 0.1 |
| 75.00 | 1 | 1/10 = 0.1 |
| 76.67 | 1 | 1/10 = 0.1 |
| 78.33 | 1 | 1/10 = 0.1 |
| 80.00 | 2 | 2/10 = 0.2 |
| 81.67 | 1 | 1/10 = 0.1 |
| 83.33 | 1 | 1/10 = 0.1 |
Total |
10 |
1.0 |
This table represents the
sampling distribution
of the mean for samples of size 3. It shows the probability of getting each possible average score from a random sample of 3 tests.
Q4. Write two merits and two demerits of median. Given the frequency distribution as follows: C.I. Frequency 0-20 2 20-30 30 30-40 34 40-50 65 50-60 46 60-70 25 70-80 8 Find the median value.
Ans. Two Merits of Median
- Not affected by extreme values: The median is a positional average. It is determined by the value of the middle item in an ordered dataset and is not influenced by unusually large or small values (outliers). This makes it a more stable measure of central tendency for skewed distributions compared to the mean.
- Can be calculated for open-ended distributions: The median can be determined even if the frequency distribution has open-ended classes (e.g., “below 20” or “above 80”), as its calculation only requires the identification of the middle value and does not depend on the exact values in the extreme classes.
Two Demerits of Median
- Not based on all observations: The calculation of the median only considers the value of the middle one or two observations. It ignores the magnitude of all other values in the dataset, which can be a loss of information.
- Less suitable for further algebraic treatment: The median is not as mathematically tractable as the mean. For instance, the median of a combined group cannot be easily computed from the medians of its subgroups, unlike the mean.
Calculation of the Median Value First, we will construct a cumulative frequency table for the given distribution.
| Class Interval (C.I.) | Frequency (f) | Cumulative Frequency (cf) |
|---|---|---|
| 0-20 | 2 | 2 |
| 20-30 | 30 | 32 |
| 30-40 | 34 | 66 |
40-50 |
65 |
131 |
| 50-60 | 46 | 177 |
| 60-70 | 25 | 202 |
| 70-80 | 8 | 210 |
N = 210 |
1. Find the median position: Median position = N / 2 = 210 / 2 = 105
2. Identify the median class: The 105th item will fall in the class whose cumulative frequency is just greater than or equal to 105. From the table, 131 is the cumulative frequency just greater than 105. Therefore, the median class is 40-50 .
3. Use the median formula: Median = L + [ (N/2 – cf) / f ] × h Where:
- L = Lower limit of the median class = 40
- N = Total frequency = 210
- cf = Cumulative frequency of the class preceding the median class = 66
- f = Frequency of the median class = 65
- h = Class width = 10
Substituting the values into the formula:
Median = 40 + [ (105 – 66) / 65 ] × 10
Median = 40 + [ 39 / 65 ] × 10
Median = 40 + 0.6 × 10
Median = 40 + 6
Median =
46
Thus, the median value of the given frequency distribution is 46.
Q5. Differentiate between the linear systematic sampling and circular systematic sampling.
Ans. Systematic sampling is a probability sampling method where a sample is selected by choosing elements at regular intervals from an ordered list of the population. The primary difference between linear and circular systematic sampling lies in how they handle the selection process, especially when the population size (N) is not an exact multiple of the sample size (n).
Linear Systematic Sampling This is the standard form of systematic sampling. The process is as follows:
- Calculate the sampling interval (k): k = N / n (where N is the population size and n is the sample size).
- Select a random start: A random integer ‘r’ is chosen between 1 and k.
- Select the sample: The first element is the r-th element. Subsequent elements are chosen by adding the interval k. The sample will consist of elements at positions r, r+k, r+2k, …, r+(n-1)k.
- Key Feature: This method works perfectly when N is a precise multiple of n, which makes k an integer.
- Limitation: If N is not a multiple of n, then k is not an integer. Rounding k may result in a sample size that is not exactly ‘n’, or different starting points may yield different sample sizes, which is undesirable.
- Example: If N=100 and n=10, then k=10. If the random start is 3, the sample consists of the 3rd, 13th, 23rd, …, 93rd elements.
Circular Systematic Sampling This method is an adaptation designed to overcome the limitation of the linear method, particularly when N is not a multiple of n.
- Determine the sampling interval (k): The interval k is typically taken as the integer nearest to N/n.
- Select a random start: A random integer ‘r’ is chosen from 1 to N (the entire population).
- Select the sample: The list is treated as a circle. Starting from r, every k-th element is selected. If the position of an element to be selected exceeds N, one “circles back” to the beginning of the list. This continues until n elements are selected. The position of the i-th unit would be (r + (i-1)k) mod N.
- Key Feature: It ensures that the sample size is always exactly ‘n’, regardless of whether N is a multiple of n or not. It also gives every unit an equal probability of being selected.
- Example: If N=11 and n=4, then k is the integer nearest to 11/4 = 2.75, which is 3. Let the random start from 1 to 11 be 10. The sample would be:
- 1st element: 10th unit
- 2nd element: 10 + 3 = 13. Since 13 > 11, the unit is (13 – 11) = 2nd unit.
- 3rd element: 2 + 3 = 5th unit.
- 4th element: 5 + 3 = 8th unit.
The sample is {10, 2, 5, 8}.
Key Differences:
| Basis for Comparison | Linear Systematic Sampling | Circular Systematic Sampling |
|---|---|---|
Condition of Use |
Ideally used when the population size (N) is a multiple of the sample size (n). | Used when N is not a multiple of n. |
List Representation |
The list of population units is treated as a straight line. | The list is treated as a circle or a loop. |
Sample Size |
May not yield the desired sample size ‘n’ if N is not a multiple of n. | Always yields the desired sample size ‘n’. |
Random Start |
The starting point ‘r’ is chosen from 1 to k. | The starting point ‘r’ is chosen from 1 to N. |
Q6. Write short notes on the following: (a) F-test for equality of two variances (b) Chi-square test for independence of attributes
Ans. (a) F-test for equality of two variances The F-test for equality of two variances is a statistical test used to determine whether two independent samples, drawn from normally distributed populations, have the same population variance. It works by comparing the ratio of the two sample variances. Purpose: To test the hypothesis that the variances of two populations are equal (a condition known as homoscedasticity). Hypotheses:
- Null Hypothesis (H₀): σ₁² = σ₂² (The variances of the two populations are equal).
- Alternative Hypothesis (H₁): σ₁² ≠ σ₂² (The variances are not equal). This is a two-tailed test. One-tailed tests (σ₁² > σ₂² or σ₁² < σ₂²) are also possible.
Test Statistic:
The F-statistic is calculated as the ratio of the larger sample variance to the smaller sample variance. This convention ensures that the calculated F-value is always greater than or equal to 1.
F = s₁² / s₂²
where s₁² is the larger sample variance and s₂² is the smaller one.
Degrees of Freedom:
The F-distribution has two sets of degrees of freedom:
- Numerator degrees of freedom: v₁ = n₁ – 1 (where n₁ is the sample size corresponding to s₁²).
- Denominator degrees of freedom: v₂ = n₂ – 1 (where n₂ is the sample size corresponding to s₂²).
Decision Rule:
The calculated F-value is compared with a critical F-value from the F-distribution table at a specified significance level (α) and the corresponding degrees of freedom (v₁, v₂). If the calculated F > critical F, the null hypothesis is rejected, and it is concluded that there is a significant difference between the two population variances.
Application:
It is a crucial pre-test for deciding which version of the t-test for means to use (pooled variance vs. separate variance) and is also the foundational test in Analysis of Variance (ANOVA).
(b) Chi-square test for independence of attributes The Chi-square (χ²) test for independence of attributes is a non-parametric statistical test used to determine if there is a significant association or relationship between two categorical variables. It assesses whether the observed frequencies in a contingency table differ significantly from the frequencies that would be expected if the variables were independent. Purpose: To check if two attributes (e.g., gender and voting preference) are independent or associated. Hypotheses:
- Null Hypothesis (H₀): The two attributes are independent (there is no association between them).
- Alternative Hypothesis (H₁): The two attributes are not independent (they are associated).
Test Statistic:
The data is arranged in a contingency table showing observed frequencies (O) for each combination of categories. The χ² statistic is calculated as:
χ² = Σ [ (Oᵢ – Eᵢ)² / Eᵢ ]
where Oᵢ is the observed frequency in a cell and Eᵢ is the expected frequency for that cell.
Expected Frequency:
The expected frequency for each cell is calculated under the assumption that H₀ is true (i.e., the attributes are independent).
Eᵢ = (Row Total × Column Total) / Grand Total
Degrees of Freedom:
df = (r – 1) × (c – 1), where ‘r’ is the number of rows and ‘c’ is the number of columns in the contingency table.
Decision Rule:
The calculated χ² value is compared with a critical value from the χ² distribution table at a given significance level (α) and degrees of freedom. If the calculated χ² > critical χ², the null hypothesis is rejected. This indicates that there is a statistically significant association between the two attributes.
Q7. The following table shows the sample value of 3 independent normal random variables Xi, Xz and X3. Assuming that they have equal variances, test the hypothesis that they have the same mean by using ANOVA (Given Fe, 9) (0. 05) = 4.26) : Xi Xe X3 3 6 5 8 2 6 2 25 22 0
Ans. Note: The layout of the data in the question is ambiguous. The provided critical value F(2, 9) at α=0.05 implies k=3 groups and N-k=9 degrees of freedom, which means the total number of observations N should be 12. The data as presented does not clearly form 3 groups with 12 total observations. We will proceed by making the most reasonable interpretation of the data, perform the ANOVA, and note the discrepancy. Let’s assume the data is as follows, by interpreting the columns and ignoring what appear to be typos or misaligned numbers to form a plausible, though unbalanced, dataset: Group 1 (X₁): {3, 8, 6} → n₁=3 Group 2 (X₂): {6, 2, 2, 0} → n₂=4 Group 3 (X₃): {5, 2, 5} → n₃=3 With this interpretation, k=3 groups and N = 3+4+3 = 10. The degrees of freedom will be (k-1, N-k) = (2, 7), which is different from the (2, 9) given in the question. We will proceed with the calculation for our interpreted data.
Objective: To test if the means of the three groups are equal using ANOVA. Hypotheses:
- H₀ (Null Hypothesis): μ₁ = μ₂ = μ₃ (The means of the three groups are equal).
- H₁ (Alternative Hypothesis): At least one group mean is different.
Step 1: Calculate Sums and Means
- Group 1 (X₁): Sum T₁ = 3+8+6 = 17, n₁ = 3, Mean x̄₁ = 5.67
- Group 2 (X₂): Sum T₂ = 6+2+2+0 = 10, n₂ = 4, Mean x̄₂ = 2.5
- Group 3 (X₃): Sum T₃ = 5+2+5 = 12, n₃ = 3, Mean x̄₃ = 4.0
Grand Total (G) = T₁ + T₂ + T₃ = 17 + 10 + 12 = 39
Total Observations (N) = n₁ + n₂ + n₃ = 3 + 4 + 3 = 10
Step 2: Calculate Sum of Squares 1. Correction Factor (CF): CF = G² / N = 39² / 10 = 1521 / 10 = 152.1
2. Total Sum of Squares (TSS): TSS = Σx² – CF = (3²+8²+6² + 6²+2²+2²+0² + 5²+2²+5²) – 152.1 TSS = (9+64+36 + 36+4+4+0 + 25+4+25) – 152.1 TSS = (109 + 44 + 54) – 152.1 = 207 – 152.1 = 54.9
3. Sum of Squares Between groups (SSB): SSB = (T₁²/n₁) + (T₂²/n₂) + (T₃²/n₃) – CF SSB = (17²/3) + (10²/4) + (12²/3) – 152.1 SSB = (289/3) + (100/4) + (144/3) – 152.1 SSB = 96.33 + 25 + 48 – 152.1 = 169.33 – 152.1 = 17.23
4. Sum of Squares Within groups (SSW): SSW = TSS – SSB = 54.9 – 17.23 = 37.67
Step 3: Construct the ANOVA Table
- Degrees of freedom between (df_b) = k – 1 = 3 – 1 = 2
- Degrees of freedom within (df_w) = N – k = 10 – 3 = 7
- Mean Square Between (MSB) = SSB / df_b = 17.23 / 2 = 8.615
- Mean Square Within (MSW) = SSW / df_w = 37.67 / 7 = 5.381
F-Statistic:
F = MSB / MSW = 8.615 / 5.381 =
1.601
| Source of Variation | SS | df | MS | F |
|---|---|---|---|---|
| Between Groups | 17.23 | 2 | 8.615 | 1.601 |
| Within Groups | 37.67 | 7 | 5.381 | |
| Total | 54.9 | 9 |
Step 4: Conclusion The calculated F-value is 1.601. The critical F-value given in the question is F(2, 9) at 0.05 = 4.26. The correct critical value for our data’s degrees of freedom (2, 7) at α=0.05 is F_crit = 4.74.
Using the correct critical value F(2, 7) = 4.74: Since the calculated F-value (1.601) is less than the critical F-value (4.74), we fail to reject the null hypothesis H₀.
Using the critical value provided in the question F(2, 9) = 4.26: Since the calculated F-value (1.601) is less than the provided critical F-value (4.26), we fail to reject the null hypothesis H₀. Final Conclusion: At the 0.05 significance level, there is not enough statistical evidence to conclude that the means of the three groups are different. We can assume their means are the same.
Q8. What do you understand by forecasting ? How is forecasting related to future planning ? Give suitable example in support of your answer. Briefly discuss any forecasting model.
Ans. Forecasting Forecasting is the process of making predictions about future events or outcomes based on the analysis of past and present data and trends. It is a systematic attempt to make informed estimates under conditions of uncertainty. The goal is not to know the future with certainty but to generate a rational and likely estimate of its course to facilitate better decision-making. Forecasts can be quantitative (using statistical models) or qualitative (based on expert opinion).
Relationship between Forecasting and Future Planning Forecasting and future planning are deeply intertwined; forecasting provides the essential foundation upon which the planning process is built.
- Informational Basis: Planning is the process of setting objectives for the future and creating a course of action to achieve them. Forecasting provides the necessary inputs for these plans, such as estimates of future demand, sales, revenue, or resource availability.
- Resource Allocation: Accurate forecasts help organizations allocate their resources (e.g., money, personnel, materials) more efficiently. For example, a sales forecast helps in planning production and inventory levels.
- Risk Mitigation: By anticipating future conditions, organizations can identify potential challenges and opportunities. This allows them to proactively plan to mitigate risks and capitalize on opportunities.
- Strategic Decisions: Forecasting guides long-term strategic decisions, such as entering new markets, launching new product lines, or expanding capacity.
In short, forecasting estimates “what might happen,” while planning determines “what we should do” about it. Without forecasting, planning would be mere guesswork.
Example An e-commerce company wants to forecast its sales for the upcoming holiday season.
- Forecasting: By analyzing sales data from the past five years, current economic trends, and planned marketing campaigns, the company forecasts a 20% increase in sales.
- Future Planning: Based on this 20% growth forecast, the company plans for:
- Procurement: Ordering 20% more stock to meet anticipated demand.
- Staffing: Hiring additional temporary staff to handle the increased traffic in warehouses and customer service.
- Marketing: Increasing the advertising budget to further boost sales.
- Logistics: Arranging for extra storage and delivery capacity.
In this example, the forecast directly informed every aspect of the plan.
A Forecasting Model: Moving Average The moving average is a simple time-series forecasting model used to smooth out short-term fluctuations and highlight longer-term trends or cycles.
- Process: It forecasts the next period’s value by taking the average of the ‘n’ most recent actual observations. As a new period’s data becomes available, the oldest data point is dropped, and the new one is included, hence the term “moving”.
- Formula (Simple Moving Average): F t+1 = (A t + A t-1 + … + A t-n+1 ) / n Where F t+1 is the forecast for the next period, and A t is the actual value in the current period.
- Example: For a 3-month moving average, the forecast for April would be (January Sales + February Sales + March Sales) / 3.
- Advantages: It is simple to understand and implement. It smooths out random fluctuations.
- Disadvantages: It lags behind trends and gives equal weight to all past observations included in the period. It is best suited for stationary time series without a strong trend or seasonality.
Q9. An IT company wants to estimate how its monthly costs are related to its monthly output rate ? For that the firm collects a data regarding its costs and outputs for a sample of nine months as given below : Production Output (tons) | Cost (in thousands of dollars) 1 | 2 2 | 3 4 | 4 8 | 7 6 | 6 5 | 5 8 | 8 9 | 8 7 | 6 (a) Calculate the best linear regression line. (b) Use this regression line to predict the firm’s monthly costs if they decide to produce 4 tons per month.
Ans. We need to calculate the best linear regression line, y = a + bx, to model the relationship between Production Output (x) and Cost (y).
(a) Calculate the best linear regression line.
Step 1: Calculate the necessary sums. Here n = 9 (number of months). x = Production Output, y = Cost
| x (Output) | y (Cost) | x² | y² | xy |
|---|---|---|---|---|
| 1 | 2 | 1 | 4 | 2 |
| 2 | 3 | 4 | 9 | 6 |
| 4 | 4 | 16 | 16 | 16 |
| 8 | 7 | 64 | 49 | 56 |
| 6 | 6 | 36 | 36 | 36 |
| 5 | 5 | 25 | 25 | 25 |
| 8 | 8 | 64 | 64 | 64 |
| 9 | 8 | 81 | 64 | 72 |
| 7 | 6 | 49 | 36 | 42 |
Σx = 50 |
Σy = 49 |
Σx² = 340 |
Σy² = 303 |
Σxy = 319 |
Step 2: Calculate the slope (b) and the intercept (a). The formula for the slope (b) is: b = [ n(Σxy) – (Σx)(Σy) ] / [ n(Σx²) – (Σx)² ] Substituting the values: b = [ 9(319) – (50)(49) ] / [ 9(340) – (50)² ] b = [ 2871 – 2450 ] / [ 3060 – 2500 ] b = 421 / 560 b ≈ 0.7518
The formula for the intercept (a) is: a = ȳ – bx̄ Where x̄ = Σx / n = 50 / 9 ≈ 5.556 And ȳ = Σy / n = 49 / 9 ≈ 5.444 a = (49/9) – (0.7518 * (50/9)) a = (49 – 0.7518 * 50) / 9 a = (49 – 37.59) / 9 a = 11.41 / 9 a ≈ 1.2678
The best linear regression line is: y = a + bx Cost = 1.2678 + 0.7518 × (Output)
(b) Predict the monthly costs for an output of 4 tons. We will use the regression equation and substitute x = 4. Cost = 1.2678 + 0.7518 × (4) Cost = 1.2678 + 3.0072 Cost = 4.275
Since the cost is in thousands of dollars, the predicted cost is 4.275 thousand dollars. Predicted Cost = 4.275 × 1000 = $4275 Therefore, using the regression line, the firm’s predicted monthly cost for producing 4 tons per month is $4,275.
Q10. Differentiate between the following: (a) Z-test and t-test (b) Correlation and Regression
Ans. (a) Difference between Z-test and t-test Both Z-test and t-test are parametric statistical tests used to test hypotheses about population means. Their key differences are:
| Basis of Difference | Z-test | t-test |
|---|---|---|
Population Variance/Standard Deviation (σ) |
Used when the population standard deviation (σ) is known . |
Used when the population standard deviation (σ) is unknown and must be estimated from the sample standard deviation (s). |
Sample Size |
Typically used for large sample sizes (n > 30). Due to the Central Limit Theorem, it can be used even if σ is unknown for large samples. | Primarily used for small sample sizes (n < 30) when σ is unknown. |
Underlying Distribution |
It is based on the Standard Normal Distribution. | It is based on the Student’s t-distribution, which depends on degrees of freedom (n-1). |
Shape of Distribution |
The standard normal curve has a fixed shape. | The t-distribution is wider and flatter than the normal distribution. It approaches the normal distribution as the sample size increases. |
(b) Difference between Correlation and Regression Both correlation and regression are used to study the relationship between two variables, but they address different questions.
| Basis of Difference | Correlation | Regression |
|---|---|---|
Purpose |
Measures the strength and direction of the linear relationship between two variables. |
Describes the nature of the relationship to predict or estimate the value of a dependent variable based on an independent variable. |
Treatment of Variables |
Treats both variables (X and Y) symmetrically. There is no distinction between dependent and independent variables. | Clearly distinguishes between a dependent (Y) and an independent (X) variable. Regressing Y on X is different from regressing X on Y. |
Causation |
Does not imply causation. A strong correlation does not mean one variable causes the other; a third variable could be involved. | Models a dependency relationship but does not prove causation either. However, the model is often built on an underlying theory of cause and effect. |
Output |
A single number, the correlation coefficient (r), which ranges from -1 to +1. | An equation (y = a + bx), known as the regression line, which can be used for prediction. |
Example |
The correlation between height and weight. | Predicting a student’s exam score based on the number of hours they studied. |
Download IGNOU previous Year Question paper download PDFs for BCS-040 to improve your preparation. These ignou solved question paper IGNOU Previous Year Question paper solved PDF in Hindi and English help you understand the exam pattern and score better.
Thanks!
Leave a Reply