The IGNOU BECE-142 Solved Question Paper PDF Download page is designed to help students access high-quality exam resources in one place. Here, you can find ignou solved question paper IGNOU Previous Year Question paper solved PDF that covers all important questions with detailed answers. This page provides IGNOU all Previous year Question Papers in one PDF format, making it easier for students to prepare effectively.
- IGNOU BECE-142 Solved Question Paper in Hindi
- IGNOU BECE-142 Solved Question Paper in English
- IGNOU Previous Year Solved Question Papers (All Courses)
Whether you are looking for IGNOU Previous Year Question paper solved in English or ignou previous year question paper solved in hindi, this page offers both options to suit your learning needs. These solved papers help you understand exam patterns, improve answer writing skills, and boost confidence for upcoming exams.
IGNOU BECE-142 Solved Question Paper PDF

This section provides IGNOU BECE-142 Solved Question Paper PDF in both Hindi and English. These ignou solved question paper IGNOU Previous Year Question paper solved PDF include detailed answers to help you understand exam patterns and improve your preparation. You can also access IGNOU all Previous year Question Papers in one PDF for quick and effective revision before exams.
IGNOU BECE-142 Previous Year Solved Question Paper in Hindi
प्रश्न 1. R² और R̅² के बीच अन्तर स्पष्ट कीजिए। (अ) AIC (एकैक सूचना कसौटी), (ब) SIC (श्वार्ज सूचना कसौटी), और (स) HQIC (हन्नान-क्विन्न सूचना कसौटी) के प्रतिमान चयन कसौटियों पर प्रतीपगमन प्रतिमान के पूर्वाकलन निष्पादन में उनकी उपादेयता पर टिप्पणी करते हुए चर्चा कीजिए।
उत्तर. R² और समायोजित R² (R̅²) में अंतर R² (निर्धारण गुणांक): R² एक सांख्यिकीय माप है जो एक प्रतिगमन मॉडल में आश्रित चर (Y) में भिन्नता के उस अनुपात का प्रतिनिधित्व करता है जिसे स्वतंत्र चरों (X) द्वारा समझाया जा सकता है। इसका मान 0 और 1 के बीच होता है।
- सूत्र: R² = ESS/TSS = 1 – RSS/TSS, जहाँ ESS समझाया गया विचरण का योग है, TSS कुल विचरण का योग है, और RSS अवशिष्ट विचरण का योग है।
- समस्या: R² की एक मुख्य कमी यह है कि जब भी मॉडल में एक नया स्वतंत्र चर जोड़ा जाता है, तो इसका मान कभी कम नहीं होता, भले ही वह चर अप्रासंगिक हो। यह मॉडल के अधिक-अनुकूलन (overfitting) का कारण बन सकता है, जिससे यह आभास होता है कि मॉडल वास्तव में जितना है उससे बेहतर है।
समायोजित R² (Adjusted R², या R̅²): समायोजित R², R² का एक संशोधित संस्करण है जो मॉडल में स्वतंत्र चरों की संख्या के लिए समायोजित होता है। यह मॉडल में अतिरिक्त चरों को जोड़ने के लिए एक दंड (penalty) लगाता है।
- सूत्र: R̅² = 1 – [(1-R²)(n-1)] / (n-k-1), जहाँ n प्रेक्षणों की संख्या है और k स्वतंत्र चरों की संख्या है।
- अंतर: R² के विपरीत, यदि जोड़ा गया नया चर मॉडल की व्याख्यात्मक शक्ति में पर्याप्त सुधार नहीं करता है तो समायोजित R² का मान घट सकता है। इसलिए, यह विभिन्न स्वतंत्र चरों की संख्या वाले मॉडलों की तुलना करने के लिए एक बेहतर माप है। एक अच्छा मॉडल वह है जिसमें R̅² का मान अधिकतम हो।
मॉडल चयन मानदंड (Model Selection Criteria) और उनकी उपयोगिता मॉडल चयन मानदंड का उपयोग प्रतिस्पर्धी मॉडलों के एक सेट में से “सर्वश्रेष्ठ” मॉडल का चयन करने के लिए किया जाता है। ये मानदंड फिट की अच्छाई (goodness-of-fit) और मॉडल की मितव्ययिता (parsimony) के बीच संतुलन बनाते हैं। आमतौर पर, जिस मॉडल के लिए इन मानदंडों का मान सबसे कम होता है, उसे प्राथमिकता दी जाती है। (a) AIC (एकैक सूचना कसौटी – Akaike Information Criterion):
- AIC सूचना सिद्धांत पर आधारित है। यह मॉडल की सापेक्ष गुणवत्ता का अनुमान लगाता है।
- सूत्र: AIC = n ln(RSS/n) + 2k
- यह अवशिष्टों के वर्ग के योग (RSS) को कम करके फिट में सुधार और मापदंडों (k) की संख्या को बढ़ाकर मॉडल की जटिलता के लिए दंड के बीच एक ट्रेड-ऑफ बनाता है। दंड पद 2k है। AIC का उद्देश्य उस मॉडल का चयन करना है जो नए डेटा के लिए सर्वश्रेष्ठ पूर्वानुमान देगा।
(b) SIC (श्वार्ज सूचना कसौटी – Schwarz Information Criterion), जिसे BIC भी कहा जाता है:
- SIC बायेसियन सिद्धांत पर आधारित है।
- सूत्र: SIC = n ln(RSS/n) + k ln(n)
- SIC भी मॉडल की जटिलता के लिए दंडित करता है, लेकिन इसका दंड पद k ln(n) है। चूंकि आमतौर पर ln(n) > 2 होता है (n ≥ 8 के लिए), SIC AIC की तुलना में अधिक मापदंडों वाले मॉडलों के लिए एक बड़ा दंड लगाता है। इसके परिणामस्वरूप, SIC AIC की तुलना में अधिक मितव्ययी (सरल) मॉडल चुनने की प्रवृत्ति रखता है।
(c) HQIC (हन्नान-क्विन्न सूचना कसौटी – Hannan-Quinn Information Criterion):
- HQIC, AIC और SIC के बीच एक मध्यस्थ है।
- सूत्र: HQIC = n ln(RSS/n) + 2k ln(ln(n))
- इसका दंड पद 2k ln(ln(n)) है। n ≥ 16 के लिए, HQIC का दंड AIC से बड़ा लेकिन SIC से छोटा होता है।
पूर्वाकलन निष्पादन में उपयोगिता: इन मानदंडों का निम्न मान फिट और जटिलता के बीच एक बेहतर संतुलन का सुझाव देता है, जो अक्सर अधिक-अनुकूलन (overfitting) से बचकर बेहतर आउट-ऑफ-सैंपल पूर्वानुमान प्रदर्शन में परिणत होता है।
- AIC पूर्वानुमान के लिए अच्छा माना जाता है क्योंकि इसका उद्देश्य उस मॉडल को खोजना है जो नए डेटा पर सबसे अच्छा प्रदर्शन करेगा।
- SIC का मजबूत दंड इसे विशेष रूप से सरल मॉडल चुनने के लिए उपयोगी बनाता है जो बेहतर सामान्यीकरण कर सकते हैं और अक्सर सही मॉडल की पहचान करने में सुसंगत होते हैं।
- HQIC इन दोनों के बीच एक संतुलन प्रदान करता है।
व्यवहार में, शोधकर्ता अक्सर तीनों मानदंडों को देखते हैं। यदि सभी एक ही मॉडल की ओर इशारा करते हैं, तो यह एक मजबूत संकेत है। यदि वे भिन्न होते हैं, तो शोधकर्ता को अपने शोध के उद्देश्य (पूर्वानुमान बनाम व्याख्या) के आधार पर निर्णय लेना चाहिए। प्रश्न 2. किस प्रकार कोयक विधि से वितरित विलंबन प्रतिमान के आकलन में अनंतगामी शृंखला समस्या को निपटाने में सहायता मिलती है ? व्याख्या कीजिए। उत्तर. वितरित विलंबन प्रतिमान (Distributed Lag Models) और अनंतगामी शृंखला समस्या एक वितरित विलंबन प्रतिमान में, एक आश्रित चर (Y) पर एक स्वतंत्र चर (X) का प्रभाव समय के साथ फैलता है। इसे इस प्रकार लिखा जा सकता है: Yt = α + β₀Xt + β₁Xt-₁ + β₂Xt-₂ + … + ut यहाँ, βk वर्तमान अवधि में Y पर X के k-अवधि के विलंबित मान के प्रभाव को मापता है। अनंतगामी शृंखला समस्या (Infinite Series Situation) तब उत्पन्न होती है जब यह माना जाता है कि X का प्रभाव अनिश्चित काल तक जारी रहता है। इसके कारण दो मुख्य समस्याएं होती हैं:
- प्राचलों की अनंत संख्या: यदि विलंबन अनंत हैं, तो हमें अनंत संख्या में β गुणांक (β₀, β₁, β₂, …) का अनुमान लगाना होगा, जो एक सीमित डेटासेट के साथ असंभव है। इससे डिग्री ऑफ फ्रीडम (degrees of freedom) की समस्या उत्पन्न होती है।
- बहुसंरेखता (Multicollinearity): विलंबित चर (Xt, Xt-₁, Xt-₂, आदि) अक्सर एक दूसरे के साथ अत्यधिक सहसंबद्ध होते हैं, जिससे व्यक्तिगत β गुणांकों का सटीक अनुमान लगाना मुश्किल हो जाता है।
कोयक विधि (Koyck’s Approach) का समाधान कोयक विधि इस अनंत श्रृंखला की समस्या को एक सरल धारणा बनाकर हल करती है।
1. ज्यामितीय गिरावट की धारणा (Assumption of Geometric Decline): कोयक ने यह माना कि विलंबन गुणांक (βk) समय के साथ एक ज्यामितीय प्रगति (geometric progression) में घटते हैं। βk = β₀λᵏ , जहाँ k = 0, 1, 2, … और 0 < λ < 1 । यहाँ, λ को ‘विलंबन की गिरावट की दर’ (rate of decay) कहा जाता है, और (1-λ) को ‘समायोजन की गति’ (speed of adjustment) कहा जाता है। यह धारणा सुनिश्चित करती है कि दूर के चरों का प्रभाव कम होता जाता है।
2. कोयक रूपांतरण (Koyck Transformation): इस धारणा का उपयोग करके, मूल वितरित विलंबन मॉडल को फिर से लिखा जा सकता है: Yt = α + β₀Xt + β₀λXt-₁ + β₀λ²Xt-₂ + … + ut —(1)
अब, कोयक रूपांतरण में निम्नलिखित चरण शामिल हैं:
- समीकरण (1) को एक अवधि के लिए विलंबित करें और λ से गुणा करें: λYt-₁ = λα + λβ₀Xt-₁ + λβ₀λXt-₂ + … + λut-₁ —(2)
- समीकरण (2) को समीकरण (1) से घटाएं: Yt – λYt-₁ = (α – λα) + β₀Xt + (ut – λut-₁)
- पुनर्व्यवस्थित करने पर, हमें अंतिम कोयक मॉडल मिलता है: Yt = α(1-λ) + β₀Xt + λYt-₁ + vt , जहाँ vt = ut – λut-₁
कैसे कोयक विधि सहायता करती है:
- प्राचलों की कमी: कोयक रूपांतरण अनंत विलंबन वाले मॉडल को एक सरल स्व-प्रतिगामी वितरित विलंबन (Autoregressive Distributed Lag – ADL) मॉडल में बदल देता है। अब हमें अनंत βs का अनुमान लगाने के बजाय केवल तीन मापदंडों का अनुमान लगाने की आवश्यकता है: एक इंटरसेप्ट [α(1-λ)], अल्पकालिक प्रभाव (β₀), और विलंबित आश्रित चर का गुणांक (λ)।
- समस्या का समाधान: एक बार λ का अनुमान लग जाने के बाद, हम सभी मूल विलंबन गुणांकों (βk = β₀λᵏ) की गणना कर सकते हैं। इसने अनंत श्रृंखला और बहुसंरेखता की समस्याओं को प्रभावी ढंग से हल कर दिया है।
एक चेतावनी: यद्यपि कोयक विधि एक सुरुचिपूर्ण समाधान प्रदान करती है, लेकिन यह एक नई समस्या पैदा करती है। नया त्रुटि पद (vt = ut – λut-₁) प्रतिगामी (regressor) Yt-₁ के साथ सहसंबद्ध है। इसके कारण, साधारण न्यूनतम वर्ग (OLS) के अनुमान पक्षपाती और असंगत होते हैं। इस समस्या को हल करने के लिए वाद्य चर (Instrumental Variables – IV) जैसी उन्नत तकनीकों की आवश्यकता होती है। प्रश्न 3. तार्किक प्राचलों की व्याख्या को समझाइए। उत्तर. लॉजिस्टिक रिग्रेशन (या लॉगिट मॉडल) का उपयोग तब किया जाता है जब आश्रित चर द्विआधारी (binary) होता है, अर्थात इसके केवल दो संभावित परिणाम होते हैं (जैसे 1/0, हाँ/नहीं, सफल/विफल)। लॉजिस्टिक मॉडल सीधे परिणाम की भविष्यवाणी नहीं करता है, बल्कि किसी विशेष परिणाम के घटित होने की संभावना (probability) का अनुमान लगाता है। लॉगिट मॉडल का रूप है: P(Y=1 | X) = 1 / (1 + e⁻ᶻ) , जहाँ Z = β₀ + β₁X₁ + … + βₖXₖ यहाँ, P(Y=1 | X) दिए गए स्वतंत्र चरों (X) के लिए Y=1 होने की संभावना है। Z को लॉगिट कहा जाता है। Z को इस रूप में भी लिखा जा सकता है: ln(P / (1-P)) = β₀ + β₁X₁ + … + βₖXₖ यहाँ, (P / (1-P)) ऑड्स (odds) है, और ln(P / (1-P)) लॉग-ऑड्स (log-odds) है। तार्किक प्राचलों (β) की व्याख्या: लॉजिस्टिक रिग्रेशन में गुणांकों (β) की व्याख्या रैखिक रिग्रेशन की तुलना में कम सीधी होती है।
1. दिशा और महत्व (Direction and Significance):
- गुणांक का चिह्न (Sign): β गुणांक का चिह्न स्वतंत्र चर और परिणाम के लॉग-ऑड्स के बीच संबंध की दिशा बताता है।
- यदि β > 0 , तो स्वतंत्र चर में वृद्धि से घटना के घटित होने के लॉग-ऑड्स (और इस प्रकार संभावना) में वृद्धि होती है।
- यदि β < 0 , तो स्वतंत्र चर में वृद्धि से घटना के घटित होने के लॉग-ऑड्स में कमी आती है।
- यदि β = 0 , तो चर का परिणाम पर कोई प्रभाव नहीं पड़ता है।
- महत्व (Significance): p-मान यह निर्धारित करने में मदद करता है कि क्या किसी चर का प्रभाव सांख्यिकीय रूप से महत्वपूर्ण है।
2. लॉग-ऑड्स के रूप में व्याख्या: एक गुणांक, जैसे कि β₁, स्वतंत्र चर X₁ में एक-इकाई परिवर्तन के लिए लॉग-ऑड्स में परिवर्तन का प्रतिनिधित्व करता है, जबकि अन्य सभी चर स्थिर रहते हैं। उदाहरण: यदि β₁ = 0.5 है, तो X₁ में एक-इकाई वृद्धि से घटना के घटित होने का लॉग-ऑड्स 0.5 बढ़ जाता है। यह व्याख्या गणितीय रूप से सटीक है लेकिन सहज रूप से समझना मुश्किल है।
3. ऑड्स अनुपात (Odds Ratio) के रूप में व्याख्या (अधिक सहज): एक अधिक सहज व्याख्या ऑड्स अनुपात (Odds Ratio – OR) का उपयोग करके की जाती है, जिसकी गणना e^β के रूप में की जाती है।
- ऑड्स अनुपात वह गुणक कारक है जिससे स्वतंत्र चर में एक-इकाई वृद्धि के लिए घटना के ऑड्स में परिवर्तन होता है।
- यदि β₁ = 0.5 , तो ऑड्स अनुपात e⁰.⁵ ≈ 1.65 है। इसका अर्थ है कि X₁ में प्रत्येक एक-इकाई वृद्धि के लिए, घटना के घटित होने की संभावना (ऑड्स) 1.65 गुना बढ़ जाती है (या 65% बढ़ जाती है), अन्य सभी चरों को स्थिर रखते हुए।
- यदि β₁ = -0.4 , तो ऑड्स अनुपात e⁻⁰.⁴ ≈ 0.67 है। इसका अर्थ है कि X₁ में प्रत्येक एक-इकाई वृद्धि के लिए, ऑड्स 0.67 के कारक से गुणा हो जाते हैं (या 33% कम हो जाते हैं)।
- यदि β₁ = 0 , तो ऑड्स अनुपात e⁰ = 1 है, जिसका अर्थ है कि ऑड्स में कोई परिवर्तन नहीं होता है।
यह ध्यान रखना महत्वपूर्ण है कि लॉजिस्टिक गुणांक संभाव्यता पर एक रैखिक प्रभाव का प्रतिनिधित्व नहीं करते हैं; प्रभाव गैर-रैखिक (S-आकार का) होता है। इसलिए, “सीमांत प्रभाव” (marginal effects) की गणना अक्सर एक चर में परिवर्तन के कारण संभाव्यता में वास्तविक परिवर्तन को समझने के लिए की जाती है। प्रश्न 4. फलक खंड प्रतीपगमन में “स्थिर प्रभाव प्रतिमान’ और ‘यादृच्छिक प्रभाव प्रतिमान’ की विशेषताओं की चर्चा कीजिए। उत्तर. पैनल डेटा (या अनुदैर्ध्य डेटा) में समय के साथ कई इकाइयों (जैसे व्यक्ति, फर्म, देश) पर अवलोकन शामिल होते हैं। पैनल रिग्रेशन मॉडल इन इकाइयों के बीच अनअवलोकित विषमता (unobserved heterogeneity) को नियंत्रित करने में मदद करते हैं। यह अनअवलोकित विषमता को एक व्यक्तिगत-विशिष्ट त्रुटि पद (aᵢ) के रूप में तैयार किया जाता है। स्थिर प्रभाव (Fixed Effect – FE) और यादृच्छिक प्रभाव (Random Effect – RE) मॉडल इस पद aᵢ से निपटने के दो अलग-अलग तरीके हैं। स्थिर प्रभाव प्रतिमान (Fixed Effect Model – FE) FE मॉडल मानता है कि प्रत्येक इकाई का अनअवलोकित प्रभाव (aᵢ) एक स्थिर, अद्वितीय पैरामीटर है जिसका अनुमान लगाया जा सकता है। विशेषताएँ:
- मुख्य धारणा: सबसे महत्वपूर्ण धारणा यह है कि अनअवलोकित प्रभाव aᵢ प्रतिगमन में शामिल स्वतंत्र चरों Xit के साथ सहसंबद्ध (correlated) हो सकता है । अर्थात्, Cov(Xit, aᵢ) ≠ 0। यह उन स्थितियों के लिए FE मॉडल को उपयुक्त बनाता है जहाँ समय के साथ स्थिर रहने वाले अनअवलोकित कारक (जैसे व्यक्ति की क्षमता, फर्म का प्रबंधन कौशल) स्वतंत्र चरों को प्रभावित कर सकते हैं।
- अनुमान विधि: FE मॉडल aᵢ को समाप्त करके अनुमान लगाया जाता है। यह आमतौर पर “विदिन ट्रांसफॉर्मेशन” (within transformation) के माध्यम से किया जाता है, जहाँ प्रत्येक चर से उसकी इकाई-विशिष्ट माध्य (time-mean) घटा दी जाती है। इससे केवल समय के भीतर की भिन्नता (within-unit variation) का उपयोग होता है। (Yit – Ȳi) = β(Xit – X̄i) + (uit – ūi)
- समय-अपरिवर्तनीय चरों का अनुमान नहीं: चूँकि FE मॉडल समय के साथ स्थिर कारकों को समाप्त कर देता है, यह उन स्वतंत्र चरों के प्रभाव का अनुमान नहीं लगा सकता है जो समय के साथ नहीं बदलते हैं (जैसे लिंग, जाति, या किसी फर्म का उद्योग)।
- संगतता (Consistency): यदि aᵢ और Xit सहसंबद्ध हैं, तो FE अनुमानक β के लिए संगत (consistent) अनुमान प्रदान करता है।
- दक्षता (Efficiency): यह RE मॉडल की तुलना में कम कुशल होता है यदि RE की धारणाएँ सही हों, क्योंकि यह डेटा में “बिटवीन” (between-unit) भिन्नता का उपयोग नहीं करता है।
यादृच्छिक प्रभाव प्रतिमान (Random Effect Model – RE) RE मॉडल मानता है कि अनअवलोकित प्रभाव (aᵢ) एक यादृच्छिक चर है जो एक निश्चित वितरण से लिया गया है और नमूने का हिस्सा है। विशेषताएँ:
- मुख्य धारणा: सबसे महत्वपूर्ण धारणा यह है कि अनअवलोकित प्रभाव aᵢ स्वतंत्र चरों Xit के साथ सहसंबद्ध नहीं (uncorrelated) है। अर्थात्, Cov(Xit, aᵢ) = 0।
- अनुमान विधि: RE मॉडल का अनुमान सामान्यीकृत न्यूनतम वर्ग (Generalized Least Squares – GLS) का उपयोग करके लगाया जाता है। यह विधि “विदिन” और “बिटवीन” भिन्नता दोनों का भारित औसत उपयोग करती है, जो इसे FE से अधिक कुशल बनाती है (यदि इसकी धारणा सही है)। त्रुटि पद को एक समग्र त्रुटि (aᵢ + uit) के रूप-घटक के रूप में माना जाता है।
- समय-अपरिवर्तनीय चरों का अनुमान: FE के विपरीत, RE मॉडल समय के साथ स्थिर रहने वाले चरों (जैसे लिंग, शिक्षा) के प्रभावों का अनुमान लगा सकता है।
- असंगतता का जोखिम: यदि मुख्य धारणा (Cov(Xit, aᵢ) = 0) का उल्लंघन होता है, तो RE अनुमानक पक्षपाती (biased) और असंगत (inconsistent) हो जाएगा।
- दक्षता: यदि इसकी धारणाएँ सही हैं, तो RE अनुमानक FE अनुमानक की तुलना में अधिक कुशल (अर्थात, इसमें कम भिन्नता होती है) होता है।
FE बनाम RE का चुनाव: इन दोनों मॉडलों के बीच का चुनाव हॉसमैन टेस्ट (Hausman Test) पर निर्भर करता है। हॉसमैन टेस्ट की शून्य परिकल्पना (null hypothesis) यह है कि RE मॉडल उपयुक्त है (यानी, aᵢ और Xit के बीच कोई सहसंबंध नहीं है)।
- यदि टेस्ट शून्य परिकल्पना को अस्वीकार करता है (p-value < 0.05), तो हमें स्थिर प्रभाव (FE) मॉडल का उपयोग करना चाहिए।
- यदि टेस्ट शून्य परिकल्पना को अस्वीकार करने में विफल रहता है, तो हम यादृच्छिक प्रभाव (RE) मॉडल का उपयोग कर सकते हैं, क्योंकि यह अधिक कुशल है।
भाग-ख प्रश्न 5. ‘शोध अभिकल्पना’ और ‘शोध विधि’ के बीच अन्तर स्पष्ट कीजिए।
उत्तर. ‘शोध अभिकल्पना’ (Research Design) और ‘शोध विधि’ (Research Methods) दो महत्वपूर्ण और संबंधित अवधारणाएँ हैं, लेकिन वे अनुसंधान प्रक्रिया के विभिन्न पहलुओं को संदर्भित करती हैं। शोध अभिकल्पना (Research Design) शोध अभिकल्पना अनुसंधान का समग्र ढांचा या खाका (blueprint) है। यह एक तार्किक योजना है जो शोध प्रश्नों को डेटा के संग्रह और विश्लेषण से जोड़ती है। यह मुख्य रूप से ‘क्या’ और ‘क्यों’ के सवालों का जवाब देती है।
- उद्देश्य: इसका मुख्य उद्देश्य यह सुनिश्चित करना है कि शोधकर्ता द्वारा एकत्र किए गए साक्ष्य शोध प्रश्नों का यथासंभव स्पष्ट रूप से उत्तर दे सकें। यह वैधता (validity) और विश्वसनीयता (reliability) सुनिश्चित करने के लिए एक रणनीति है।
- दायरा: यह व्यापक और रणनीतिक है। इसमें शोध के प्रकार (जैसे, प्रयोगात्मक, वर्णनात्मक, सहसंबंधात्मक), नमूनाकरण रणनीति, डेटा संग्रह का समय और स्थान, और विश्लेषण की सामान्य योजना शामिल होती है।
- उदाहरण: प्रयोगात्मक अभिकल्पना, अर्ध-प्रयोगात्मक अभिकल्पना, अनुप्रस्थ-काट अभिकल्पना (cross-sectional design), अनुदैर्ध्य अभिकल्पना (longitudinal design), और केस स्टडी अभिकल्पना।
- सादृश्य: शोध अभिकल्पना एक घर के लिए वास्तुकार के ब्लूप्रिंट की तरह है। यह घर की समग्र संरचना, कमरों की संख्या, और उनके आपसी संबंध को दर्शाता है।
शोध विधि (Research Methods) शोध विधियाँ डेटा एकत्र करने और विश्लेषण करने के लिए उपयोग किए जाने वाले विशिष्ट उपकरण, तकनीकें और प्रक्रियाएं हैं। ये शोध अभिकल्पना को लागू करने के व्यावहारिक चरण हैं। यह ‘कैसे’ के सवाल का जवाब देती है।
- उद्देश्य: इसका उद्देश्य शोध अभिकल्पना में निर्धारित योजना को क्रियान्वित करना है।
- दायरा: यह संकीर्ण और तकनीकी है। इसमें डेटा संग्रह और विश्लेषण के लिए उपयोग किए जाने वाले विशिष्ट उपकरण शामिल होते हैं।
- घटक:
- डेटा संग्रह की विधियाँ: सर्वेक्षण, साक्षात्कार, प्रश्नावली, अवलोकन, प्रयोग, अभिलेखीय डेटा।
- डेटा विश्लेषण की विधियाँ: सांख्यिकीय परीक्षण (जैसे, टी-टेस्ट, एनोवा), प्रतिगमन विश्लेषण, गुणात्मक सामग्री विश्लेषण।
- सादृश्य: शोध विधियाँ ब्लूप्रिंट के अनुसार घर बनाने के लिए बिल्डर के औजारों और तकनीकों (जैसे, हथौड़ा, आरी, कंक्रीट मिश्रण) की तरह हैं।
मुख्य अंतर का सारांश:
विशेषता शोध अभिकल्पना शोध विधि प्रकृति योजना और संरचना (Planning and Structure) निष्पादन और उपकरण (Execution and Tools) फोकस तर्क, रूपरेखा, वैधता तकनीकें, प्रक्रियाएं, उपकरण दायरा मैक्रो (Macro), रणनीतिक माइक्रो (Micro), सामरिक समय अनुसंधान की शुरुआत में तय किया जाता है डेटा संग्रह और विश्लेषण के दौरान लागू किया जाता है संक्षेप में, शोध अभिकल्पना एक रणनीतिक योजना है, जबकि शोध विधियाँ उस योजना को क्रियान्वित करने के लिए उपयोग की जाने वाली तकनीकें हैं। एक सफल शोध परियोजना के लिए दोनों का सुसंगत होना आवश्यक है। प्रश्न 6. आश्रित (निर्भर) चरों के मापन में त्रुटियों के परिणाम को स्पष्ट कीजिए।
उत्तर. अर्थमिति में, मापन त्रुटि (measurement error) तब होती है जब हमारे द्वारा उपयोग किए जाने वाले डेटा में चरों के वास्तविक मान सटीक रूप से परिलक्षित नहीं होते हैं। मापन त्रुटि आश्रित चर (dependent variable) या स्वतंत्र चर (independent variable) में हो सकती है। यहाँ हम आश्रित चर में मापन त्रुटि के परिणामों पर ध्यान केंद्रित करेंगे। मान लीजिए कि सही प्रतिगमन मॉडल है: Y*ᵢ = β₀ + β₁Xᵢ + uᵢ जहाँ Y*ᵢ आश्रित चर का सही, लेकिन अनअवलोकित मान है, Xᵢ स्वतंत्र चर है, और uᵢ त्रुटि पद है। अब, मान लीजिए कि हम Y ᵢ को सीधे नहीं माप सकते। इसके बजाय, हम Yᵢ को मापते हैं, जो मापन त्रुटि (eᵢ) के साथ Y ᵢ का मान है: Yᵢ = Y*ᵢ + eᵢ यहाँ, eᵢ मापन त्रुटि है। हम आमतौर पर मानते हैं कि eᵢ एक यादृच्छिक चर है जिसका माध्य शून्य है (E(eᵢ) = 0), यह Xᵢ, uᵢ, और Y*ᵢ से असंबद्ध (uncorrelated) है। जब हम Yᵢ को Y*ᵢ के स्थान पर प्रतिगमन में उपयोग करते हैं, तो अनुमानित मॉडल बन जाता है: Yᵢ = β₀ + β₁Xᵢ + uᵢ + eᵢ इसे इस प्रकार लिखा जा सकता है: Yᵢ = β₀ + β₁Xᵢ + vᵢ , जहाँ vᵢ = uᵢ + eᵢ एक नया, समग्र त्रुटि पद है। आश्रित चर में मापन त्रुटि के परिणाम:
1. गुणांक अनुमानों पर प्रभाव (Effect on Coefficient Estimates):
- साधारण न्यूनतम वर्ग (OLS) के माध्यम से प्राप्त गुणांकों (β₀ और β₁) के अनुमान निष्पक्ष (unbiased) और संगत (consistent) बने रहते हैं।
- इसका कारण यह है कि मापन त्रुटि eᵢ केवल समग्र त्रुटि पद vᵢ में जुड़ जाती है। जब तक मापन त्रुटि eᵢ स्वतंत्र चर Xᵢ से असंबद्ध है (जो एक मानक धारणा है), OLS की मुख्य धारणा [Cov(Xᵢ, vᵢ) = 0] बनी रहती है। Cov(Xᵢ, vᵢ) = Cov(Xᵢ, uᵢ + eᵢ) = Cov(Xᵢ, uᵢ) + Cov(Xᵢ, eᵢ) = 0 + 0 = 0।
- इसलिए, स्वतंत्र चर में मापन त्रुटि के विपरीत, जो अनुमानों में पक्षपात का कारण बनती है, आश्रित चर में मापन त्रुटि कम गंभीर होती है।
2. अनुमानों की प्रसरण पर प्रभाव (Effect on Variance of Estimates):
- यद्यपि अनुमान निष्पक्ष रहते हैं, वे कम कुशल (less efficient) हो जाते हैं।
- नए त्रुटि पद vᵢ का प्रसरण मूल त्रुटि पद uᵢ के प्रसरण से अधिक होता है: Var(vᵢ) = Var(uᵢ + eᵢ) = Var(uᵢ) + Var(eᵢ) = σ²ᵤ + σ²ₑ (यह मानते हुए कि uᵢ और eᵢ असंबद्ध हैं)।
- त्रुटि पद के बढ़े हुए प्रसरण के कारण, अनुमानित गुणांकों (β̂₁) का प्रसरण भी बढ़ जाता है। इसका मतलब है कि हमारे अनुमान कम सटीक होंगे।
- मानक त्रुटियाँ (standard errors) बड़ी होंगी, और t-सांख्यिकी छोटी होगी, जिससे सांख्यिकीय रूप से महत्वपूर्ण परिणाम प्राप्त करना अधिक कठिन हो जाएगा।
3. मॉडल की फिट पर प्रभाव (Effect on Model Fit):
- त्रुटि प्रसरण में वृद्धि के कारण, अवशिष्ट वर्ग का योग (Residual Sum of Squares – RSS) बड़ा होगा।
- परिणामस्वरूप, मॉडल का R² (और समायोजित R²) उस मान से कम होगा जो सही Y*ᵢ के साथ प्राप्त होता। मॉडल की व्याख्यात्मक शक्ति कम प्रतीत होगी।
निष्कर्ष: आश्रित चर में यादृच्छिक मापन त्रुटि गुणांकों को पक्षपाती नहीं बनाती है, लेकिन यह अनुमानों की सटीकता को कम करती है और मॉडल के फिट को कमजोर करती है। प्रश्न 7. ‘उपायोजनशील प्रत्याशाएँ प्रतिमान’ की विशेषताओं को प्रकाशित कीजिए।
उत्तर. उपायोजनशील प्रत्याशाएँ प्रतिमान (Adaptive Expectations Model) एक आर्थिक सिद्धांत है जो बताता है कि लोग भविष्य की आर्थिक चरों (जैसे मुद्रास्फीति, आय) के बारे में अपनी अपेक्षाएँ कैसे बनाते हैं। यह विशेष रूप से उन स्थितियों में उपयोगी है जहाँ अपेक्षाएँ सीधे अवलोकनीय नहीं होती हैं। इस प्रतिमान का विकास फिलिप केगन (Phillip Cagan) और मिल्टन फ्रीडमैन (Milton Friedman) जैसे अर्थशास्त्रियों द्वारा किया गया था। प्रतिमान का मूल विचार: मूल विचार यह है कि आर्थिक एजेंट अपनी भविष्य की अपेक्षाओं को अपनी पिछली पूर्वानुमान त्रुटियों के आधार पर धीरे-धीरे समायोजित करते हैं। वे अपनी पिछली अवधि की अपेक्षा और उस अवधि के वास्तविक परिणाम के बीच के अंतर से सीखते हैं। गणितीय सूत्रीकरण: मान लीजिए Y*t अवधि t के लिए Y के अपेक्षित मान को दर्शाता है, जिसे अवधि t-1 में बनाया गया था। Yt-₁ अवधि t-1 में Y का वास्तविक मान है। उपायोजनशील प्रत्याशा परिकल्पना को इस प्रकार लिखा जा सकता है: Y t – Y t-₁ = γ(Yt-₁ – Y*t-₁) , जहाँ 0 < γ ≤ 1 । इस समीकरण का अर्थ है: अपेक्षाओं में संशोधन (बायाँ पक्ष) पिछली पूर्वानुमान त्रुटि (दायाँ कोष्ठक) का एक अंश (γ) है।
- γ (गामा) ‘समायोजन का गुणांक’ (coefficient of adjustment) है।
- यदि γ = 1, तो एजेंट अपनी अपेक्षाओं को पूरी तरह से और तुरंत समायोजित करते हैं: Y*t = Yt-₁।
- यदि γ = 0, तो एजेंट अपनी त्रुटियों से कभी नहीं सीखते और अपनी अपेक्षाओं को कभी संशोधित नहीं करते।
‘उपायोजनशील प्रत्याशाएँ प्रतिमान’ की मुख्य विशेषताएँ:
1. पश्च-मुखी (Backward-Looking): अपेक्षाएँ पूरी तरह से चर के पिछले मानों पर आधारित होती हैं। यह भविष्य के बारे में किसी भी नई जानकारी (जैसे, घोषित सरकारी नीतियां) को शामिल नहीं करता है, जो इसकी एक प्रमुख सीमा है। यह तर्कसंगत अपेक्षाओं (rational expectations) के प्रतिमान के विपरीत है।
2. ज्यामितीय विलंबन संरचना (Geometric Lag Structure): समीकरण को पुनर्व्यवस्थित करने पर, Y t = γYt-₁ + (1-γ)Y t-₁ मिलता है। यदि हम इस प्रक्रिया को बार-बार दोहराते हैं, तो यह दिखाया जा सकता है कि वर्तमान अपेक्षा सभी पिछले वास्तविक मानों का एक ज्यामितीय रूप से भारित औसत है: Y*t = γYt-₁ + γ(1-γ)Yt-₂ + γ(1-γ)²Yt-₃ + … इसमें, हाल के अवलोकनों को अधिक भार दिया जाता है और दूर के अवलोकनों का प्रभाव ज्यामितीय रूप से कम हो जाता है।
3. अर्थमितीय अनुप्रयोग: इस प्रतिमान का उपयोग अक्सर उन मॉडलों में किया जाता है जहाँ एक चर अपेक्षाओं पर निर्भर करता है, जैसे कि उपभोग फलन (Ct = β₀ + β₁Y t + ut)। इस समीकरण को सीधे अनुमानित नहीं किया जा सकता क्योंकि Y t अवलोकनीय नहीं है। उपायोजनशील प्रत्याशा सूत्र को प्रतिस्थापित करने और कोयक रूपांतरण के समान एक परिवर्तन करने से, हम एक अनुमान योग्य समीकरण प्राप्त करते हैं: Ct = γβ₀ + γβ₁Yt-₁ + (1-γ)Ct-₁ + [ut – (1-γ)ut-₁] यह एक स्व-प्रतिगामी मॉडल है जिसका अनुमान लगाया जा सकता है, यद्यपि इसमें त्रुटि पद की संरचना के कारण अनुमान संबंधी समस्याएं होती हैं।
4. व्यवस्थित त्रुटियाँ (Systematic Errors): इस प्रतिमान की एक बड़ी आलोचना यह है कि यह व्यवस्थित पूर्वानुमान त्रुटियों को जन्म दे सकता है। उदाहरण के लिए, यदि मुद्रास्फीति लगातार बढ़ रही है, तो उपायोजनशील अपेक्षाएँ हमेशा वास्तविक मुद्रास्फीति को कम आंकेंगी क्योंकि वे केवल अतीत को देख रही हैं।
प्रश्न 8. ‘अभिज्ञान (पहचान) की समस्या’ का क्या अर्थ है ? व्याख्या कीजिए |
उत्तर. अभिज्ञान (पहचान) की समस्या (Identification Problem) अर्थमिति में एक मौलिक अवधारणा है, जो विशेष रूप से युगपत समीकरण मॉडल (Simultaneous Equation Models – SEMs) के संदर्भ में उत्पन्न होती है। सरल शब्दों में, यह समस्या इस बात से संबंधित है कि क्या हम उपलब्ध डेटा से किसी मॉडल के संरचनात्मक मापदंडों (structural parameters) के अद्वितीय संख्यात्मक मान प्राप्त कर सकते हैं। समस्या का संदर्भ: एक सरल बाजार मांग और पूर्ति मॉडल पर विचार करें:
- मांग समीकरण: Qd = α₀ + α₁P + u₁ (α₁ < 0)
- पूर्ति समीकरण: Qs = β₀ + β₁P + u₂ (β₁ > 0)
- संतुलन की स्थिति: Qd = Qs = Q
यहाँ, कीमत (P) और मात्रा (Q) अंतर्जात चर (endogenous variables) हैं, क्योंकि वे मॉडल के भीतर एक साथ निर्धारित होते हैं। α₀, α₁, β₀, और β₁ संरचनात्मक प्राचल (structural parameters) हैं, जिनका हम अनुमान लगाना चाहते हैं। समस्या क्या है?
- हम केवल उन संतुलन बिंदुओं (P, Q) का अवलोकन करते हैं जहाँ मांग और पूर्ति वक्र प्रतिच्छेद करते हैं। ये डेटा बिंदु मांग और पूर्ति वक्रों दोनों में बदलाव (त्रुटि पदों u₁ और u₂ के कारण) के परिणाम हैं।
- यदि हम केवल P और Q के अवलोकित डेटा पर एक साधारण न्यूनतम वर्ग (OLS) प्रतिगमन चलाते हैं, तो हम न तो मांग वक्र का और न ही पूर्ति वक्र का अनुमान लगा रहे होते हैं। वास्तव में, हम इन दोनों के एक मिश्रण का अनुमान लगा रहे होते हैं।
- हम नहीं जानते कि क्या P में परिवर्तन मांग में बदलाव के कारण हुआ है या पूर्ति में बदलाव के कारण। इस प्रकार, केवल (P, Q) डेटा बिंदुओं का एक प्रकीर्ण आरेख (scatter plot) हमें यह नहीं बता सकता है कि मांग वक्र कौन सा है और पूर्ति वक्र कौन सा है। यही अभिज्ञान की समस्या है।
लघुकृत रूप (Reduced Form): इस समस्या से निपटने के लिए, हम मॉडल के लघुकृत रूप समीकरणों को प्राप्त करते हैं, जिसमें प्रत्येक अंतर्जात चर को केवल बहिर्जात चरों (exogenous variables) और त्रुटि पदों के रूप में व्यक्त किया जाता है। इन लघुकृत रूप के गुणांकों का OLS द्वारा संगत रूप से अनुमान लगाया जा सकता है। अभिज्ञान की समस्या यह है कि: क्या हम इन अनुमानित लघुकृत रूप के गुणांकों से वापस जाकर मूल संरचनात्मक गुणांकों (αs और βs) के लिए अद्वितीय मान प्राप्त कर सकते हैं? अभिज्ञान की स्थितियाँ (States of Identification):
- अनाश्रित (Under-identified / Unidentified): यदि संरचनात्मक मापदंडों के लिए अद्वितीय मान प्राप्त करना असंभव है। इस स्थिति में समीकरण का अनुमान नहीं लगाया जा सकता है। ऊपर दिए गए सरल मॉडल में, मांग और पूर्ति दोनों समीकरण अनाश्रित हैं।
- पूर्ण आश्रित (Exactly identified / Just-identified): यदि लघुकृत रूप के गुणांकों से प्रत्येक संरचनात्मक मापदंड के लिए ठीक एक अद्वितीय मान प्राप्त किया जा सकता है।
- अति-आश्रित (Over-identified): यदि संरचनात्मक मापदंडों की गणना करने के लिए एक से अधिक तरीके हैं। यह मॉडल पर परीक्षण योग्य प्रतिबंध प्रदान करता है और 2SLS (Two-Stage Least Squares) जैसी अनुमान विधियों का उपयोग करने की अनुमति देता है।
अभिज्ञान के लिए शर्तें (Conditions for Identification): किसी समीकरण के अभिज्ञान के लिए, उसमें कुछ बहिर्जात चर होने चाहिए जो मॉडल के अन्य समीकरणों में मौजूद नहीं हैं। इन शर्तों को औपचारिक रूप से कोटि शर्त (Order Condition) और पद शर्त (Rank Condition) के माध्यम से जांचा जाता है। कोटि शर्त एक आवश्यक लेकिन पर्याप्त शर्त नहीं है, जबकि पद शर्त एक आवश्यक और पर्याप्त शर्त है। प्रश्न 9. एक आनुषांगिक सहायक (साधन स्वरूप) (IV) चर द्वारा संतुष्ट होने वाली शर्तें बताइए। अनुषांगिक सहायक (IV) चर विधि की मान्यताएँ और विशेषताएँ भी बताइए।
उत्तर. आनुषांगिक सहायक चर (Instrumental Variable – IV) विधि एक अर्थमितीय तकनीक है जिसका उपयोग तब किया जाता है जब एक प्रतिगमन मॉडल में एक स्वतंत्र चर (regressor) त्रुटि पद के साथ सहसंबद्ध होता है, जिससे वह चर अंतर्जात (endogenous) हो जाता है। यह अंतर्जातता छोड़े गए चर पक्षपात, मापन त्रुटि या युगपतता के कारण हो सकती है। IV विधि इस अंतर्जातता की समस्या को हल करके संगत (consistent) अनुमानक प्रदान करती है। एक वैध आनुषांगिक सहायक चर (IV) के लिए शर्तें: मान लीजिए हमारे पास मॉडल Y = β₀ + β₁X + u है, जहाँ X अंतर्जात है (Cov(X, u) ≠ 0)। एक चर Z को X के लिए एक वैध साधन (instrument) होने के लिए निम्नलिखित दो शर्तों को पूरा करना होगा:
1. प्रासंगिकता की शर्त (Relevance Condition):
- साधन (Z) अंतर्जात स्वतंत्र चर (X) के साथ सहसंबद्ध (correlated) होना चाहिए।
- गणितीय रूप से, Cov(Z, X) ≠ 0 ।
- इसका मतलब है कि साधन में भिन्नता का X में भिन्नता से संबंधित होना चाहिए। यदि यह सहसंबंध कमजोर है, तो Z एक “कमजोर साधन” (weak instrument) कहलाता है, जो IV अनुमानों में बड़े परिमित-नमूना पक्षपात और बड़ी मानक त्रुटियों का कारण बन सकता है। व्यवहार में, प्रथम-चरण प्रतिगमन (X को Z पर प्रतिगमन) में F-सांख्यिकी का मान 10 से अधिक होने को एक मजबूत साधन का संकेत माना जाता है।
2. बहिर्जातता की शर्त (Exogeneity Condition) या अपवर्जन प्रतिबंध (Exclusion Restriction):
- साधन (Z) मूल मॉडल के त्रुटि पद (u) के साथ असंबद्ध (uncorrelated) होना चाहिए।
- गणितीय रूप से, Cov(Z, u) = 0 ।
- इसका अर्थ यह है कि साधन Z आश्रित चर Y को केवल अंतर्जात चर X के माध्यम से ही प्रभावित करता है। इसका Y पर कोई प्रत्यक्ष प्रभाव नहीं होना चाहिए और न ही यह u में शामिल किसी भी छोड़े गए चर से सहसंबद्ध होना चाहिए।
- यह शर्त सीधे परीक्षण योग्य नहीं है क्योंकि u अवलोकनीय नहीं है। इसकी वैधता को आर्थिक सिद्धांत और तर्कों के आधार पर स्थापित किया जाना चाहिए।
IV विधि की मान्यताएँ और विशेषताएँ: मान्यताएँ (Assumptions):
- मॉडल मापदंडों में रैखिक है।
- डेटा एक यादृच्छिक नमूना है।
- एक या अधिक वैध साधनों का अस्तित्व (जो प्रासंगिकता और बहिर्जातता की शर्तों को पूरा करते हैं)।
- बहिर्जात चरों और साधनों के बीच कोई पूर्ण बहुसंरेखता नहीं है।
- (मानक अनुमान के लिए) त्रुटि पद समरूप प्रसरण वाला (homoscedastic) है। यदि नहीं, तो हेटेरोस्केडास्टिसिटी-रोबस्ट मानक त्रुटियों का उपयोग किया जाना चाहिए।
विशेषताएँ (Properties):
- संगतता (Consistency): IV अनुमानक की सबसे महत्वपूर्ण संपत्ति यह है कि यह संगत होता है। जैसे-जैसे नमूना आकार (n) अनंत की ओर बढ़ता है, IV अनुमानक (β̂_IV) सही पैरामीटर मान (β) की ओर अभिसरण करता है।
- परिमित नमूनों में पक्षपात (Bias in Finite Samples): IV अनुमानक आमतौर पर छोटे या परिमित नमूनों में पक्षपाती (biased) होता है। यह पक्षपात तब कम होता है जब साधन मजबूत होता है। OLS भी पक्षपाती है, लेकिन IV का पक्षपात आमतौर पर कम होता है, और OLS के विपरीत, IV संगत है।
- असिम्टोटिक नॉर्मलता (Asymptotic Normality): बड़े नमूनों में, IV अनुमानक का प्रतिचयन वितरण लगभग सामान्य होता है। यह हमें परिकल्पना परीक्षण (t-परीक्षण, F-परीक्षण) करने की अनुमति देता है।
- अदक्षता (Inefficiency): IV अनुमानक OLS अनुमानक की तुलना में कम कुशल (अर्थात, इसका प्रसरण अधिक होता है) होता है, यदि OLS निष्पक्ष होता। यह अंतर्जातता से निपटने के लिए चुकाई जाने वाली कीमत है।
प्रश्न 10. हॉजमैन के ‘प्रतिमान चयन प्रक्रिया’ का वर्णन कीजिए।
उत्तर. हॉसमैन परीक्षण (Hausman Test), जिसे अक्सर डर्बिन-वू-हॉसमैन (DWH) परीक्षण के रूप में भी जाना जाता है, अर्थमिति में विनिर्देशन त्रुटियों (specification errors) के लिए एक सामान्य परीक्षण है। इसका सबसे आम और महत्वपूर्ण अनुप्रयोग पैनल डेटा विश्लेषण में स्थिर प्रभाव (Fixed Effects – FE) और यादृच्छिक प्रभाव (Random Effects – RE) मॉडल के बीच चयन करना है। यह अनिवार्य रूप से प्रतिगामियों (regressors) की अंतर्जातता (endogeneity) का परीक्षण करता है। परीक्षण का मूल विचार: हॉसमैन परीक्षण दो अनुमानकों (estimators) की तुलना करता है:
- एक अनुमानक जो शून्य और वैकल्पिक परिकल्पना दोनों के तहत संगत (consistent) है।
- एक दूसरा अनुमानक जो शून्य परिकल्पना के तहत कुशल (efficient) और संगत है, लेकिन वैकल्पिक परिकल्पना के तहत असंगत (inconsistent) है।
यदि इन दो अनुमानकों के बीच एक सांख्यिकीय रूप से महत्वपूर्ण अंतर है, तो यह संदेह पैदा करता है कि शून्य परिकल्पना (जिस पर कुशल अनुमानक निर्भर करता है) गलत है। पैनल डेटा में हॉसमैन प्रतिमान चयन प्रक्रिया: पैनल डेटा में, हॉसमैन परीक्षण यह तय करने में मदद करता है कि क्या व्यक्तिगत-विशिष्ट प्रभाव (aᵢ) स्वतंत्र चरों (Xᵢₜ) से सहसंबद्ध हैं।
1. परिकल्पनाएं (Hypotheses):
- शून्य परिकल्पना (H₀): यादृच्छिक प्रभाव (RE) मॉडल उपयुक्त है। इसका तात्पर्य है कि व्यक्तिगत-विशिष्ट प्रभाव (aᵢ) स्वतंत्र चरों (Xᵢₜ) के साथ सहसंबद्ध नहीं (uncorrelated) हैं (यानी, Cov(Xᵢₜ, aᵢ) = 0)।
- इस परिकल्पना के तहत, RE अनुमानक (जो कुशल है) और FE अनुमानक (जो कम कुशल है) दोनों संगत हैं।
- वैकल्पिक परिकल्पना (H₁): स्थिर प्रभाव (FE) मॉडल उपयुक्त है। इसका तात्पर्य है कि व्यक्तिगत-विशिष्ट प्रभाव (aᵢ) स्वतंत्र चरों (Xᵢₜ) के साथ सहसंबद्ध (correlated) हैं (यानी, Cov(Xᵢₜ, aᵢ) ≠ 0)।
- इस परिकल्पना के तहत, RE अनुमानक पक्षपाती और असंगत हो जाता है, जबकि FE अनुमानक अभी भी संगत रहता है।
2. प्रक्रिया (The Procedure):
- दोनों मॉडलों का अनुमान लगाएं: सबसे पहले, डेटा पर FE और RE दोनों मॉडल चलाएं और गुणांकों के दो सेट, β̂_FE और β̂_RE, प्राप्त करें।
- गुणांकों के अंतर की गणना करें: परीक्षण इन दो गुणांक सदिशों के बीच के अंतर पर आधारित है: d = β̂_FE – β̂_RE।
- परीक्षण सांख्यिकी की गणना करें: यदि शून्य परिकल्पना सत्य है, तो यह अंतर सांख्यिकीय रूप से शून्य के करीब होना चाहिए। हॉसमैन परीक्षण सांख्यिकी (H) इस अंतर के वर्गित विचलन को मापता है, जो उनके प्रसरण-सहप्रसरण मैट्रिक्स द्वारा भारित होता है: H = (β̂_FE – β̂_RE)’ [Var(β̂_FE) – Var(β̂_RE)]⁻¹ (β̂_FE – β̂_RE) यह परीक्षण सांख्यिकी शून्य परिकल्पना के तहत एक काई-स्क्वायर (Chi-squared) वितरण का अनुसरण करती है, जिसमें स्वतंत्रता की डिग्री (degrees of freedom) तुलना किए जा रहे गुणांकों की संख्या के बराबर होती है।
- निर्णय लें: H-सांख्यिकी के लिए संबंधित p-मान की गणना करें।
- यदि p-मान < 0.05 (या कोई अन्य महत्व स्तर α), तो हम शून्य परिकल्पना को अस्वीकार करते हैं । हम यह निष्कर्ष निकालते हैं कि प्रतिगामियों और व्यक्तिगत प्रभावों के बीच सहसंबंध मौजूद है। इसलिए, RE मॉडल असंगत है, और हमें अनिवार्य रूप से स्थिर प्रभाव (FE) मॉडल का उपयोग करना चाहिए।
- यदि p-मान ≥ 0.05 , तो हम शून्य परिकल्पना को अस्वीकार करने में विफल रहते हैं । इसका मतलब है कि सहसंबंध का कोई साक्ष्य नहीं है। इस मामले में, यादृच्छिक प्रभाव (RE) मॉडल को प्राथमिकता दी जाती है क्योंकि यह FE मॉडल की तुलना में अधिक कुशल है।
संक्षेप में, हॉसमैन परीक्षण यह तय करने में मदद करता है कि क्या RE मॉडल की दक्षता में वृद्धि असंगतता के जोखिम के लायक है। यदि परीक्षण अस्वीकार करता है, तो जोखिम बहुत अधिक है, और हमें संगत लेकिन कम कुशल FE मॉडल का उपयोग करना चाहिए। प्रश्न 11. ‘R’ में एकदिश ANOVA के परिणाम को प्राप्त करने की प्रक्रिया को उदाहरण देकर स्पष्ट कीजिए।
उत्तर. एकदिश एनोवा (One-way ANOVA) एक सांख्यिकीय परीक्षण है जिसका उपयोग यह जांचने के लिए किया जाता है कि क्या दो या दो से अधिक स्वतंत्र समूहों के साधनों (means) के बीच कोई सांख्यिकीय रूप से महत्वपूर्ण अंतर है। उदाहरण के लिए, क्या विभिन्न शैक्षिक स्तरों (हाई स्कूल, स्नातक, मास्टर) के लोगों की औसत आय में कोई अंतर है? R में एकदिश ANOVA चलाने की प्रक्रिया: यहाँ R में एकदिश ANOVA के परिणाम प्राप्त करने की चरण-दर-चरण प्रक्रिया और उदाहरण दिया गया है। चरण 1: डेटा तैयार करना (Data Preparation) ANOVA के लिए डेटा एक डेटा फ्रेम में होना चाहिए, जिसमें आम तौर पर दो कॉलम होते हैं:
- एक सतत आश्रित चर (continuous dependent variable) वाला कॉलम (जैसे, आय)।
- एक श्रेणीगत स्वतंत्र चर (categorical independent variable) वाला कॉलम, जो समूहों को परिभाषित करता है (जैसे, शिक्षा स्तर)। इस चर को R में एक ‘फैक्टर’ (factor) के रूप में कोडित किया जाना चाहिए।
उदाहरण: हम एक काल्पनिक डेटासेट बनाएंगे जहां हम यह जांचना चाहते हैं कि क्या तीन अलग-अलग उर्वरक प्रकारों (Fertilizer A, B, C) का पौधों की वृद्धि (growth) पर अलग-अलग प्रभाव पड़ता है। “`R # नमूना डेटा बनाना growth <- c(20, 21, 22, 25, 27, 26, 30, 32, 28) fertilizer <- factor(c(“A”, “A”, “A”, “B”, “B”, “B”, “C”, “C”, “C”)) # डेटा फ्रेम बनाना plant_data <- data.frame(growth, fertilizer) # डेटा देखें print(plant_data) “` चरण 2: मॉडल की मान्यताओं की जाँच करना (Checking Assumptions) (वैकल्पिक लेकिन अनुशंसित) ANOVA की दो मुख्य मान्यताएँ हैं:
- सामान्यता (Normality): प्रत्येक समूह के भीतर अवशिष्ट (residuals) सामान्य रूप से वितरित होने चाहिए। (जाँच: `shapiro.test()`)
- प्रसरणों की समरूपता (Homogeneity of Variances): समूहों के बीच प्रसरण बराबर होने चाहिए। (जाँच: `bartlett.test()` या `leveneTest()`)
चरण 3: ANOVA मॉडल चलाना (Running the ANOVA model) R में ANOVA के लिए मुख्य फलन `aov()` (Analysis of Variance) है। सिंटैक्स `dependent_variable ~ independent_variable` सूत्र का उपयोग करता है। “`R # ANOVA मॉडल को फिट करें anova_model <- aov(growth ~ fertilizer, data = plant_data) “` चरण 4: परिणामों को देखना और व्याख्या करना (Viewing and Interpreting the Results) ANOVA तालिका प्राप्त करने के लिए मॉडल ऑब्जेक्ट पर `summary()` फलन का उपयोग करें। “`R # ANOVA तालिका प्रदर्शित करें summary(anova_model) “` आउटपुट इस तरह दिखेगा: “` Df Sum Sq Mean Sq F value Pr(>F) fertilizer 2 152.0 76.0 25.333 0.000673 * Residuals 6 18.0 3.0 — Signif. codes: 0 ‘ ’ 0.001 ‘ ’ 0.01 ‘ ’ 0.05 ‘.’ 0.1 ‘ ’ 1 “` व्याख्या:
- Df (Degrees of Freedom): स्वतंत्रता की कोटि।
- Sum Sq (Sum of Squares): वर्गों का योग।
- F value: एफ-सांख्यिकी।
- Pr(>F): यह p-मान है, जो सबसे महत्वपूर्ण आउटपुट है।
हमारे उदाहरण में, p-मान (0.000673) 0.05 के महत्व स्तर से बहुत कम है। इसलिए, हम शून्य परिकल्पना (कि सभी समूहों के साधन बराबर हैं) को अस्वीकार करते हैं। हम यह निष्कर्ष निकालते हैं कि कम से कम एक उर्वरक प्रकार का पौधों की वृद्धि पर दूसरों की तुलना में सांख्यिकीय रूप से भिन्न प्रभाव पड़ता है। चरण 5: पश्च-अन्वेषी परीक्षण (Post-Hoc Tests) ANOVA हमें बताता है कि समूहों के बीच एक अंतर है, लेकिन यह नहीं बताता कि कौन से विशिष्ट समूह एक दूसरे से भिन्न हैं। यह पता लगाने के लिए, हमें एक पश्च-अन्वेषी परीक्षण (जैसे ट्यूकी का HSD) चलाना होगा। “`R # ट्यूकी का HSD (Honest Significant Difference) परीक्षण करें TukeyHSD(anova_model) “` यह आउटपुट सभी समूहों के बीच जोड़ी-वार तुलना दिखाएगा और यह बताएगा कि किन जोड़ियों के साधनों में सांख्यिकीय रूप से महत्वपूर्ण अंतर है (आमतौर पर जहाँ समायोजित p-मान < 0.05 होता है)। भाग-ग प्रश्न 12. निम्नलिखित में से किन्हीं दो पर संक्षिप्त टिप्पणियाँ लिखिए : (अ) ई-व्यूज में ग्राफ एवं प्रकीर्ण चित्रण (ब) स्टेटा में द्विदिश ANOVA (स) एलमन का दृष्टिकोण (द) LPM (रैखिक संभाव्यता प्रतिमान) की सीमाएँ
उत्तर. (अ) ई-व्यूज में ग्राफ एवं प्रकीर्ण चित्रण (Graphs and Scatter plots in E-Views) ई-व्यूज (E-Views) एक लोकप्रिय सांख्यिकीय सॉफ्टवेयर है जो अर्थमितीय विश्लेषण के लिए व्यापक रूप से उपयोग किया जाता है। इसकी एक प्रमुख विशेषता इसकी शक्तिशाली और उपयोगकर्ता-अनुकूल ग्राफिंग क्षमताएं हैं। ग्राफ बनाना: ई-व्यूज में, किसी भी श्रृंखला (series), श्रृंखलाओं के समूह (group), या समीकरण (equation) ऑब्जेक्ट से ग्राफ बनाए जा सकते हैं।
- श्रृंखला से: किसी एक चर का समय श्रृंखला प्लॉट (time series plot) या हिस्टोग्राम बनाने के लिए, वर्कफाइल में श्रृंखला पर डबल-क्लिक करें, फिर View -> Graph… पर जाएं। यहां लाइन, बार, एरिया, पाई, और बॉक्सप्लॉट जैसे कई विकल्प मिलते हैं।
- समूह से: एक से अधिक चरों के बीच संबंध देखने के लिए, उन्हें एक समूह में खोला जाता है। यह प्रकीर्ण चित्रण बनाने का मानक तरीका है।
प्रकीर्ण चित्रण (Scatter Plots): प्रकीर्ण चित्रण का उपयोग दो चरों के बीच संबंध को देखने के लिए किया जाता है। यह प्रतिगमन विश्लेषण से पहले एक महत्वपूर्ण प्रारंभिक कदम है।
- प्रक्रिया:
- उन दो श्रृंखलाओं का चयन करें जिन्हें आप प्लॉट करना चाहते हैं (Ctrl दबाकर) और उन्हें एक समूह के रूप में खोलें।
- समूह विंडो से, View -> Graph… पर क्लिक करें।
- डायलॉग बॉक्स में, “Graph type” के अंतर्गत Scatter चुनें।
- आप ‘Simple Scatter’ या ‘Scatter with Regression Line’ का विकल्प चुन सकते हैं, जो स्वचालित रूप से एक OLS प्रतिगमन रेखा को फिट और प्लॉट करता है।
- व्याख्या: प्लॉट का निरीक्षण करके यह देखा जाता है कि क्या चरों के बीच कोई रैखिक संबंध है, संबंध सकारात्मक है या नकारात्मक, क्या कोई आउटलायर हैं, और क्या प्रसरण में कोई पैटर्न है (विषमलैंगिकता)।
ई-व्यूज ग्राफ अनुकूलन के लिए कई विकल्प प्रदान करता है, जैसे शीर्षक, लेबल, रंग और पैमाने को बदलना, जिससे प्रकाशन-गुणवत्ता वाले ग्राफ बनाना संभव हो जाता है।
(द) LPM (रैखिक संभाव्यता प्रतिमान) की सीमाएँ (Limitations of the LPM) रैखिक संभाव्यता प्रतिमान (Linear Probability Model – LPM) एक ऐसा मॉडल है जिसमें एक द्विआधारी (0/1) आश्रित चर पर साधारण न्यूनतम वर्ग (OLS) प्रतिगमन लागू किया जाता है। मॉडल का रूप है: Yᵢ = β₀ + β₁Xᵢ + uᵢ यहाँ, अनुमानित मान Ŷᵢ को Y=1 होने की अनुमानित संभाव्यता के रूप में व्याख्या किया जाता है। इसकी सादगी के बावजूद, LPM की कई गंभीर सीमाएँ हैं जिसके कारण इसे आमतौर पर उपयोग करने की सलाह नहीं दी जाती है। मुख्य सीमाएँ:
1. 0 और 1 के बाहर की संभाव्यताएँ: यह LPM की सबसे मौलिक समस्या है। चूँकि प्रतिगमन रेखा रैखिक और असीमित है, यह X के कुछ मानों के लिए 0 से कम या 1 से अधिक की संभाव्यता का अनुमान लगा सकती है। यह तार्किक रूप से असंभव है, क्योंकि संभाव्यता को [0, 1] अंतराल में ही होना चाहिए।
2. गैर-रैखिक संबंध: वास्तव में, एक स्वतंत्र चर और एक घटना की संभाव्यता के बीच का संबंध अक्सर गैर-रैखिक (S-आकार का) होता है। उदाहरण के लिए, आय में एक अतिरिक्त हजार रुपये की वृद्धि का कार खरीदने की संभावना पर प्रभाव कम आय वाले व्यक्ति के लिए अधिक और बहुत अमीर व्यक्ति के लिए कम हो सकता है। LPM एक स्थिर सीमांत प्रभाव (β₁) मानता है, जो अवास्तविक है।
3. विषम-प्रसरणता (Heteroscedasticity): LPM में त्रुटि पद का प्रसरण स्थिर नहीं होता है; यह स्वतंत्र चरों के मानों पर निर्भर करता है। Var(uᵢ) = Pᵢ(1-Pᵢ), जहाँ Pᵢ = E(Yᵢ|Xᵢ)। यह OLS की समरूप-प्रसरणता (homoscedasticity) की धारणा का उल्लंघन करता है। इसके परिणामस्वरूप, OLS गुणांक अनुमान तो निष्पक्ष रहते हैं, लेकिन उनकी मानक त्रुटियाँ गलत होती हैं, जिससे परिकल्पना परीक्षण अविश्वसनीय हो जाता है। (हालांकि इस समस्या को मजबूत मानक त्रुटियों का उपयोग करके ठीक किया जा सकता है)।
4. गैर-सामान्य त्रुटियाँ (Non-normal errors): चूँकि आश्रित चर केवल 0 या 1 हो सकता है, त्रुटि पद भी केवल दो मान ले सकता है, जिसका अर्थ है कि यह सामान्य रूप से वितरित नहीं होता है। यह छोटे नमूनों में परिकल्पना परीक्षण की वैधता को प्रभावित करता है।
इन सीमाओं के कारण, द्विआधारी आश्रित चरों के लिए लॉगिट (Logit) और प्रोबिट (Probit) जैसे मॉडल बेहतर विकल्प हैं, क्योंकि वे इन समस्याओं का समाधान करते हैं।
IGNOU BECE-142 Previous Year Solved Question Paper in English
Q1. Distinguish between R² and R̅². Discuss the ‘model selection criteria’ of (a) AIC, (b) SIC, and (c) HQIC commenting on their usefulness in forecasting the efficiency of a regression model.
Ans.
Distinction between R² and Adjusted R² (R̅²)
R² (Coefficient of Determination): R-squared is a statistical measure that represents the proportion of the variance in the dependent variable (Y) that is explained by the independent variables (X) in a regression model. Its value ranges from 0 to 1.
- Formula: R² = ESS/TSS = 1 – RSS/TSS, where ESS is the Explained Sum of Squares, TSS is the Total Sum of Squares, and RSS is the Residual Sum of Squares.
- Problem: A major drawback of R² is that its value never decreases when a new independent variable is added to the model, even if that variable is irrelevant. This can lead to model overfitting, making a model appear better than it actually is.
Adjusted R² (R̅²):
Adjusted R² is a modified version of R² that adjusts for the number of independent variables in a model. It imposes a penalty for adding extra variables.
- Formula: R̅² = 1 – [(1-R²)(n-1)] / (n-k-1), where n is the number of observations and k is the number of independent variables.
- Distinction: Unlike R², the value of adjusted R² can decrease if the newly added variable does not improve the model’s explanatory power sufficiently. Therefore, it is a better metric for comparing models with different numbers of independent variables. A good model is one that maximizes the adjusted R².
Model Selection Criteria and their Usefulness
Model selection criteria are used to select the “best” model from a set of competing models. These criteria balance goodness-of-fit with model parsimony (simplicity). Typically, the model with the lowest value for these criteria is preferred.
(a) AIC (Akaike Information Criterion):
- AIC is based on information theory. It estimates the relative quality of a model.
- Formula: AIC = n ln(RSS/n) + 2k
- It creates a trade-off between improving the fit by reducing the residual sum of squares (RSS) and penalizing for model complexity by adding parameters (k). The penalty term is 2k . AIC aims to select the model that will best predict new data.
(b) SIC (Schwarz Information Criterion), also called BIC:
- SIC is based on Bayesian principles.
- Formula: SIC = n ln(RSS/n) + k ln(n)
- SIC also penalizes model complexity, but its penalty term is k ln(n) . Since ln(n) is usually greater than 2 (for n ≥ 8), SIC imposes a larger penalty than AIC for models with more parameters. As a result, SIC tends to favor more parsimonious (simpler) models than AIC.
(c) HQIC (Hannan-Quinn Information Criterion):
- HQIC is an intermediate criterion between AIC and SIC.
- Formula: HQIC = n ln(RSS/n) + 2k ln(ln(n))
- Its penalty term is 2k ln(ln(n)) . For n ≥ 16, the penalty of HQIC is larger than AIC’s but smaller than SIC’s.
Usefulness in Forecasting Efficiency:
Lower values of these criteria suggest a better balance between fit and complexity, which often translates to better out-of-sample forecasting performance by avoiding overfitting.
- AIC is considered good for forecasting as it aims to find the model that will perform best on new data.
- SIC’s stronger penalty makes it particularly useful for selecting simpler models that may generalize better and is often consistent in identifying the true model, if one exists in the set.
- HQIC provides a balance between the two.
In practice, researchers often look at all three criteria. If they all point to the same model, it is a strong signal. If they differ, the researcher must make a judgement based on their research objective (forecasting vs. explanation).
Q2. How does the Koyck’s approach to estimating the ‘distributed lag models’ help in overcoming an ‘infinite series situation’ ? Explain.
Ans.
Distributed Lag Models and the Infinite Series Situation In a distributed lag model, the effect of an explanatory variable (X) on a dependent variable (Y) is spread out over time. It can be written as: Yt = α + β₀Xt + β₁Xt-₁ + β₂Xt-₂ + … + ut
Here, βk measures the effect of the k-period lagged value of X on Y in the current period.
The ‘infinite series situation’ arises when the effect of X is assumed to continue indefinitely. This creates two major problems:
- Infinite Number of Parameters: If the lags are infinite, we have to estimate an infinite number of β coefficients (β₀, β₁, β₂, …), which is impossible with a finite dataset. This leads to the problem of degrees of freedom.
- Multicollinearity: The lagged variables (Xt, Xt-₁, Xt-₂, etc.) are often highly correlated with each other, making it difficult to get precise estimates of the individual β coefficients.
The Solution from Koyck’s Approach
The Koyck approach solves this infinite series problem by making a simplifying assumption.
1. Assumption of Geometric Decline: Koyck assumed that the lag coefficients (βk) decline in a geometric progression over time. βk = β₀λᵏ , where k = 0, 1, 2, … and 0 < λ < 1 . Here, λ is called the ‘rate of decay’ of the lag, and (1-λ) is the ‘speed of adjustment’. This assumption ensures that the impact of distant variables diminishes.
2. The Koyck Transformation: Using this assumption, the original distributed lag model can be rewritten: Yt = α + β₀Xt + β₀λXt-₁ + β₀λ²Xt-₂ + … + ut —(1)
Now, the Koyck transformation involves the following steps:
- Lag equation (1) by one period and multiply by λ: λYt-₁ = λα + λβ₀Xt-₁ + λβ₀λXt-₂ + … + λut-₁ —(2)
- Subtract equation (2) from equation (1): Yt – λYt-₁ = (α – λα) + β₀Xt + (ut – λut-₁)
- Rearranging, we get the final Koyck model: Yt = α(1-λ) + β₀Xt + λYt-₁ + vt , where vt = ut – λut-₁
How the Koyck Approach Helps:
- Reduction of Parameters: The Koyck transformation turns the model with infinite lags into a simple Autoregressive Distributed Lag (ADL) model. We now only need to estimate three parameters instead of infinite βs: an intercept [α(1-λ)], the short-run effect (β₀), and the coefficient of the lagged dependent variable (λ).
- Problem Solved: Once λ is estimated, we can calculate all the original lag coefficients (βk = β₀λᵏ). It has effectively solved the problems of the infinite series and multicollinearity.
A Caveat:
Although the Koyck approach provides an elegant solution, it creates a new problem. The new error term (vt = ut – λut-₁) is correlated with the regressor Yt-₁. Because of this, Ordinary Least Squares (OLS) estimates are biased and inconsistent. Advanced techniques like Instrumental Variables (IV) are needed to solve this issue.
Q3. Explain the interpretation of logistic parameters.
Ans.
Logistic regression (or the logit model) is used when the dependent variable is binary, meaning it has only two possible outcomes (e.g., 1/0, Yes/No, Success/Failure). The logistic model does not predict the outcome directly but estimates the probability of a particular outcome occurring.
The form of the logit model is: P(Y=1 | X) = 1 / (1 + e⁻ᶻ) , where Z = β₀ + β₁X₁ + … + βₖXₖ
Here, P(Y=1 | X) is the probability of Y=1 for given independent variables (X). Z is called the logit. Z can also be written as: ln(P / (1-P)) = β₀ + β₁X₁ + … + βₖXₖ
Here, (P / (1-P)) is the odds , and ln(P / (1-P)) is the log-odds .
Interpretation of Logistic Parameters (β):
The interpretation of the coefficients (β) in logistic regression is less straightforward than in linear regression.
1. Direction and Significance:
- Sign of the Coefficient: The sign of a β coefficient indicates the direction of the relationship between the independent variable and the log-odds of the outcome.
- If β > 0 , an increase in the independent variable increases the log-odds (and thus the probability) of the event occurring.
- If β < 0 , an increase in the independent variable decreases the log-odds of the event occurring.
- If β = 0 , the variable has no effect on the outcome.
- Significance: The p-value helps determine if a variable’s effect is statistically significant.
2. Interpretation as Log-Odds:
A coefficient, say β₁, represents the change in the
log-odds
for a
one-unit change
in the independent variable X₁, holding all other variables constant.
Example:
If β₁ = 0.5, then a one-unit increase in X₁ increases the log-odds of the event occurring by 0.5. This interpretation is mathematically precise but difficult to understand intuitively.
3. Interpretation as Odds Ratios (More Intuitive): A more intuitive interpretation is achieved by using the Odds Ratio (OR) , which is calculated as e^β .
- The odds ratio is the multiplicative factor by which the odds of the event change for a one-unit increase in the independent variable.
- If β₁ = 0.5 , the odds ratio is e⁰.⁵ ≈ 1.65 . This means that for each one-unit increase in X₁, the odds of the event occurring increase by a factor of 1.65 (or increase by 65%), holding other variables constant.
- If β₁ = -0.4 , the odds ratio is e⁻⁰.⁴ ≈ 0.67 . This means that for each one-unit increase in X₁, the odds are multiplied by a factor of 0.67 (or decrease by 33%).
- If β₁ = 0 , the odds ratio is e⁰ = 1 , meaning no change in the odds.
It is crucial to note that logistic coefficients do not represent a linear effect on the probability; the effect is non-linear (S-shaped). Therefore, “marginal effects” are often calculated to understand the actual change in probability due to a change in a variable.
Q4. Discuss the features of ‘fixed effect model’ and ‘random effect model’ in panel regressions.
Ans.
Panel data (or longitudinal data) involves observations on multiple units (e.g., individuals, firms, countries) over time. Panel regression models help control for unobserved heterogeneity among these units. This unobserved heterogeneity is modeled as an individual-specific error term (aᵢ). The Fixed Effect (FE) and Random Effect (RE) models are two different approaches to dealing with this term aᵢ.
Fixed Effect Model (FE)
The FE model assumes that the unobserved effect for each unit (aᵢ) is a fixed, unique parameter that can be estimated.
Features:
- Key Assumption: The most important assumption is that the unobserved effect aᵢ may be correlated with the independent variables Xit included in the regression. That is, Cov(Xit, aᵢ) ≠ 0. This makes the FE model suitable for situations where time-invariant unobserved factors (like an individual’s ability, a firm’s management culture) might influence the independent variables.
- Estimation Method: The FE model is estimated by eliminating the aᵢ. This is typically done through a “within transformation,” where the time-mean for each unit is subtracted from each variable. This uses only the within-unit variation over time. (Yit – Ȳi) = β(Xit – X̄i) + (uit – ūi)
- No Estimation of Time-Invariant Variables: Since the FE model eliminates factors that are constant over time, it cannot estimate the effect of any independent variables that do not change over time (e.g., gender, race, or a firm’s industry).
- Consistency: The FE estimator provides consistent estimates for β, even if aᵢ and Xit are correlated.
- Efficiency: It is less efficient than the RE model if the RE assumptions hold, because it does not use the “between-unit” variation in the data.
Random Effect Model (RE)
The RE model assumes that the unobserved effects (aᵢ) are random variables drawn from a certain distribution and are part of the sample.
Features:
- Key Assumption: The most crucial assumption is that the unobserved effect aᵢ is uncorrelated with the independent variables Xit . That is, Cov(Xit, aᵢ) = 0.
- Estimation Method: The RE model is estimated using Generalized Least Squares (GLS). This method uses a weighted average of both the “within” and “between” variation, making it more efficient than FE (if its assumption is correct). The error term is treated as an error-component form (aᵢ + uit).
- Estimation of Time-Invariant Variables: Unlike FE, the RE model can estimate the effects of variables that are constant over time (like gender, education).
- Risk of Inconsistency: If the key assumption (Cov(Xit, aᵢ) = 0) is violated, the RE estimator will be biased and inconsistent.
- Efficiency: If its assumptions hold, the RE estimator is more efficient (i.e., has a lower variance) than the FE estimator.
Choice between FE vs. RE:
The choice between these two models hinges on the
Hausman Test
. The null hypothesis of the Hausman test is that the RE model is appropriate (i.e., there is no correlation between aᵢ and Xit).
- If the test rejects the null hypothesis (p-value < 0.05), we must use the Fixed Effect (FE) model .
- If the test fails to reject the null hypothesis, we can use the Random Effect (RE) model , as it is more efficient.
Section—B
Q5. Differentiate between ‘Research Design’ and ‘Research Methods’.
Ans.
‘Research Design’ and ‘Research Methods’ are two crucial, related concepts, but they refer to different aspects of the research process.
Research Design
The research design is the overall framework or blueprint for the research. It is a logical plan that connects the research questions to the collection and analysis of data. It primarily answers the questions of ‘what’ and ‘why’.
- Purpose: Its main purpose is to ensure that the evidence obtained by the researcher enables them to answer the research questions as unambiguously as possible. It is a strategy to ensure validity and reliability.
- Scope: It is broad and strategic. It includes the type of research (e.g., experimental, descriptive, correlational), the sampling strategy, the timing and location of data collection, and the general plan of analysis.
- Examples: Experimental design, quasi-experimental design, cross-sectional design, longitudinal design, and case study design.
- Analogy: A research design is like an architect’s blueprint for a house. It shows the overall structure, the number of rooms, and how they connect.
Research Methods
Research methods are the specific tools, techniques, and procedures used to collect and analyze data. They are the practical steps to implement the research design. It answers the question of ‘how’.
- Purpose: Its purpose is to execute the plan laid out in the research design.
- Scope: It is narrow and technical. It involves the specific instruments used for data collection and analysis.
- Components:
- Data Collection Methods: Surveys, interviews, questionnaires, observation, experiments, archival data.
- Data Analysis Methods: Statistical tests (e.g., t-tests, ANOVA), regression analysis, qualitative content analysis.
- Analogy: Research methods are like the builder’s tools and techniques (e.g., hammers, saws, concrete mixing) used to construct the house according to the blueprint.
Summary of Key Differences:
Feature |
Research Design |
Research Methods |
Nature |
Planning and Structure | Execution and Tools |
Focus |
Logic, Framework, Validity | Techniques, Procedures, Tools |
Scope |
Macro, Strategic | Micro, Tactical |
Timing |
Decided at the beginning of research | Applied during data collection and analysis |
In essence, the research design is the strategic plan, while research methods are the techniques used to execute that plan. A successful research project requires both to be coherent and well-aligned.
Q6. Bring out the consequences of ‘errors in the measurement of dependent variables’.
Ans.
In econometrics, measurement error occurs when the data we use does not accurately reflect the true values of the variables. Measurement error can be in the dependent variable or the independent variables. Here, we focus on the consequences of measurement error in the dependent variable.
Let the true regression model be: Y*ᵢ = β₀ + β₁Xᵢ + uᵢ where Y*ᵢ is the true, but unobserved, value of the dependent variable, Xᵢ is the independent variable, and uᵢ is the error term.
Now, assume we cannot measure Y ᵢ directly. Instead, we measure Yᵢ, which is the value of Y ᵢ with some measurement error (eᵢ): Yᵢ = Y*ᵢ + eᵢ Here, eᵢ is the measurement error. We typically assume that eᵢ is a random variable with a mean of zero (E(eᵢ) = 0), and is uncorrelated with Xᵢ, uᵢ, and Y*ᵢ.
When we use Yᵢ in place of Y*ᵢ in the regression, the estimated model becomes: Yᵢ = β₀ + β₁Xᵢ + uᵢ + eᵢ This can be rewritten as: Yᵢ = β₀ + β₁Xᵢ + vᵢ , where vᵢ = uᵢ + eᵢ is a new, composite error term.
Consequences of Measurement Error in the Dependent Variable:
1. Effect on Coefficient Estimates:
- The estimates of the coefficients (β₀ and β₁) obtained via Ordinary Least Squares (OLS) remain unbiased and consistent .
- This is because the measurement error eᵢ is simply absorbed into the overall error term vᵢ. As long as the measurement error eᵢ is uncorrelated with the independent variable Xᵢ (which is a standard assumption), the key OLS assumption [Cov(Xᵢ, vᵢ) = 0] holds. Cov(Xᵢ, vᵢ) = Cov(Xᵢ, uᵢ + eᵢ) = Cov(Xᵢ, uᵢ) + Cov(Xᵢ, eᵢ) = 0 + 0 = 0.
- Thus, unlike measurement error in the independent variable, which causes bias in the estimates, measurement error in the dependent variable is less severe.
2. Effect on Variance of Estimates:
- Although the estimates remain unbiased, they become less efficient .
- The variance of the new error term vᵢ is larger than the variance of the original error term uᵢ: Var(vᵢ) = Var(uᵢ + eᵢ) = Var(uᵢ) + Var(eᵢ) = σ²ᵤ + σ²ₑ (assuming uᵢ and eᵢ are uncorrelated).
- Due to the increased variance of the error term, the variance of the estimated coefficients (β̂₁) will also be larger. This means our estimates will be less precise .
- Standard errors will be larger, and t-statistics will be smaller, making it harder to find statistically significant results.
3. Effect on Model Fit:
- The Residual Sum of Squares (RSS) will be larger due to the increased error variance.
- Consequently, the R² (and adjusted R²) of the model will be lower than what would be obtained with the true Y*ᵢ. The model’s explanatory power will appear weaker.
Conclusion:
Random measurement error in the dependent variable does not bias the coefficients, but it reduces the precision of the estimates and weakens the model’s fit.
Q7. Highlight the features of the ‘Adaptive Expectations Model’.
Ans.
The Adaptive Expectations Model is an economic theory that describes how people form their expectations about future economic variables (like inflation, income). It is particularly useful in situations where expectations are not directly observable. The model was developed by economists such as Phillip Cagan and Milton Friedman.
Core Idea of the Model: The central idea is that economic agents adjust their future expectations gradually based on their past forecasting errors. They learn from the difference between their expectation for the last period and what the actual outcome was in that period.
Mathematical Formulation: Let Y*t denote the expected value of Y for period t, formed in period t-1. Yt-₁ is the actual value of Y in period t-1. The adaptive expectations hypothesis can be written as: Y t – Y t-₁ = γ(Yt-₁ – Y*t-₁) , where 0 < γ ≤ 1 .
This equation means: The revision in expectations (left side) is a fraction (γ) of the last forecasting error (right-side parenthesis).
- γ (gamma) is the ‘coefficient of adjustment’.
- If γ = 1, agents adjust their expectations fully and immediately: Y*t = Yt-₁.
- If γ = 0, agents never learn from their errors and never revise their expectations.
Key Features of the ‘Adaptive Expectations Model’:
1. Backward-Looking: Expectations are formed purely based on past values of the variable. It does not incorporate any new information about the future (e.g., announced government policies), which is a key limitation. This is in contrast to the rational expectations model.
2. Geometric Lag Structure: By rearranging the equation, we get Y t = γYt-₁ + (1-γ)Y t-₁. If we substitute this recursively, it can be shown that the current expectation is a geometrically weighted average of all past actual values: Y*t = γYt-₁ + γ(1-γ)Yt-₂ + γ(1-γ)²Yt-₃ + … In this, more recent observations are given more weight, and the influence of distant observations declines geometrically.
3. Econometric Application: The model is often used in models where a variable depends on expectations, such as the consumption function (Ct = β₀ + β₁Y t + ut). This equation cannot be estimated directly as Y t is unobservable. By substituting the adaptive expectations formula and performing a transformation similar to the Koyck transformation, we get an estimable equation: Ct = γβ₀ + γβ₁Yt-₁ + (1-γ)Ct-₁ + [ut – (1-γ)ut-₁] This is an autoregressive model that can be estimated, although it has estimation problems due to the structure of the error term.
4. Systematic Errors: A major criticism of this model is that it can lead to systematic forecasting errors. For example, if inflation is consistently rising, adaptive expectations will always underestimate the actual inflation because they are only looking at the past.
Q8. What is meant by ‘Identification Problem’ ? Explain.
Ans.
The Identification Problem is a fundamental concept in econometrics, particularly arising in the context of Simultaneous Equation Models (SEMs) . In simple terms, it refers to the problem of whether we can obtain unique numerical values for the structural parameters of a model from the available data.
Context of the Problem: Consider a simple market model of supply and demand:
- Demand Equation: Qd = α₀ + α₁P + u₁ (α₁ < 0)
- Supply Equation: Qs = β₀ + β₁P + u₂ (β₁ > 0)
- Equilibrium Condition: Qd = Qs = Q
Here, price (P) and quantity (Q) are
endogenous variables
, as they are determined simultaneously within the model. The parameters α₀, α₁, β₀, and β₁ are the
structural parameters
, which we want to estimate.
What is the Problem?
- We only observe the equilibrium points (P, Q) where the demand and supply curves intersect. These data points are the result of shifts in both the demand and supply curves (due to the error terms u₁ and u₂).
- If we just run a simple Ordinary Least Squares (OLS) regression on the observed data of P and Q, we are not estimating either the demand curve or the supply curve. In fact, we are estimating a mixture of the two.
- We don’t know if a change in P was due to a shift in demand or a shift in supply. Thus, a scatter plot of (P, Q) data points alone cannot tell us which is the demand curve and which is the supply curve. This is the identification problem.
Reduced Form:
To deal with this, we derive the
reduced form equations
of the model, where each endogenous variable is expressed solely in terms of exogenous variables and error terms. The coefficients of these reduced-form equations can be consistently estimated by OLS.
The identification problem is about: Can we work backward from these estimated reduced-form coefficients to find unique values for the original structural coefficients (the αs and βs)?
States of Identification:
- Under-identified / Unidentified: If it is impossible to obtain unique values for the structural parameters. The equation cannot be estimated. In the simple model above, both the demand and supply equations are unidentified.
- Exactly identified / Just-identified: If there is exactly one unique value for each structural parameter that can be derived from the reduced-form coefficients.
- Over-identified: If there is more than one way to compute the structural parameters. This provides testable restrictions on the model and allows the use of estimation methods like 2SLS (Two-Stage Least Squares).
Conditions for Identification:
For an equation to be identified, it must contain some exogenous variables that are not present in the other equations of the model. These conditions are formally checked through the
Order Condition
and the
Rank Condition
. The Order Condition is a necessary but not sufficient condition, while the Rank Condition is both a necessary and sufficient condition.
Q9. State the conditions to be satisfied by an Instrumental Variable. Also state the ‘assumptions and properties’ of the Instrumental Variable (IV) method.
Ans.
The Instrumental Variable (IV) method is an econometric technique used when a regressor in a regression model is correlated with the error term, making that variable endogenous . This endogeneity can be caused by omitted variable bias, measurement error, or simultaneity. The IV method provides a way to obtain consistent estimators by tackling this endogeneity problem.
Conditions for a Valid Instrumental Variable (IV):
Suppose we have the model Y = β₀ + β₁X + u, where X is endogenous (Cov(X, u) ≠ 0). For a variable Z to be a valid instrument for X, it must satisfy the following two conditions:
1. Relevance Condition:
- The instrument (Z) must be correlated with the endogenous explanatory variable (X).
- Mathematically, Cov(Z, X) ≠ 0 .
- This means that variation in the instrument must be related to variation in X. If this correlation is weak, Z is called a “weak instrument,” which can lead to large finite-sample bias and large standard errors in IV estimates. In practice, an F-statistic greater than 10 in the first-stage regression (regressing X on Z) is taken as a sign of a strong instrument.
2. Exogeneity Condition or Exclusion Restriction:
- The instrument (Z) must be uncorrelated with the error term (u) of the original model.
- Mathematically, Cov(Z, u) = 0 .
- This means that the only way the instrument Z affects the dependent variable Y is through the endogenous variable X. It should have no direct effect on Y, nor should it be correlated with any omitted variables contained in u.
- This condition is not directly testable because u is unobservable. Its validity must be established based on economic theory and argumentation.
Assumptions and Properties of the IV Method:
Assumptions:
- The model is linear in parameters.
- The data is a random sample.
- Existence of one or more valid instruments (satisfying relevance and exogeneity).
- No perfect multicollinearity among the exogenous variables and instruments.
- (For standard inference) The error term is homoscedastic. If not, heteroskedasticity-robust standard errors should be used.
Properties:
- Consistency: The most important property of the IV estimator is that it is consistent . As the sample size (n) approaches infinity, the IV estimator (β̂_IV) converges to the true parameter value (β).
- Bias in Finite Samples: The IV estimator is generally biased in small or finite samples. This bias is smaller when the instrument is stronger. While OLS is also biased, the IV bias is typically smaller, and unlike OLS, IV is consistent.
- Asymptotic Normality: In large samples, the IV estimator has an approximately normal sampling distribution. This allows us to conduct hypothesis testing (t-tests, F-tests).
- Inefficiency: The IV estimator is less efficient (i.e., has a larger variance) than the OLS estimator would be if OLS were unbiased. This is the price paid for dealing with endogeneity.
Q10. Describe the Hausman’s ‘model selection procedure’.
Ans.
The Hausman test, often known as the Durbin-Wu-Hausman (DWH) test, is a general test for specification errors in econometrics. Its most common and important application is to choose between the Fixed Effects (FE) and Random Effects (RE) models in panel data analysis. It essentially tests for the endogeneity of regressors.
The Core Idea of the Test: The Hausman test compares two estimators:
- An estimator that is consistent under both the null and alternative hypotheses.
- A second estimator that is efficient and consistent under the null hypothesis, but inconsistent under the alternative.
If there is a statistically significant difference between these two estimators, it casts doubt on the null hypothesis (on which the efficient estimator relies).
The Hausman Model Selection Procedure in Panel Data:
In panel data, the Hausman test helps decide whether the individual-specific effects (aᵢ) are correlated with the independent variables (Xᵢₜ).
1. The Hypotheses:
- Null Hypothesis (H₀): The Random Effects (RE) model is appropriate. This implies that the individual-specific effects (aᵢ) are uncorrelated with the independent variables (Xᵢₜ) (i.e., Cov(Xᵢₜ, aᵢ) = 0).
- Under this hypothesis, both the RE estimator (which is efficient) and the FE estimator (which is less efficient) are consistent.
- Alternative Hypothesis (H₁): The Fixed Effects (FE) model is appropriate. This implies that the individual-specific effects (aᵢ) are correlated with the independent variables (Xᵢₜ) (i.e., Cov(Xᵢₜ, aᵢ) ≠ 0).
- Under this hypothesis, the RE estimator becomes biased and inconsistent, while the FE estimator remains consistent.
2. The Procedure:
- Estimate both models: First, run both the FE and RE models on the data and obtain the two sets of coefficients, β̂_FE and β̂_RE.
- Calculate the difference in coefficients: The test is based on the difference between these two coefficient vectors: d = β̂_FE – β̂_RE.
- Compute the test statistic: If the null hypothesis is true, this difference should be statistically close to zero. The Hausman test statistic (H) measures the squared deviation of this difference, weighted by their variance-covariance matrix: H = (β̂_FE – β̂_RE)’ [Var(β̂_FE) – Var(β̂_RE)]⁻¹ (β̂_FE – β̂_RE) This test statistic follows a Chi-squared distribution under the null hypothesis, with degrees of freedom equal to the number of coefficients being compared.
- Make a decision: Calculate the corresponding p-value for the H-statistic.
- If the p-value < 0.05 (or some other significance level α), we reject the null hypothesis . We conclude that correlation between regressors and individual effects exists. Therefore, the RE model is inconsistent, and we must use the Fixed Effects (FE) model .
- If the p-value ≥ 0.05 , we fail to reject the null hypothesis . This means there is no evidence of correlation. In this case, the Random Effects (RE) model is preferred because it is more efficient.
In short, the Hausman test helps us decide if the efficiency gains of the RE model are worth the risk of inconsistency. If the test rejects, the risk is too high, and we must use the consistent but less efficient FE model.
Q11. Illustrate the procedure for obtaining the results of one-way ANOVA in R.
Ans.
One-way ANOVA (Analysis of Variance) is a statistical test used to check if there are any statistically significant differences between the means of two or more independent groups. For example, is there a difference in the average income of people across different educational levels (High School, Bachelor’s, Master’s)?
Procedure for running One-way ANOVA in R:
Here is the step-by-step procedure and an example for obtaining one-way ANOVA results in R.
Step 1: Data Preparation The data for ANOVA should be in a data frame, typically with two columns:
- A column for the continuous dependent variable (e.g., income).
- A column for the categorical independent variable that defines the groups (e.g., education level). This variable should be coded as a ‘factor’ in R.
Example:
We will create a hypothetical dataset to test if three different fertilizer types (Fertilizer A, B, C) have different effects on plant growth.
“`R
# Create sample data
growth <- c(20, 21, 22, 25, 27, 26, 30, 32, 28)
fertilizer <- factor(c(“A”, “A”, “A”, “B”, “B”, “B”, “C”, “C”, “C”))
# Create a data frame plant_data <- data.frame(growth, fertilizer)
# View the data print(plant_data) “`
Step 2: Checking Assumptions (Optional but Recommended) ANOVA has two main assumptions:
- Normality: The residuals within each group should be normally distributed. (Check: `shapiro.test()`)
- Homogeneity of Variances: The variances across groups should be equal. (Check: `bartlett.test()` or `leveneTest()`)
Step 3: Running the ANOVA model
The main function for ANOVA in R is `aov()` (Analysis Of Variance). The syntax uses the formula notation `dependent_variable ~ independent_variable`.
“`R # Fit the ANOVA model anova_model <- aov(growth ~ fertilizer, data = plant_data) “`
Step 4: Viewing and Interpreting the Results Use the `summary()` function on the model object to get the ANOVA table.
“`R # Display the ANOVA table summary(anova_model) “` The output will look like this: “` Df Sum Sq Mean Sq F value Pr(>F) fertilizer 2 152.0 76.0 25.333 0.000673 * Residuals 6 18.0 3.0 — Signif. codes: 0 ‘ ’ 0.001 ‘ ’ 0.01 ‘ ’ 0.05 ‘.’ 0.1 ‘ ’ 1 “` Interpretation:
- Df: Degrees of Freedom.
- Sum Sq: Sum of Squares.
- F value: The F-statistic.
- Pr(>F): This is the p-value, the most important output.
In our example, the p-value (0.000673) is much smaller than the significance level of 0.05. Therefore, we reject the null hypothesis (that all group means are equal). We conclude that at least one fertilizer type has a statistically different effect on plant growth compared to the others.
Step 5: Post-Hoc Tests ANOVA tells us that a difference exists between groups, but not which specific groups are different from each other. To find this out, we need to run a post-hoc test (like Tukey’s HSD).
“`R # Perform Tukey’s HSD (Honest Significant Difference) test TukeyHSD(anova_model) “` This output will show pairwise comparisons between all groups and tell you which pairs have statistically significant differences in their means (usually where the adjusted p-value is < 0.05).
Section—C
Q12. Write short notes on any two of the following : (a) Graphs and Scatter plots in e-Views (b) Two-way ANOVA in STATA (c) Almon’s approach (d) Limitations of the LPM
Ans.
(a) Graphs and Scatter plots in E-Views
E-Views is a popular statistical software widely used for econometric analysis. One of its key strengths is its powerful and user-friendly graphing capabilities.
Creating Graphs: In E-Views, graphs can be created from any series, group of series, or equation object.
- From a Series: To create a time series plot or histogram of a single variable, double-click on the series in the workfile, then go to View -> Graph… . This provides numerous options like Line, Bar, Area, Pie, and Boxplot.
- From a Group: To visualize relationships between multiple variables, they are opened in a group. This is the standard way to create scatter plots.
Scatter Plots:
A scatter plot is used to visualize the relationship between two variables. It is a crucial preliminary step before regression analysis.
- Procedure:
- Select the two series you want to plot (holding Ctrl) and open them as a group.
- From the group window, click on View -> Graph… .
- In the dialog box, select Scatter under “Graph type”.
- You can choose options like ‘Simple Scatter’ or ‘Scatter with Regression Line’, which automatically fits and plots an OLS regression line.
- Interpretation: The plot is inspected to see if there is a linear relationship between the variables, whether the relationship is positive or negative, if there are any outliers, and if there are any patterns in the variance (heteroskedasticity).
E-Views offers extensive options for customizing graphs, such as changing titles, labels, colors, and scales, making it possible to create publication-quality graphs.
(d) Limitations of the LPM (Linear Probability Model)
The Linear Probability Model (LPM) is a model where Ordinary Least Squares (OLS) regression is applied to a binary (0/1) dependent variable. The model has the form: Yᵢ = β₀ + β₁Xᵢ + uᵢ Here, the predicted value, Ŷᵢ, is interpreted as the predicted probability of Y=1. Despite its simplicity, the LPM has several severe limitations that make it generally inadvisable for use.
Key Limitations:
1. Probabilities Outside 0 and 1: This is the most fundamental problem of the LPM. Since the regression line is linear and unbounded, it can easily predict probabilities less than 0 or greater than 1 for some values of X. This is logically impossible, as probability must lie in the [0, 1] interval.
2. Non-linear Relationship: In reality, the relationship between an independent variable and the probability of an event is often non-linear (S-shaped). For example, the effect of an extra thousand dollars of income on the probability of buying a car is likely larger for a low-income person than for a very rich person. The LPM imposes a constant marginal effect (β₁), which is unrealistic.
3. Heteroscedasticity: In the LPM, the variance of the error term is not constant; it depends on the values of the independent variables. Var(uᵢ) = Pᵢ(1-Pᵢ), where Pᵢ = E(Yᵢ|Xᵢ). This violates the OLS assumption of homoscedasticity. As a result, while the OLS coefficient estimates are still unbiased, their standard errors are incorrect, making hypothesis testing unreliable. (Though this can be corrected using robust standard errors).
4. Non-normal errors: Since the dependent variable can only be 0 or 1, the error term can also only take on two values, meaning it is not normally distributed. This affects the validity of hypothesis testing in small samples.
Due to these limitations, models like Logit and Probit are superior alternatives for binary dependent variables, as they resolve these issues.
Download IGNOU previous Year Question paper download PDFs for BECE-142 to improve your preparation. These ignou solved question paper IGNOU Previous Year Question paper solved PDF in Hindi and English help you understand the exam pattern and score better.
Thanks!
Leave a Reply