The IGNOU MZO-006 Solved Question Paper PDF Download page is designed to help students access high-quality exam resources in one place. Here, you can find ignou solved question paper IGNOU Previous Year Question paper solved PDF that covers all important questions with detailed answers. This page provides IGNOU all Previous year Question Papers in one PDF format, making it easier for students to prepare effectively.
- IGNOU MZO-006 Solved Question Paper in Hindi
- IGNOU MZO-006 Solved Question Paper in English
- IGNOU Previous Year Solved Question Papers (All Courses)
Whether you are looking for IGNOU Previous Year Question paper solved in English or ignou previous year question paper solved in hindi, this page offers both options to suit your learning needs. These solved papers help you understand exam patterns, improve answer writing skills, and boost confidence for upcoming exams.
IGNOU MZO-006 Solved Question Paper PDF

This section provides IGNOU MZO-006 Solved Question Paper PDF in both Hindi and English. These ignou solved question paper IGNOU Previous Year Question paper solved PDF include detailed answers to help you understand exam patterns and improve your preparation. You can also access IGNOU all Previous year Question Papers in one PDF for quick and effective revision before exams.
IGNOU MZO-006 Previous Year Solved Question Paper in Hindi
Q1. (a) चिकित्सा अनुसंधान और सार्वजनिक स्वास्थ्य योजना में जैव सांख्यिकी की भूमिका पर चर्चा करें। 5 (b) जैव सांख्यिकीय अनुसंधान में परिकल्पना परीक्षण का उद्देश्य क्या है? 5
Ans.
(a) चिकित्सा अनुसंधान और सार्वजनिक स्वास्थ्य योजना में जैव सांख्यिकी की भूमिका
जैव सांख्यिकी जैविक और स्वास्थ्य विज्ञान से संबंधित डेटा के संग्रह, विश्लेषण, व्याख्या और प्रस्तुति का विज्ञान है। चिकित्सा अनुसंधान और सार्वजनिक स्वास्थ्य योजना में इसकी भूमिका महत्वपूर्ण है।
चिकित्सा अनुसंधान में भूमिका:
- अध्ययन डिजाइन: जैव सांख्यिकीविद नैदानिक परीक्षणों (clinical trials) और महामारी विज्ञान अध्ययनों को डिजाइन करने में मदद करते हैं। वे यह सुनिश्चित करते हैं कि अध्ययन वैज्ञानिक रूप से सुदृढ़ हो, जिसमें पर्याप्त नमूना आकार (sample size) , उचित यादृच्छिकीकरण (randomization) और नियंत्रण समूह शामिल हों।
- डेटा विश्लेषण: एक बार डेटा एकत्र हो जाने के बाद, जैव सांख्यिकीविद सांख्यिकीय तरीकों का उपयोग करके इसका विश्लेषण करते हैं। वे यह निर्धारित करते हैं कि क्या किसी नई दवा या उपचार का कोई महत्वपूर्ण प्रभाव है, या क्या किसी विशेष जोखिम कारक और बीमारी के बीच कोई संबंध है।
- परिणामों की व्याख्या: वे शोधकर्ताओं को परिणामों की सही ढंग से व्याख्या करने में मदद करते हैं, जिससे यह सुनिश्चित होता है कि निष्कर्ष डेटा द्वारा समर्थित हैं और त्रुटि की संभावना को ध्यान में रखा गया है।
- महामारी विज्ञान: यह जनसंख्या में रोगों के पैटर्न, कारणों और प्रभावों का अध्ययन करने के लिए सांख्यिकीय विधियों का उपयोग करता है। इसने धूम्रपान और फेफड़ों के कैंसर जैसी बीमारियों के जोखिम कारकों की पहचान करने में महत्वपूर्ण भूमिका निभाई है।
सार्वजनिक स्वास्थ्य योजना में भूमिका:
- रोग निगरानी: जैव सांख्यिकी का उपयोग COVID-19 या फ्लू जैसी बीमारियों के प्रकोप की निगरानी और ट्रैकिंग के लिए किया जाता है, जिससे स्वास्थ्य अधिकारियों को समय पर प्रतिक्रिया देने में मदद मिलती है।
- संसाधन आवंटन: स्वास्थ्य डेटा का विश्लेषण करके, योजनाकार यह तय कर सकते हैं कि अस्पतालों, टीकों और चिकित्सा कर्मियों जैसे संसाधनों को कहाँ आवंटित किया जाए ताकि वे सबसे अधिक प्रभावी हों।
- नीति मूल्यांकन: सांख्यिकीय तरीके सार्वजनिक स्वास्थ्य हस्तक्षेपों, जैसे टीकाकरण अभियानों या स्वास्थ्य शिक्षा कार्यक्रमों की प्रभावशीलता का आकलन करने में मदद करते हैं।
- स्वास्थ्य अर्थशास्त्र: यह विभिन्न उपचारों और निवारक रणनीतियों की लागत-प्रभावशीलता का विश्लेषण करने में मदद करता है, जिससे नीति-निर्माताओं को सूचित निर्णय लेने में मदद मिलती है।
(b) जैव सांख्यिकीय अनुसंधान में परिकल्पना परीक्षण का उद्देश्य
जैव सांख्यिकीय अनुसंधान में परिकल्पना परीक्षण एक औपचारिक प्रक्रिया है जिसका उपयोग नमूना डेटा के आधार पर किसी जनसंख्या के बारे में निष्कर्ष निकालने या निर्णय लेने के लिए किया जाता है। इसका मुख्य उद्देश्य एक दावे या परिकल्पना की वैधता का मूल्यांकन करने के लिए एक वस्तुनिष्ठ और व्यवस्थित ढाँचा प्रदान करना है।
परिकल्पना परीक्षण की प्रक्रिया में दो प्रतिस्पर्धी परिकल्पनाएँ स्थापित करना शामिल है:
1. शून्य परिकल्पना (Null Hypothesis, H₀): यह एक ऐसा कथन है जो कोई प्रभाव, कोई अंतर या कोई संबंध नहीं होने का सुझाव देता है। उदाहरण के लिए, एक शून्य परिकल्पना यह हो सकती है कि एक नई दवा का प्लेसबो की तुलना में कोई बेहतर प्रभाव नहीं है। अनुसंधान का लक्ष्य अक्सर इस परिकल्पना को अस्वीकार करना होता है।
2. वैकल्पिक परिकल्पना (Alternative Hypothesis, H₁ या Hₐ): यह वह कथन है जिसे शोधकर्ता साबित करने की कोशिश कर रहा है। यह शून्य परिकल्पना के विपरीत है। उदाहरण के लिए, वैकल्पिक परिकल्पना यह होगी कि नई दवा प्लेसबो से अधिक प्रभावी है ।
परिकल्पना परीक्षण का उद्देश्य यह निर्धारित करना है कि क्या नमूना डेटा में शून्य परिकल्पना के विरुद्ध पर्याप्त सबूत हैं। प्रक्रिया इस प्रकार है:
- शोधकर्ता एक सांख्यिकीय परीक्षण (जैसे टी-टेस्ट, काई-स्क्वायर टेस्ट) का उपयोग करके नमूना डेटा का विश्लेषण करता है।
- यह विश्लेषण एक पी-मान (p-value) उत्पन्न करता है। पी-मान यह संभावना है कि यदि शून्य परिकल्पना सत्य होती, तो हम कम से कम उतने ही चरम परिणाम देखते जितने वास्तव में देखे गए थे।
- शोधकर्ता पी-मान की तुलना एक पूर्व-निर्धारित महत्व स्तर (significance level, α) से करता है, जो आमतौर पर 0.05 होता है।
यदि पी-मान α से कम है (p ≤ 0.05), तो परिणाम को सांख्यिकीय रूप से महत्वपूर्ण माना जाता है। शोधकर्ता शून्य परिकल्पना को अस्वीकार कर देता है और यह निष्कर्ष निकालता है कि वैकल्पिक परिकल्पना के लिए सबूत हैं। यदि पी-मान α से अधिक है, तो शोधकर्ता शून्य परिकल्पना को अस्वीकार करने में विफल रहता है, जिसका अर्थ है कि प्रभाव का समर्थन करने के लिए पर्याप्त सबूत नहीं हैं।
संक्षेप में, परिकल्पना परीक्षण का उद्देश्य सांख्यिकीय अनुमान लगाने के लिए एक कठोर विधि प्रदान करना है, जिससे शोधकर्ताओं को नमूना साक्ष्य के आधार पर जनसंख्या के बारे में दावों की वैधता का मूल्यांकन करने और यादृच्छिक अवसर के कारण परिणामों की संभावना को मापने में मदद मिलती है।
Q2. निम्नलिखित जोड़ों के बीच अंतर करें: 4×2.5=10 (a) सहसंबंध और प्रतिगमन (b) द्विपद बंटन और प्वासों बंटन (c) प्राथमिक और द्वितीयक जैविक डेटाबेस (d) वैश्विक और स्थानीय अनुक्रम संरेखण
Ans.
(a) सहसंबंध (Correlation) और प्रतिगमन (Regression)
विशेषता सहसंबंध प्रतिगमन उद्देश्य दो चरों (variables) के बीच रैखिक संबंध की मजबूती और दिशा को मापता है। एक या अधिक स्वतंत्र चरों के आधार पर एक आश्रित चर के मान का अनुमान लगाने के लिए एक समीकरण बनाता है। चरों की भूमिका चरों को सममित रूप से माना जाता है; कोई स्वतंत्र या आश्रित चर नहीं होता है। X और Y विनिमेय हैं। चरों की अलग-अलग भूमिकाएँ होती हैं: एक आश्रित चर (Y) और एक या अधिक स्वतंत्र चर (X) । आउटपुट एक एकल मान, सहसंबंध गुणांक (r) , जो -1 से +1 तक होता है। एक गणितीय समीकरण (जैसे, Y = a + bX), जो चरों के बीच कार्यात्मक संबंध का वर्णन करता है। कार्य-कारण यह कार्य-कारण (causation) का संकेत नहीं देता है। यह केवल एक जुड़ाव दिखाता है। यह कार्य-कारण का संकेत नहीं देता है, लेकिन यह एक आश्रित चर पर स्वतंत्र चर के प्रभाव का मॉडल बना सकता है।
(b) द्विपद बंटन (Binomial distribution) और प्वासों बंटन (Poisson distribution)
विशेषता द्विपद बंटन प्वासों बंटन परिभाषा ‘n’ स्वतंत्र परीक्षणों में ‘k’ सफलताओं की संख्या की प्रायिकता का वर्णन करता है। एक निश्चित समय या स्थान अंतराल में होने वाली घटनाओं की संख्या की प्रायिकता का वर्णन करता है। परीक्षणों की संख्या परीक्षणों की संख्या (n) निश्चित और ज्ञात होती है। परीक्षणों की संख्या अनंत या अज्ञात होती है; यह घटनाओं की दर पर केंद्रित है। परिणाम प्रत्येक परीक्षण के केवल दो संभावित परिणाम होते हैं: सफलता या विफलता। संभावित परिणामों की संख्या (घटनाओं की संख्या) 0 से अनंत तक हो सकती है। पैरामीटर दो पैरामीटर: n (परीक्षणों की संख्या) और p (सफलता की प्रायिकता)। एक पैरामीटर: λ (लैम्ब्डा) (अंतराल में घटनाओं की औसत संख्या या दर)।
(c) प्राथमिक (Primary) और द्वितीयक (Secondary) जैविक डेटाबेस
विशेषता प्राथमिक डेटाबेस द्वितीयक डेटाबेस डेटा स्रोत शोधकर्ताओं द्वारा सीधे प्रस्तुत किए गए कच्चे (raw) प्रयोगात्मक डेटा को संग्रहीत करता है। ये डेटा के अभिलेखीय भंडार हैं। प्राथमिक डेटाबेस से डेटा का विश्लेषण, क्यूरेशन और संयोजन करके व्युत्पन्न जानकारी संग्रहीत करता है। सामग्री मुख्य रूप से न्यूक्लियोटाइड या प्रोटीन अनुक्रम, 3D आणविक संरचनाएं आदि शामिल हैं। एनोटेशन अक्सर न्यूनतम या स्वचालित होते हैं। इसमें क्यूरेटेड जानकारी होती है जैसे प्रोटीन परिवार, डोमेन, रूपांकन (motifs), अनुक्रम पैटर्न और विकासवादी संबंध। उदाहरण GenBank , ENA, DDBJ (न्यूक्लियोटाइड अनुक्रमों के लिए); Protein Data Bank (PDB) (3D संरचनाओं के लिए)। PROSITE , Pfam (प्रोटीन डोमेन/परिवारों के लिए); Swiss-Prot (उच्च-गुणवत्ता वाले एनोटेटेड प्रोटीन अनुक्रम)।
(d) वैश्विक (Global) और स्थानीय (Local) अनुक्रम संरेखण
विशेषता वैश्विक संरेखण स्थानीय संरेखण लक्ष्य दो अनुक्रमों को उनकी पूरी लंबाई के साथ संरेखित करने का प्रयास करता है, शुरू से अंत तक। दो अनुक्रमों के भीतर उच्च समानता वाले सबसे अच्छे उप-क्षेत्रों को ढूंढता और संरेखित करता है। उपयोग समान लंबाई के निकट संबंधी अनुक्रमों की तुलना करने के लिए सबसे उपयुक्त है। भिन्न लंबाई के दूर के संबंधी अनुक्रमों में संरक्षित डोमेन या रूपांकनों को खोजने के लिए उपयोगी है। गैप पेनल्टी संरेखण के सिरों पर गैप को दंडित किया जाता है, क्योंकि लक्ष्य पूरे अनुक्रम को संरेखित करना है। सिरों पर गैप को दंडित नहीं किया जाता है, जिससे अनुक्रमों के आंतरिक खंडों को संरेखित करना संभव हो जाता है। एल्गोरिथम नीडलमैन-वुन्श (Needleman-Wunsch) एल्गोरिथम। स्मिथ-वाटरमैन (Smith-Waterman) एल्गोरिथम।
Q3. निम्नलिखित पर संक्षिप्त नोट्स लिखें: 4×2.5=10 (a) प्रायिकता की अवधारणा (b) मानक विचलन (c) माइक्रोएरे तकनीक का सिद्धांत (d) एकाधिक अनुक्रम संरेखण
Ans.
(a) प्रायिकता की अवधारणा (Concept of probability) प्रायिकता किसी घटना के घटित होने की संभावना का एक संख्यात्मक माप है। यह 0 और 1 के बीच का एक मान है, जहाँ 0 एक असंभव घटना को इंगित करता है और 1 एक निश्चित घटना को इंगित करता है। जैव सांख्यिकी में, प्रायिकता सिद्धांत परिकल्पना परीक्षण और विश्वास अंतराल जैसे सांख्यिकीय अनुमान के लिए आधार प्रदान करता है। यह हमें अनिश्चितता को मापने और नमूना डेटा से जनसंख्या के बारे में निष्कर्ष निकालने की अनुमति देता है। उदाहरण के लिए, यदि हम एक सिक्का उछालते हैं, तो चित आने की प्रायिकता 0.5 है। इसी तरह, चिकित्सा निदान में, किसी विशेष लक्षण वाले रोगी में किसी बीमारी की प्रायिकता की गणना करना महत्वपूर्ण है। प्रायिकता के मूल नियम, जैसे योग का नियम और गुणन का नियम, जटिल घटनाओं की संभावनाओं की गणना के लिए आवश्यक हैं।
(b) मानक विचलन (Standard deviation) मानक विचलन (SD) एक सांख्यिकीय माप है जो किसी डेटा सेट के मानों के औसत (माध्य) से उनके फैलाव या विचलन की मात्रा को दर्शाता है। यह विचरण (variance) का वर्गमूल होता है। एक कम मानक विचलन यह इंगित करता है कि डेटा बिंदु माध्य के बहुत करीब हैं, जबकि एक उच्च मानक विचलन यह इंगित करता है कि डेटा बिंदु मूल्यों की एक विस्तृत श्रृंखला में फैले हुए हैं। जीव विज्ञान में, इसका उपयोग माप की परिवर्तनशीलता को दर्शाने के लिए किया जाता है, जैसे कि किसी प्रजाति में शरीर की लंबाई या किसी प्रयोग में एंजाइम गतिविधि। माध्य के साथ प्रस्तुत किए जाने पर, यह डेटा के वितरण का एक संक्षिप्त सारांश प्रदान करता है और हमें यह समझने में मदद करता है कि डेटा कितना संगत या परिवर्तनशील है।
(c) माइक्रोएरे तकनीक का सिद्धांत (Principle of microarray technology) माइक्रोएरे तकनीक एक शक्तिशाली जैव सूचना विज्ञान उपकरण है जो एक ही प्रयोग में हजारों जीनों के अभिव्यक्ति स्तर (expression levels) को एक साथ मापने की अनुमति देता है। इसका सिद्धांत न्यूक्लिक एसिड संकरण (hybridization) पर आधारित है। एक माइक्रोएरे चिप एक छोटी कांच की स्लाइड या झिल्ली होती है जिस पर हजारों ज्ञात डीएनए अनुक्रमों (जिन्हें प्रोब्स कहा जाता है) के छोटे धब्बे एक ग्रिड में व्यवस्थित होते हैं। प्रक्रिया में, दो अलग-अलग जैविक नमूनों (जैसे, एक कैंसरयुक्त ऊतक और एक स्वस्थ ऊतक) से मैसेंजर आरएनए (mRNA) निकाला जाता है। mRNA को रिवर्स ट्रांसक्रिप्शन द्वारा पूरक डीएनए (cDNA) में परिवर्तित किया जाता है और विभिन्न फ्लोरोसेंट रंगों (जैसे, लाल और हरा) से लेबल किया जाता है। फिर इस लेबल किए गए cDNA मिश्रण को माइक्रोएरे चिप पर संकरित किया जाता है। यदि किसी जीन को नमूने में व्यक्त किया जाता है, तो उसका cDNA चिप पर संबंधित प्रोब से बंध जाएगा। चिप को स्कैन करने के बाद, प्रत्येक स्थान पर फ्लोरोसेंट सिग्नल की तीव्रता उस नमूने में संबंधित जीन की अभिव्यक्ति के स्तर को दर्शाती है। यह तकनीक जीन अभिव्यक्ति प्रोफाइल में बड़े पैमाने पर परिवर्तन का विश्लेषण करने के लिए महत्वपूर्ण है।
(d) एकाधिक अनुक्रम संरेखण (Multiple sequence alignment) एकाधिक अनुक्रम संरेखण (MSA) तीन या अधिक जैविक अनुक्रमों (डीएनए, आरएनए, या प्रोटीन) को संरेखित करने की एक विधि है। इसका उद्देश्य अनुक्रमों के बीच विकासवादी रूप से संबंधित स्थितियों को एक दूसरे के ऊपर रखना है ताकि समानता और अंतर को उजागर किया जा सके। MSA जैव सूचना विज्ञान में एक मौलिक उपकरण है जिसके कई अनुप्रयोग हैं:
- संरक्षित क्षेत्रों की पहचान: MSA अनुक्रमों में उन क्षेत्रों को प्रकट करता है जो विकास के दौरान संरक्षित रहे हैं, जो अक्सर कार्यात्मक रूप से या संरचनात्मक रूप से महत्वपूर्ण होते हैं।
- जातिवृत्तीय विश्लेषण: MSA जातिवृत्तीय पेड़ों (phylogenetic trees) के निर्माण के लिए शुरुआती बिंदु है, जो अनुक्रमों के बीच विकासवादी संबंधों को दर्शाते हैं।
- प्रोटीन संरचना की भविष्यवाणी: ज्ञात संरचना वाले प्रोटीन के साथ एक अनुक्रम को संरेखित करके, अज्ञात प्रोटीन की द्वितीयक और तृतीयक संरचना की भविष्यवाणी करने में मदद मिल सकती है।
- प्राइमर डिजाइन: पीसीआर (PCR) के लिए प्राइमर डिजाइन करने के लिए संबंधित अनुक्रमों के संरक्षित क्षेत्रों का उपयोग किया जा सकता है।
Clustal Omega, MAFFT, और T-Coffee जैसे प्रोग्राम आमतौर पर MSA बनाने के लिए उपयोग किए जाते हैं।
Q4. (a) डेटा वर्गीकरण में वर्ग सीमा, वर्ग अंतराल और परास को परिभाषित करें। 5 (b) पी-मान को परिभाषित करें और परिकल्पना परीक्षण में इसके महत्व की व्याख्या करें। 5
Ans.
(a) डेटा वर्गीकरण में वर्ग सीमा, वर्ग अंतराल और परास
जब एक बड़े डेटा सेट के साथ काम किया जाता है, तो इसे समझने और विश्लेषण करने के लिए डेटा को समूहीकृत या वर्गीकृत करना अक्सर उपयोगी होता है। इस प्रक्रिया में इन प्रमुख शब्दों का उपयोग किया जाता है:
1. वर्ग सीमाएं (Class Limits): ये वे सबसे छोटे और सबसे बड़े मान हैं जो किसी दिए गए वर्ग (class) से संबंधित हो सकते हैं। प्रत्येक वर्ग में दो सीमाएँ होती हैं:
- निम्न वर्ग सीमा (Lower Class Limit): एक वर्ग में सबसे छोटा मान।
- उच्च वर्ग सीमा (Upper Class Limit): एक वर्ग में सबसे बड़ा मान।
उदाहरण के लिए, यदि एक वर्ग को “10-19” के रूप में परिभाषित किया गया है, तो निम्न वर्ग सीमा 10 है और उच्च वर्ग सीमा 19 है। ये सीमाएं यह सुनिश्चित करती हैं कि प्रत्येक डेटा बिंदु केवल एक वर्ग में आता है।
2. वर्ग अंतराल (Class Interval): वर्ग अंतराल, जिसे वर्ग की चौड़ाई भी कहा जाता है, एक वर्ग के आकार को दर्शाता है। इसकी गणना दो लगातार वर्गों की निम्न वर्ग सीमाओं या दो लगातार वर्गों की उच्च वर्ग सीमाओं के बीच के अंतर के रूप में की जा सकती है। यह वर्ग की ऊपरी और निचली वास्तविक सीमाओं (true boundaries) के बीच का अंतर भी है। उदाहरण के लिए, यदि हमारे पास वर्ग 10-19 और 20-29 हैं, तो वर्ग अंतराल 10 है (20 – 10 = 10)। डेटा के वितरण को प्रभावी ढंग से सारांशित करने के लिए एक सुसंगत वर्ग अंतराल चुनना महत्वपूर्ण है।
3. परास (Range): परास एक डेटा सेट में फैलाव का सबसे सरल माप है। इसकी गणना डेटा सेट में अधिकतम मान और न्यूनतम मान के बीच के अंतर के रूप में की जाती है।
परास = अधिकतम मान – न्यूनतम मान
उदाहरण के लिए, यदि एक डेटा सेट में मान 2, 5, 8, 12, 15 हैं, तो परास 15 – 2 = 13 होगा। परास डेटा के समग्र प्रसार का एक त्वरित विचार देता है, लेकिन यह बाहरी मानों (outliers) के प्रति बहुत संवेदनशील होता है और डेटा के वितरण के बारे में विस्तृत जानकारी प्रदान नहीं करता है।
(b) पी-मान और परिकल्पना परीक्षण में इसका महत्व
परिभाषा:
पी-मान (p-value) , या प्रायिकता मान, परिकल्पना परीक्षण में एक केंद्रीय अवधारणा है। यह इस संभावना को मापता है कि यदि शून्य परिकल्पना (null hypothesis, H₀) सही है, तो देखे गए परिणाम जितने या उससे अधिक चरम परिणाम प्राप्त होंगे। सरल शब्दों में, यह इस बात का एक माप है कि आपका डेटा शून्य परिकल्पना के साथ कितना असंगत है। यह एक यादृच्छिक संयोग के कारण आपके परिणाम प्राप्त करने की संभावना है।
परिकल्पना परीक्षण में महत्व: पी-मान का महत्व सांख्यिकीय महत्व (statistical significance) निर्धारित करने और शून्य परिकल्पना के बारे में निर्णय लेने में इसकी भूमिका में निहित है।
1. निर्णय लेने का आधार: शोधकर्ता पी-मान की तुलना एक पूर्व-निर्धारित महत्व स्तर (significance level) , जिसे अल्फा (α) कहा जाता है, से करता है। अल्फा आमतौर पर 0.05 (या 5%) पर सेट होता है।
2. शून्य परिकल्पना को अस्वीकार करना:
- यदि p ≤ α (जैसे, p ≤ 0.05), तो परिणाम को सांख्यिकीय रूप से महत्वपूर्ण माना जाता है। इसका मतलब है कि देखे गए परिणाम के संयोग से होने की संभावना बहुत कम है। इसलिए, हम शून्य परिकल्पना (जो कहती है कि कोई प्रभाव नहीं है) को अस्वीकार करते हैं और यह निष्कर्ष निकालते हैं कि वैकल्पिक परिकल्पना (जो कहती है कि एक प्रभाव है) के लिए सबूत हैं।
3. शून्य परिकल्पना को अस्वीकार करने में विफल होना:
- यदि p > α (जैसे, p > 0.05), तो परिणाम को सांख्यिकीय रूप से महत्वपूर्ण नहीं माना जाता है। इसका मतलब है कि देखे गए परिणाम को आसानी से संयोग से समझाया जा सकता है। इसलिए, हम शून्य परिकल्पना को अस्वीकार करने में विफल रहते हैं। यह साबित नहीं करता है कि शून्य परिकल्पना सच है , बल्कि केवल यह कि हमारे पास इसे अस्वीकार करने के लिए पर्याप्त सबूत नहीं हैं।
महत्वपूर्ण बिंदु:
- एक छोटा पी-मान (जैसे, 0.01) एक बड़े पी-मान (जैसे, 0.04) की तुलना में शून्य परिकल्पना के खिलाफ मजबूत सबूत इंगित करता है।
- पी-मान प्रभाव के आकार या महत्व को नहीं मापता है। एक बहुत छोटा पी-मान एक छोटे, तुच्छ प्रभाव के साथ भी हो सकता है यदि नमूना आकार बहुत बड़ा हो।
संक्षेप में, पी-मान एक मात्रात्मक उपकरण है जो शोधकर्ताओं को नमूना डेटा से वस्तुनिष्ठ निष्कर्ष निकालने में मदद करता है, जिससे विज्ञान में साक्ष्य-आधारित निर्णय लेने की प्रक्रिया को आधार मिलता है।
Q5. (a) एक अस्पताल 10 सप्ताह की अवधि में डॉक्टरों की एक टीम द्वारा साप्ताहिक रूप से की गई सर्जरी की संख्या का विश्लेषण करके सर्जनों के कार्यभार का मूल्यांकन करना चाहता है: 5 सर्जरी की संख्या (X) | सर्जरी की आवृत्ति (f) 3 | 2 4 | 3 5 | 4 6 | 5 7 | 3 8 | 3 (i) आयोजित की गई सर्जरी की माध्य, माध्यिका और बहुलक संख्या की गणना करें। (ii) बहुलक अस्पताल में आयोजित सर्जरी की आवृत्ति के बारे में क्या बताता है? (b) बायोइनफॉरमैटिक सॉफ्टवेयर के विकास में C/C++ के उपयोग की व्याख्या करें। 5
Ans.
(a) (i) माध्य, माध्यिका और बहुलक की गणना
दिए गए डेटा से माध्य, माध्यिका और बहुलक की गणना करने के लिए, हम पहले एक गणना तालिका बनाते हैं।
कुल प्रेक्षणों की संख्या (N) = Σf = 2 + 3 + 4 + 5 + 3 + 3 = 20
सर्जरी की संख्या (X) आवृत्ति (f) f * X संचयी आवृत्ति (cf) 3 2 6 2 4 3 12 5 5 4 20 9 6 5 30 14 7 3 21 17 8 3 24 20 कुल Σf = 20 Σ(fX) = 113
1. माध्य (Mean) की गणना: माध्य = Σ(fX) / Σf माध्य = 113 / 20 = 5.65 औसतन, प्रति सप्ताह 5.65 सर्जरी की जाती हैं।
2. माध्यिका (Median) की गणना: माध्यिका (N/2)वें पद का मान है। यहाँ N = 20 है, जो एक सम संख्या है, इसलिए माध्यिका (20/2)वें और (20/2 + 1)वें पदों का औसत होगी, अर्थात 10वें और 11वें पदों का औसत। संचयी आवृत्ति (cf) तालिका से, हम देखते हैं कि 9वें पद तक मान 5 है, और 10वें से 14वें पद तक मान 6 है। इसलिए, 10वां पद = 6 और 11वां पद = 6। माध्यिका = (6 + 6) / 2 = 6
3. बहुलक (Mode) की गणना: बहुलक वह मान है जिसकी आवृत्ति सबसे अधिक होती है। तालिका में, आवृत्ति (f) का उच्चतम मान 5 है, जो सर्जरी की संख्या (X) = 6 के संगत है। इसलिए, बहुलक = 6
(a) (ii) बहुलक का सुझाव बहुलक, जो 6 है, यह बताता है कि अस्पताल में एक सप्ताह में सबसे अधिक बार होने वाली सर्जरी की संख्या 6 है । दूसरे शब्दों में, 20 सप्ताह की अवधि में, 6 सर्जरी वाला सप्ताह सबसे आम घटना थी, जो 5 बार हुई। यह सर्जनों के लिए सबसे विशिष्ट या सामान्य साप्ताहिक कार्यभार का प्रतिनिधित्व करता है।
(b) बायोइनफॉरमैटिक सॉफ्टवेयर के विकास में C/C++ का उपयोग
C और C++ शक्तिशाली, उच्च-प्रदर्शन वाली प्रोग्रामिंग भाषाएँ हैं जिन्हें बायोइनफॉरमैटिक सॉफ्टवेयर के विकास के लिए कई कारणों से पसंद किया जाता है, खासकर जब गति और दक्षता महत्वपूर्ण होती है।
- उच्च प्रदर्शन और गति: C/C++ संकलित (compiled) भाषाएँ हैं, जिसका अर्थ है कि कोड सीधे मशीन कोड में अनुवादित होता है जो प्रोसेसर पर तेजी से चलता है। यह अनुक्रम संरेखण (जैसे BLAST) , जीनोम असेंबली , और आणविक गतिशीलता सिमुलेशन जैसे कम्प्यूटेशनल रूप से गहन कार्यों के लिए महत्वपूर्ण है, जहाँ विशाल डेटासेट पर जटिल एल्गोरिदम को कुशलतापूर्वक चलाने की आवश्यकता होती है।
- स्मृति प्रबंधन पर नियंत्रण: बायोइनफॉरमैटिक्स में अक्सर बहुत बड़े डेटासेट (जैसे पूरे जीनोम) को संभालना शामिल होता है। C/C++ प्रोग्रामरों को स्मृति आवंटन और डी-आवंटन पर निम्न-स्तरीय नियंत्रण प्रदान करते हैं, जिससे उन्हें बड़े डेटा संरचनाओं को कुशलतापूर्वक प्रबंधित करने और स्मृति के उपयोग को अनुकूलित करने की अनुमति मिलती है।
- सिस्टम-स्तरीय प्रोग्रामिंग: ये भाषाएँ हार्डवेयर और ऑपरेटिंग सिस्टम के साथ सीधे इंटरैक्ट करने की क्षमता प्रदान करती हैं। यह विशेष हार्डवेयर (जैसे GPUs) का लाभ उठाने या जटिल, बहु-थ्रेडेड अनुप्रयोगों के निर्माण के लिए उपयोगी है जो आधुनिक प्रोसेसर के समानांतर प्रसंस्करण क्षमताओं का पूरी तरह से उपयोग करते हैं।
- विरासत कोड और पुस्तकालयों के साथ संगतता: बायोइनफॉरमैटिक्स में कई मौलिक एल्गोरिदम और पुस्तकालय (libraries) मूल रूप से C या C++ में लिखे गए थे। इन भाषाओं का उपयोग करने से मौजूदा, सिद्ध कोडबेस को एकीकृत करना और उन पर निर्माण करना आसान हो जाता है।
- पोर्टेबिलिटी: C/C++ कोड को विभिन्न ऑपरेटिंग सिस्टम (जैसे लिनक्स, विंडोज, मैकओएस) पर अपेक्षाकृत आसानी से संकलित और चलाया जा सकता है, जिससे विकसित सॉफ्टवेयर व्यापक रूप से सुलभ हो जाता है।
इन कारणों से, प्रदर्शन-महत्वपूर्ण अनुप्रयोगों के लिए C/C++ एक प्रमुख विकल्प बना हुआ है, जबकि Python जैसी स्क्रिप्टिंग भाषाओं का उपयोग अक्सर तेजी से प्रोटोटाइप बनाने और इन उच्च-प्रदर्शन उपकरणों को नियंत्रित करने के लिए किया जाता है।
Q6. (a) आणविक घड़ी परिकल्पना को संक्षेप में समझाएं। 5 (b) एक प्राथमिक डेटाबेस के रूप में जेनबैंक की मुख्य विशेषताओं का वर्णन करें। 5
Ans.
(a) आणविक घड़ी परिकल्पना (Molecular Clock Hypothesis)
आणविक घड़ी परिकल्पना, जिसे 1960 के दशक में एमिल ज़करकैंडल और लिनस पॉलिंग द्वारा प्रस्तावित किया गया था, यह बताती है कि डीएनए और प्रोटीन अनुक्रम समय के साथ अपेक्षाकृत स्थिर दर से विकसित होते हैं। इसका मतलब है कि दो प्रजातियों के बीच आनुवंशिक अंतर (उत्परिवर्तन की संख्या) उस समय के सीधे आनुपातिक है जब वे एक सामान्य पूर्वज से अलग हुई थीं।
मुख्य सिद्धांत:
- स्थिर विकास दर: परिकल्पना का मूल आधार यह है कि किसी दिए गए जीन या प्रोटीन के लिए, न्यूक्लियोटाइड या अमीनो एसिड प्रतिस्थापन की दर लाखों वर्षों में लगभग स्थिर रहती है।
- विचलन समय का अनुमान: यदि यह दर ज्ञात है (जीवाश्म रिकॉर्ड का उपयोग करके इसे कैलिब्रेट करके), तो दो प्रजातियों के अनुक्रमों के बीच अंतर की गणना करके उनके अंतिम सामान्य पूर्वज के बाद से विचलन के समय का अनुमान लगाया जा सकता है। उदाहरण के लिए, यदि मनुष्यों और चिंपांज़ी के बीच एक निश्चित जीन में ‘x’ अंतर हैं, और उत्परिवर्तन की दर ‘r’ प्रति मिलियन वर्ष है, तो उनके विचलन के समय का अनुमान लगाया जा सकता है।
- सूत्र: विचलन समय (T) की गणना अक्सर T = K / (2r) के रूप में की जाती है, जहाँ ‘K’ दो अनुक्रमों के बीच प्रतिस्थापन की संख्या है और ‘r’ प्रति साइट प्रति वर्ष प्रतिस्थापन की दर है।
महत्व और सीमाएं: यह परिकल्पना जातिवृत्तीय (phylogenetics) में क्रांति ला दी, क्योंकि इसने जीवाश्म रिकॉर्ड के अभाव में भी विकासवादी समय-सीमा का अनुमान लगाने का एक तरीका प्रदान किया। हालांकि, यह परिकल्पना सरल है और इसकी सीमाएं हैं। विकास की दर हमेशा स्थिर नहीं होती है; यह विभिन्न जीनों (कार्यात्मक रूप से महत्वपूर्ण जीन धीरे-धीरे विकसित होते हैं), विभिन्न वंशों और विभिन्न समय अवधियों में भिन्न हो सकती है। प्राकृतिक चयन भी उत्परिवर्तन की दर को प्रभावित कर सकता है, जिससे घड़ी की गति धीमी या तेज हो सकती है। इन सीमाओं के बावजूद, आणविक घड़ी आणविक विकास और जातिवृत्तीय के अध्ययन में एक मौलिक अवधारणा बनी हुई है।
(b) जेनबैंक (GenBank) की मुख्य विशेषताएं
जेनबैंक दुनिया के सबसे महत्वपूर्ण और व्यापक रूप से उपयोग किए जाने वाले जैविक डेटाबेस में से एक है। यह एक प्राथमिक न्यूक्लियोटाइड अनुक्रम डेटाबेस है। इसकी मुख्य विशेषताएं निम्नलिखित हैं:
- प्राथमिक और अभिलेखीय डेटाबेस: जेनबैंक एक प्राथमिक डेटाबेस है, जिसका अर्थ है कि यह सीधे तौर पर दुनिया भर के शोधकर्ताओं से प्राप्त कच्चे (raw) अनुक्रम डेटा को संग्रहीत करता है। यह एक अभिलेखीय भंडार के रूप में कार्य करता है, यह सुनिश्चित करता है कि प्रकाशित शोध से जुड़ा डेटा सार्वजनिक रूप से उपलब्ध रहे।
- सार्वजनिक और मुफ्त पहुंच: जेनबैंक में संग्रहीत सभी डेटा जनता के लिए पूरी तरह से मुफ्त और अप्रतिबंधित है। कोई भी व्यक्ति इंटरनेट के माध्यम से डेटा को खोज, देख और डाउनलोड कर सकता है।
- अंतर्राष्ट्रीय सहयोग का हिस्सा (INSDC): जेनबैंक अंतर्राष्ट्रीय न्यूक्लियोटाइड अनुक्रम डेटाबेस सहयोग (INSDC) का एक हिस्सा है, जिसमें जापान का डीएनए डेटा बैंक (DDBJ) और यूरोप का यूरोपीय न्यूक्लियोटाइड आर्काइव (ENA) भी शामिल है। ये तीन डेटाबेस दैनिक रूप से डेटा का आदान-प्रदान करते हैं, इसलिए वे अनिवार्य रूप से एक ही डेटा को संग्रहीत करते हैं।
- व्यापक कवरेज: इसमें 500,000 से अधिक नामित जीवों से डीएनए और आरएनए अनुक्रमों का एक विशाल संग्रह है। इसमें जीनोमिक डीएनए, मैसेंजर आरएनए (mRNA), और एक्सप्रेस किए गए अनुक्रम टैग (ESTs) सहित विभिन्न प्रकार के अनुक्रम शामिल हैं।
- अद्वितीय परिगम संख्या (Accession Number): प्रत्येक प्रस्तुत अनुक्रम को एक अद्वितीय परिगम संख्या (जैसे, NM_004321, U49845) सौंपी जाती है। यह संख्या अनुक्रम के लिए एक स्थिर पहचानकर्ता के रूप में कार्य करती है और प्रकाशनों में इसका उल्लेख किया जाता है, जिससे डेटा की पुनर्प्राप्ति सुनिश्चित होती है।
- मानकीकृत प्रारूप: डेटा को एक मानकीकृत “फ्लैट फ़ाइल” प्रारूप में प्रस्तुत किया जाता है जिसमें अनुक्रम के बारे में विस्तृत जानकारी होती है, जैसे कि लोकस, परिभाषा, जीव स्रोत, संदर्भ (प्रकाशन), विशेषताएं (जैसे जीन, कोडिंग अनुक्रम), और वास्तविक न्यूक्लियोटाइड अनुक्रम।
ये विशेषताएं जेनबैंक को आणविक जीव विज्ञान, आनुवंशिकी, विकास और जैव सूचना विज्ञान में अनुसंधान के लिए एक अनिवार्य संसाधन बनाती हैं।
Q7. (a) जातिवृत्त प्रतिनिधित्व के संदर्भ में टैक्सा, शाखाएं, नोड्स, मूल और क्लेड शब्दों की व्याख्या करें। 5 (b) द्रव्यमान स्पेक्ट्रोमेट्री का उपयोग करके प्रोटीन की पहचान और लक्षण वर्णन की प्रक्रिया का वर्णन करें। 5
Ans.
(a) जातिवृत्त (Phylogeny) प्रतिनिधित्व में प्रयुक्त शब्द
एक जातिवृत्तीय वृक्ष (phylogenetic tree) एक आरेख है जो जीवों या अनुक्रमों के समूहों के बीच विकासवादी संबंधों को दर्शाता है। इसके मुख्य घटक निम्नलिखित हैं:
- टैक्सा (Taxa) (या पत्तियां/सिरे): ये वृक्ष की शाखाओं के अंतिम बिंदु होते हैं। प्रत्येक टैक्सा एक विशिष्ट जीव, प्रजाति, या जीन का प्रतिनिधित्व करता है जिसका विश्लेषण किया जा रहा है। ये वे “वर्तमान” इकाइयाँ हैं जिनके बीच संबंधों का अध्ययन किया जा रहा है।
- शाखाएं (Branches) (या किनारे/Edges): ये वे रेखाएँ हैं जो नोड्स और टैक्सा को जोड़ती हैं। शाखाएं टैक्सा के बीच विकासवादी वंश का प्रतिनिधित्व करती हैं। एक शाखित वृक्ष में (स्केल्ड ट्री), शाखा की लंबाई अक्सर विकासवादी परिवर्तन की मात्रा (जैसे, आनुवंशिक अंतर) या समय का प्रतिनिधित्व करती है।
- नोड्स (Nodes): ये वृक्ष के भीतर वे बिंदु हैं जहाँ शाखाएं विभाजित होती हैं। प्रत्येक नोड एक काल्पनिक पूर्वज का प्रतिनिधित्व करता है जो उस बिंदु से उतरने वाले सभी टैक्सा के लिए सामान्य था। एक आंतरिक नोड एक विशाखन घटना (speciation event) का प्रतिनिधित्व करता है।
- मूल (Root): यह वृक्ष का सबसे आधारभूत नोड है और यह पेड़ में शामिल सभी टैक्सा के सबसे हाल के सामान्य पूर्वज (most recent common ancestor) का प्रतिनिधित्व करता है। एक मूल वृक्ष (rooted tree) में समय की दिशा होती है, जो मूल से पत्तियों की ओर बढ़ती है। बिना मूल वाले वृक्ष (unrooted tree) केवल टैक्सा के बीच संबंध दिखाते हैं लेकिन विकासवादी मार्ग का संकेत नहीं देते हैं।
- क्लेड (Clade): एक क्लेड एक मोनोफिलेटिक समूह है, जिसमें एक पूर्वज नोड और उसके सभी वंशज शामिल होते हैं। एक जातिवृत्तीय वृक्ष में, एक क्लेड एक एकल शाखा और उससे निकलने वाली सभी उप-शाखाओं और पत्तियों का एक पूरा समूह होता है। क्लेड विकास की प्राकृतिक इकाइयों का प्रतिनिधित्व करते हैं।
(b) द्रव्यमान स्पेक्ट्रोमेट्री द्वारा प्रोटीन की पहचान और लक्षण वर्णन
द्रव्यमान स्पेक्ट्रोमेट्री (Mass Spectrometry, MS) प्रोटिओमिक्स में एक अत्यधिक संवेदनशील और शक्तिशाली विश्लेषणात्मक तकनीक है जिसका उपयोग प्रोटीन की पहचान, मात्रा का निर्धारण और लक्षण वर्णन करने के लिए किया जाता है। प्रक्रिया में आम तौर पर निम्नलिखित चरण शामिल होते हैं:
1. नमूना तैयार करना और प्रोटीन निष्कर्षण: सबसे पहले, कोशिकाओं या ऊतकों जैसे जैविक नमूने से प्रोटीन का मिश्रण निकाला जाता है। यदि नमूना जटिल है, तो इसे अक्सर 2डी-जेल इलेक्ट्रोफोरेसिस या तरल क्रोमैटोग्राफी जैसी तकनीकों का उपयोग करके सरल बनाया जाता है ताकि व्यक्तिगत प्रोटीन को अलग किया जा सके।
2. एंजाइमेटिक पाचन (Enzymatic Digestion): पूरे प्रोटीन का विश्लेषण करना मुश्किल होता है, इसलिए उन्हें ट्रिप्सिन (trypsin) जैसे एंजाइम का उपयोग करके छोटे, अधिक प्रबंधनीय टुकड़ों में काटा या पचाया जाता है, जिन्हें पेप्टाइड्स (peptides) कहा जाता है। ट्रिप्सिन विशिष्ट अमीनो एसिड (लाइसिन और आर्जिनिन) के बाद प्रोटीन को काटता है, जिससे पेप्टाइड्स का एक अनुमानित सेट बनता है।
3. द्रव्यमान स्पेक्ट्रोमेट्री विश्लेषण: पेप्टाइड्स के मिश्रण को द्रव्यमान स्पेक्ट्रोमीटर में पेश किया जाता है।
- पेप्टाइड्स को आयनित किया जाता है (जैसे, MALDI या ESI तकनीकों द्वारा) और फिर विद्युत और/या चुंबकीय क्षेत्रों का उपयोग करके उनके द्रव्यमान-से-आवेश अनुपात (mass-to-charge ratio, m/z) के अनुसार अलग किया जाता है।
- पेप्टाइड मास फिंगरप्रिंटिंग (PMF): एक सरल दृष्टिकोण में, स्पेक्ट्रोमीटर पेप्टाइड मिश्रण में प्रत्येक पेप्टाइड के द्रव्यमान को मापता है। इन द्रव्यमानों का सेट एक “फिंगरप्रिंट” बनाता है जो उस विशिष्ट प्रोटीन के लिए अद्वितीय होता है जिससे वे उत्पन्न हुए थे।
- टैंडेम मास स्पेक्ट्रोमेट्री (MS/MS): अधिक सटीक पहचान के लिए, MS/MS का उपयोग किया जाता है। इस तकनीक में, पहले द्रव्यमान विश्लेषक से एक विशेष पेप्टाइड आयन का चयन किया जाता है, फिर इसे छोटे टुकड़ों में तोड़ा (fragmented) जाता है, और फिर इन टुकड़ों के m/z को दूसरे द्रव्यमान विश्लेषक में मापा जाता है। इससे उस पेप्टाइड के लिए आंशिक अमीनो एसिड अनुक्रम जानकारी प्राप्त होती है।
4. डेटाबेस खोज (Database Searching): अंत में, प्रयोगात्मक रूप से प्राप्त डेटा (पेप्टाइड द्रव्यमान की सूची या MS/MS विखंडन पैटर्न) की तुलना एक प्रोटीन अनुक्रम डेटाबेस (जैसे Swiss-Prot या NCBI) में संग्रहीत सैद्धांतिक डेटा से की जाती है। विशेष सॉफ्टवेयर (जैसे, MASCOT, Sequest) प्रयोगात्मक स्पेक्ट्रा की तुलना डेटाबेस में प्रत्येक प्रोटीन के लिए सैद्धांतिक रूप से अनुमानित पेप्टाइड द्रव्यमान या विखंडन पैटर्न से करता है। जिस प्रोटीन का सैद्धांतिक डेटा प्रयोगात्मक डेटा से सबसे अच्छा मेल खाता है, उसे नमूने में मौजूद प्रोटीन के रूप में पहचाना जाता है।
IGNOU MZO-006 Previous Year Solved Question Paper in English
Q1. (a) Discuss the role of biostatistics in medical research and public health planning. 5 (b) What is the purpose of hypothesis testing in biostatistical research ? 5
Ans. (a) Role of Biostatistics in Medical Research and Public Health Planning Biostatistics is the science of collecting, analyzing, interpreting, and presenting data related to biology and health sciences. Its role in medical research and public health planning is fundamental and indispensable. Role in Medical Research:
- Study Design: Biostatisticians are crucial in designing clinical trials and epidemiological studies. They ensure the study is scientifically sound, with adequate sample size , proper randomization methods, and appropriate control groups to minimize bias and produce reliable results.
- Data Analysis: Once data is collected, biostatisticians analyze it using statistical methods. They determine if a new drug or treatment has a significant effect, or if there is an association between a particular risk factor and a disease using tests like t-tests, ANOVA, and chi-squared tests.
- Interpretation of Results: They help researchers interpret the results correctly, ensuring that conclusions are supported by the data and that the probability of error is taken into account.
- Epidemiology: It uses statistical methods to study the patterns, causes, and effects of diseases in populations. It has been instrumental in identifying risk factors for diseases, such as the link between smoking and lung cancer.
Role in Public Health Planning:
- Disease Surveillance: Biostatistics is used to monitor and track outbreaks of diseases like COVID-19 or influenza, helping public health officials to respond in a timely manner.
- Resource Allocation: By analyzing health data, planners can decide where to allocate resources such as hospitals, vaccines, and medical personnel to be most effective.
- Policy Evaluation: Statistical methods help assess the effectiveness of public health interventions, such as vaccination campaigns or health education programs.
- Health Economics: It helps in analyzing the cost-effectiveness of different treatments and preventive strategies, guiding policymakers to make informed decisions.
(b) Purpose of Hypothesis Testing in Biostatistical Research
Hypothesis testing is a formal procedure in biostatistical research used to make inferences or decisions about a population based on sample data. Its primary purpose is to provide an objective and systematic framework for evaluating the validity of a claim or hypothesis.
The process of hypothesis testing involves setting up two competing hypotheses:
1.
Null Hypothesis (H₀):
This is a statement suggesting no effect, no difference, or no relationship. For example, a null hypothesis might be that a new drug has no better effect than a placebo. The goal of research is often to reject this hypothesis.
2.
Alternative Hypothesis (H₁ or Hₐ):
This is the statement that the researcher is trying to prove. It is the opposite of the null hypothesis. For example, the alternative hypothesis would be that the new drug
is more effective
than the placebo.
The purpose of the test is to determine whether there is enough evidence in the sample data to reject the null hypothesis. The process is as follows:
- The researcher analyzes the sample data using a statistical test (e.g., t-test, chi-square test).
- This analysis generates a p-value . The p-value is the probability that, if the null hypothesis were true, we would see results at least as extreme as those actually observed.
- The researcher compares the p-value to a pre-determined significance level (α) , which is typically 0.05.
If the p-value is less than α (p ≤ 0.05), the result is considered
statistically significant
. The researcher rejects the null hypothesis and concludes there is evidence for the alternative hypothesis. If the p-value is greater than α, the researcher fails to reject the null hypothesis, meaning there is not enough evidence to support an effect.
In essence, the purpose of hypothesis testing is to provide a rigorous method for making statistical inferences, allowing researchers to assess the validity of claims about a population based on sample evidence and to quantify the likelihood that the results are due to random chance.
Q2. Differentiate between the following pairs of terms : 4×2.5=10 (a) Correlation and Regression (b) Binomial distribution and Poisson distribution (c) Primary and _ Secondary _ biological databases (d) Global and Local sequence alignment
Ans. (a) Correlation and Regression
Feature |
Correlation |
Regression |
Purpose |
Measures the strength and direction of the linear relationship between two variables. |
Builds an equation to predict the value of a dependent variable based on one or more independent variables. |
Role of Variables |
Variables are treated symmetrically; there is no independent or dependent variable. X and Y are interchangeable. |
Variables have distinct roles: a dependent variable (Y) and one or more independent variables (X) . |
Output |
A single value, the correlation coefficient (r) , which ranges from -1 to +1. |
A mathematical equation (e.g., Y = a + bX) that describes the functional relationship between variables. |
Causation |
Does not imply causation. It only shows an association. | Does not imply causation, but it can model the effect of an independent variable on a dependent one. |
(b) Binomial distribution and Poisson distribution
Feature |
Binomial Distribution |
Poisson Distribution |
Definition |
Describes the probability of ‘k’ successes in ‘n’ independent trials. | Describes the probability of a given number of events occurring in a fixed interval of time or space. |
Number of Trials |
The number of trials (n) is fixed and known . |
The number of trials is infinite or unknown ; it focuses on the rate of events. |
Outcomes |
Each trial has only two possible outcomes : success or failure. |
The number of possible outcomes (number of events) can range from 0 to infinity. |
Parameters |
Two parameters: n (number of trials) and p (probability of success). |
One parameter: λ (lambda) (the average number or rate of events in the interval). |
(c) Primary and Secondary biological databases
Feature |
Primary Database |
Secondary Database |
Data Source |
Stores raw experimental data submitted directly by researchers. They are archival repositories of data. |
Stores derived information obtained by analyzing, curating, and combining data from primary databases. |
Content |
Mainly contains nucleotide or protein sequences, 3D molecular structures, etc. Annotation is often minimal or automated. | Contains curated information like protein families, domains, motifs, sequence patterns, and evolutionary relationships. |
Examples |
GenBank , ENA, DDBJ (for nucleotide sequences); Protein Data Bank (PDB) (for 3D structures). |
PROSITE , Pfam (for protein domains/families); Swiss-Prot (high-quality annotated protein sequences). |
(d) Global and Local sequence alignment
Feature |
Global Alignment |
Local Alignment |
Goal |
Attempts to align two sequences across their entire length , from start to end. |
Finds and aligns the best matching sub-regions of high similarity within two sequences. |
Use Case |
Best suited for comparing closely related sequences of similar length. |
Useful for finding conserved domains or motifs in distantly related sequences or sequences of different lengths. |
Gap Penalty |
Gaps at the ends of the alignment are penalized, as the goal is to align the whole sequence. | Gaps at the ends are not penalized, allowing internal segments of sequences to be aligned. |
Algorithm |
The Needleman-Wunsch algorithm. |
The Smith-Waterman algorithm. |
Q3. Write short notes on the following : 4×2.5=10 (a) Concept of probability (b) Standard deviation (c)_ Principle of microarray technology (d) Multiple sequence alignment
Ans. (a) Concept of probability Probability is a numerical measure of the likelihood of an event occurring. It is a value between 0 and 1, where 0 indicates an impossible event and 1 indicates a certain event. In biostatistics, probability theory provides the foundation for statistical inference, such as hypothesis testing and confidence intervals. It allows us to quantify uncertainty and draw conclusions about a population from sample data. For example, if we toss a fair coin, the probability of getting heads is 0.5. Similarly, in medical diagnosis, it is crucial to calculate the probability of a disease in a patient with a particular symptom. The basic rules of probability, such as the addition rule and multiplication rule, are essential for calculating the chances of complex events. (b) Standard deviation Standard deviation (SD) is a statistical measure that quantifies the amount of variation or dispersion of a set of data values from their average (mean). It is the square root of the variance. A low standard deviation indicates that the data points tend to be very close to the mean, whereas a high standard deviation indicates that the data points are spread out over a wider range of values. In biology, it is commonly used to report the variability of measurements, such as body length in a species or enzyme activity in an experiment. When presented alongside the mean, it provides a concise summary of the data’s distribution and helps us understand how consistent or variable the data is. (c) Principle of microarray technology Microarray technology is a powerful bioinformatics tool that allows for the simultaneous measurement of the expression levels of thousands of genes in a single experiment. Its principle is based on nucleic acid hybridization . A microarray chip is a small glass slide or membrane onto which thousands of tiny spots of known DNA sequences (called probes) are arranged in a grid. In the process, messenger RNA (mRNA) is extracted from two different biological samples (e.g., a cancerous tissue and a healthy tissue). The mRNA is converted into complementary DNA (cDNA) by reverse transcription and labeled with different fluorescent dyes (e.g., red and green). This labeled cDNA mixture is then hybridized to the microarray chip. If a gene is expressed in the sample, its cDNA will bind to the corresponding probe on the chip. After scanning the chip, the intensity of the fluorescent signal at each spot indicates the expression level of the corresponding gene in that sample. This technology is crucial for analyzing large-scale changes in gene expression profiles. (d) Multiple sequence alignment Multiple sequence alignment (MSA) is the method of aligning three or more biological sequences (DNA, RNA, or protein). The goal is to arrange evolutionarily related positions among the sequences on top of each other to highlight similarities and differences. MSA is a fundamental tool in bioinformatics with several applications:
- Identification of conserved regions: MSA reveals regions in sequences that have been conserved during evolution, which are often functionally or structurally important.
- Phylogenetic analysis: MSA is the starting point for constructing phylogenetic trees, which depict the evolutionary relationships between the sequences.
- Protein structure prediction: By aligning a sequence with proteins of known structure, it can help predict the secondary and tertiary structure of the unknown protein.
- Primer design: Conserved regions of related sequences can be used to design primers for PCR.
Programs like Clustal Omega, MAFFT, and T-Coffee are commonly used to create MSAs.
Q4. (a) Define class limits, class intervals and range in data classification. 5 (b) Define the p-value and explain its significance in hypothesis testing. 5
Ans. (a) Class limits, Class intervals, and Range in Data Classification When working with a large dataset, it is often useful to group or classify the data to make it easier to understand and analyze. These key terms are used in this process: 1. Class Limits: These are the smallest and largest values that can belong to a given class in a frequency distribution. Each class has two limits:
- Lower Class Limit: The smallest value that can go into a class.
- Upper Class Limit: The largest value that can go into a class.
For example, if a class is defined as “10-19”, the lower class limit is 10 and the upper class limit is 19. These limits ensure that each data point falls into only one class.
2.
Class Interval:
The class interval, also known as class width, refers to the size of a class. It can be calculated as the difference between the lower class limits of two consecutive classes or the upper class limits of two consecutive classes. It is also the difference between the upper and lower true boundaries of a class. For example, if we have classes 10-19 and 20-29, the class interval is 10 (20 – 10 = 10). Choosing a consistent class interval is important for effectively summarizing the distribution of the data.
3.
Range:
The range is the simplest measure of spread or dispersion in a dataset. It is calculated as the difference between the maximum value and the minimum value in the dataset.
Range = Maximum Value – Minimum Value
For instance, if a dataset contains the values 2, 5, 8, 12, 15, the range would be 15 – 2 = 13. The range gives a quick idea of the overall spread of the data, but it is very sensitive to outliers and does not provide detailed information about the distribution of the data.
(b) The p-value and its significance in hypothesis testing
Definition:
The
p-value
, or probability value, is a central concept in hypothesis testing. It measures the probability of obtaining test results at least as extreme as the results actually observed, under the assumption that the
null hypothesis (H₀)
is correct. In simpler terms, it’s a measure of how inconsistent your data are with the null hypothesis. It is the probability of obtaining your results by random chance alone.
Significance in Hypothesis Testing:
The significance of the p-value lies in its role in determining statistical significance and making a decision about the null hypothesis.
1.
Basis for Decision-Making:
The researcher compares the p-value to a pre-determined
significance level
, called
alpha (α)
. Alpha is typically set at 0.05 (or 5%).
2.
Rejecting the Null Hypothesis:
- If p ≤ α (e.g., p ≤ 0.05), the result is considered statistically significant . This means it is very unlikely that the observed result occurred by chance. We therefore reject the null hypothesis (which states there is no effect) and conclude there is evidence for the alternative hypothesis (which states there is an effect).
3.
Failing to Reject the Null Hypothesis:
- If p > α (e.g., p > 0.05), the result is not considered statistically significant. This means the observed result could easily be explained by chance. We therefore fail to reject the null hypothesis. This does not prove the null hypothesis is true , but only that we do not have enough evidence to reject it.
Important Points:
- A smaller p-value (e.g., 0.01) indicates stronger evidence against the null hypothesis than a larger p-value (e.g., 0.04).
- The p-value does not measure the size or importance of an effect. A very small p-value can occur with a small, trivial effect if the sample size is very large.
In summary, the p-value is a quantitative tool that helps researchers draw objective conclusions from sample data, underpinning the process of evidence-based decision-making in science.
Q5. (a) A hospital wants to evaluate the workload of surgeons by analyzing the number of surgeries performed weekly by a team of doctors over a span of 20 weeks : 5 Number of Surgeries (X) | Frequency of Surgeries (f) 3 | 2 4 | 3 5 | 4 6 | 5 7 | 3 8 | 3 (i) Compute the mean, median and mode number of — surgeries conducted. (ii) What does the mode suggest about the frequency of surgeries held in the hospital ? (b) Explain the use of C/C++ in the development of bioinformatic software. 5
Ans. (a) (i) Computation of Mean, Median, and Mode To calculate the mean, median, and mode from the given data, we first create a calculation table. Total number of observations (N) = Σf = 2 + 3 + 4 + 5 + 3 + 3 = 20
| Number of Surgeries (X) | Frequency (f) | f * X | Cumulative Frequency (cf) |
|---|---|---|---|
| 3 | 2 | 6 | 2 |
| 4 | 3 | 12 | 5 |
| 5 | 4 | 20 | 9 |
| 6 | 5 | 30 | 14 |
| 7 | 3 | 21 | 17 |
| 8 | 3 | 24 | 20 |
Total |
Σf = 20 |
Σ(fX) = 113 |
1. Calculation of Mean:
Mean = Σ(fX) / Σf
Mean = 113 / 20 =
5.65
On average, 5.65 surgeries are conducted per week.
2. Calculation of Median:
The median is the value of the (N/2)th item. Since N = 20 (an even number), the median is the average of the (20/2)th and (20/2 + 1)th items, i.e., the 10th and 11th items.
From the cumulative frequency (cf) table, we see that values up to the 9th item are 5, and values from the 10th to the 14th item are 6.
Therefore, the 10th item = 6 and the 11th item = 6.
Median = (6 + 6) / 2 =
6
3. Calculation of Mode:
The mode is the value with the highest frequency.
In the table, the highest frequency (f) is 5, which corresponds to the Number of Surgeries (X) = 6.
Therefore, the Mode =
6
(a) (ii) Suggestion of the Mode
The mode, which is 6, suggests that the
most frequently occurring number of surgeries in a week is 6
. In other words, over the 20-week period, a week with 6 surgeries was the most common occurrence, happening 5 times. It represents the most typical or common weekly workload for the surgeons.
(b) Use of C/C++ in the development of bioinformatic software
C and C++ are powerful, high-performance programming languages that are favored for the development of bioinformatic software for several reasons, especially when speed and efficiency are critical.
- High Performance and Speed: C/C++ are compiled languages, meaning the code is translated directly into machine code that runs very fast on the processor. This is crucial for computationally intensive tasks such as sequence alignment (e.g., BLAST) , genome assembly , and molecular dynamics simulations, where complex algorithms need to run efficiently on massive datasets.
- Control over Memory Management: Bioinformatics often involves handling very large datasets (e.g., entire genomes). C/C++ give programmers low-level control over memory allocation and de-allocation, allowing them to efficiently manage large data structures and optimize memory usage.
- System-level Programming: These languages provide the ability to interact directly with hardware and the operating system. This is useful for taking advantage of special hardware (like GPUs) or for building complex, multi-threaded applications that fully utilize the parallel processing capabilities of modern processors.
- Compatibility with Legacy Code and Libraries: Many foundational algorithms and libraries in bioinformatics were originally written in C or C++. Using these languages makes it easier to integrate with and build upon existing, well-established codebases.
- Portability: C/C++ code can be compiled and run on different operating systems (e.g., Linux, Windows, macOS) with relative ease, making the developed software widely accessible.
For these reasons, C/C++ remain a primary choice for performance-critical applications, while scripting languages like Python are often used for rapid prototyping and for orchestrating these high-performance tools.
Q6. (a) Briefly explain the molecular clock hypothesis. 5 (b) Describe the key features of GenBank as a primary database. 5
Ans. (a) The Molecular Clock Hypothesis The molecular clock hypothesis, proposed by Emile Zuckerkandl and Linus Pauling in the 1960s, suggests that DNA and protein sequences evolve at a relatively constant rate over time. This means that the number of genetic differences (mutations) between two species is directly proportional to the time since they diverged from a common ancestor. Key Principles:
- Constant Rate of Evolution: The core assumption is that for a given gene or protein, the rate of nucleotide or amino acid substitutions is approximately constant over millions of years.
- Estimating Divergence Time: If this rate is known (by calibrating it using the fossil record), one can estimate the time of divergence since the last common ancestor by calculating the number of differences between the sequences of two species. For example, if a certain gene has ‘x’ differences between humans and chimpanzees, and the mutation rate is ‘r’ per million years, their divergence time can be estimated.
- Formula: Divergence time (T) is often calculated as T = K / (2r), where ‘K’ is the number of substitutions between two sequences and ‘r’ is the rate of substitution per site per year.
Significance and Limitations:
This hypothesis revolutionized phylogenetics as it provided a way to estimate evolutionary timescales even in the absence of a fossil record. However, the hypothesis is a simplification and has its limitations. The rate of evolution is not perfectly constant; it can vary between different genes (functionally important genes evolve slower), different lineages, and different time periods.
Natural selection
can also affect the rate of mutation, causing the clock to speed up or slow down. Despite these limitations, the molecular clock remains a fundamental concept in the study of molecular evolution and phylogenetics.
(b) Key Features of GenBank
GenBank is one of the world’s most important and widely used biological databases. It is a
primary nucleotide sequence database
. Its key features are as follows:
- Primary and Archival Database: GenBank is a primary database, meaning it stores raw sequence data submitted directly from researchers worldwide. It acts as an archival repository, ensuring that data associated with published research remains publicly available.
- Public and Free Access: All data stored in GenBank is completely free and unrestricted to the public. Anyone can search, view, and download the data via the internet.
- Part of an International Collaboration (INSDC): GenBank is part of the International Nucleotide Sequence Database Collaboration (INSDC) , which also includes the DNA Data Bank of Japan (DDBJ) and the European Nucleotide Archive (ENA) in Europe. These three databases exchange data daily, so they store essentially the same data.
- Comprehensive Coverage: It contains a vast collection of DNA and RNA sequences from over 500,000 named organisms. It includes various types of sequences, including genomic DNA, messenger RNA (mRNA), and expressed sequence tags (ESTs).
- Unique Accession Numbers: Each submitted sequence is assigned a unique accession number (e.g., NM_004321, U49845). This number serves as a stable identifier for the sequence and is cited in publications, ensuring data retrievability.
- Standardized Format: Data is presented in a standardized “flat file” format that contains detailed information about the sequence, such as the LOCUS, DEFINITION, organism SOURCE, REFERENCE (publication), FEATURES (like gene, coding sequence), and the actual nucleotide sequence.
These features make GenBank an indispensable resource for research in molecular biology, genetics, evolution, and bioinformatics.
Q7. (a) Explain the terms taxa, branches, nodes, root and clade in the context of phylogeny representation. 5 (b) Describe the process of protein identification and characteristion using mass spectrometry. 5
Ans. (a) Terms in Phylogeny Representation A phylogenetic tree is a diagram that depicts the evolutionary relationships among groups of organisms or sequences. Its main components are:
- Taxa (or Leaves/Tips): These are the endpoints of the tree’s branches. Each taxon represents a specific organism, species, or gene being analyzed. They are the “present-day” entities whose relationships are being studied.
- Branches (or Edges): These are the lines that connect the nodes and taxa. Branches represent the evolutionary lineage between taxa. In a scaled tree, the branch length often represents the amount of evolutionary change (e.g., genetic difference) or time.
- Nodes: These are the points within the tree where branches diverge. Each node represents a hypothetical ancestor that was common to all the taxa that descend from that point. An internal node represents a speciation event.
- Root: This is the most basal node of the tree and represents the most recent common ancestor of all the taxa included in the tree. A rooted tree has a direction of time, flowing from the root towards the leaves. An unrooted tree only shows the relationships among taxa but does not indicate the evolutionary path.
- Clade: A clade is a monophyletic group, comprising an ancestral node and all of its descendants . In a phylogenetic tree, a clade is a complete group of a single branch and all the sub-branches and leaves that stem from it. Clades represent natural units of evolution.
(b) Protein Identification and Characterization using Mass Spectrometry
Mass Spectrometry (MS) is a highly sensitive and powerful analytical technique in proteomics used to identify, quantify, and characterize proteins. The process generally involves the following steps:
1.
Sample Preparation and Protein Extraction:
First, a mixture of proteins is extracted from a biological sample, such as cells or tissues. If the sample is complex, it is often simplified to isolate individual proteins using techniques like 2D-gel electrophoresis or liquid chromatography.
2.
Enzymatic Digestion:
Whole proteins are difficult to analyze, so they are cut or digested into smaller, more manageable pieces called
peptides
using an enzyme like
trypsin
. Trypsin cleaves the protein after specific amino acids (lysine and arginine), creating a predictable set of peptides.
3.
Mass Spectrometry Analysis:
The mixture of peptides is introduced into the mass spectrometer.
- The peptides are ionized (e.g., by MALDI or ESI techniques) and then separated according to their mass-to-charge ratio (m/z) using electric and/or magnetic fields.
- Peptide Mass Fingerprinting (PMF): In a simple approach, the spectrometer measures the mass of each peptide in the mixture. This set of masses creates a “fingerprint” that is unique to the specific protein from which they originated.
- Tandem Mass Spectrometry (MS/MS): For more accurate identification, MS/MS is used. In this technique, a specific peptide ion is selected from the first mass analyzer, then fragmented into smaller pieces, and the m/z of these fragments is measured in a second mass analyzer. This provides partial amino acid sequence information for that peptide.
4.
Database Searching:
Finally, the experimentally obtained data (the list of peptide masses or the MS/MS fragmentation pattern) is compared against theoretical data stored in a protein sequence database (like Swiss-Prot or NCBI). Specialized software (e.g., MASCOT, Sequest) compares the experimental spectra to the theoretically predicted peptide masses or fragmentation patterns for each protein in the database. The protein whose theoretical data provides the best match to the experimental data is identified as the protein present in the sample.
Download IGNOU previous Year Question paper download PDFs for MZO-006 to improve your preparation. These ignou solved question paper IGNOU Previous Year Question paper solved PDF in Hindi and English help you understand the exam pattern and score better.
Thanks!
Leave a Reply