Page 5
Semester 5: Biostatistics and Bioinformatics
History and introduction to Bioinformatics: Applications and data generation from molecular biology, genome sequencing, protein sequencing, NMR spectroscopy, microarray
History and introduction to Bioinformatics
Bioinformatics का इतिहास
Bioinformatics की शुरुआत 20वीं सदी के अंत में हुई। जब जैविक जानकारी को व्यवस्थित करने की आवश्यकता बढ़ी। पहले कंप्यूटर का उपयोग केवल डेटा को स्टोर करने के लिए किया जाता था, लेकिन धीरे-धीरे इनका इस्तेमाल डेटा विश्लेषण में भी होने लगा।
Bioinformatics के प्रकार
Bioinformatics कई प्रकार की तकनीकों का उपयोग करता है जैसे कि DNA, RNA, और प्रोटीन अनुक्रमण।
मॉलिक्यूलर बायोलॉजी से डेटा जनरेशन
मॉलिक्यूलर बायोलॉजी में डेटा को उत्पन्न करने के लिए विभिन्न तकनीकें जैसे PCR, क्लोनिंग टेक्नोलॉजी का उपयोग किया जाता है। यह डेटा बाद में Bioinformatics में विश्लेषण में सहायक होता है।
जीनोम अनुक्रमण
जीनोम अनुक्रमण एक महत्वपूर्ण प्रक्रिया है जिसके माध्यम से जीवों के पूरे जीनोम की अनुक्रमण किया जाता है। यह शोधकर्ताओं को जीनों के प्रस्तावित कार्य और विकास में मदद करता है।
प्रोटीन अनुक्रमण
प्रोटीन अनुक्रमण प्रोटीन की संरचना और कार्य को समझने में मदद करता है। यह प्रोटीन के निर्माण की प्रक्रियाओं का अध्ययन करने के लिए आवश्यक है।
NMR स्पेक्ट्रोस्कोपि
NMR स्पेक्ट्रोस्कोपि का उपयोग प्रोटीन और अन्य मॉलिक्यूल का तीन-आयामी संरचना निर्धारित करने के लिए किया जाता है। यह जैविक अनुसंधान में महत्वपूर्ण भूमिका निभाता है।
माइक्रोएरे
माइक्रोएरे तकनीक का उपयोग जीन अभिव्यक्ति का अध्ययन करने के लिए किया जाता है। यह एक साथ हजारों जीनों की अभिव्यक्ति का विश्लेषण करने में सक्षम बनाता है।
Databases, data generation, storage and retrieval: Biological databases including NCBI, DDBJ, EMBL, protein databases, specialized genome and structure databases, file formats, metadata and search techniques
Databases, data generation, storage and retrieval in biological contexts
Biological Databases Overview
जीवविज्ञान में डाटाबेस का उपयोग जैविक डेटा के संग्रहण और पुनर्प्राप्ति के लिए किया जाता है। प्रमुख जीवविज्ञान डाटाबेस में NCBI (नेशनल सेंटर फॉर बायोटेक्नोलॉजी इन्फॉर्मेशन), DDBJ (डीडीबीजे) और EMBL (यूरोपीय मोलेक्यूलर बायॉलजी लेबोरेटरी) शामिल हैं।
Protein Databases
प्रोटीन डेटाबेस प्रोटीन संरचना, कार्य और अनुक्रम की जानकारी प्रदान करते हैं। इसके अंतर्गत UNIPROT और PDB (प्रोटीन डेटा बैंक) आते हैं, जो प्रोटीन संबंधी जानकारी का संग्रह करते हैं।
Genome and Structure Databases
जीनोम डेटाबेस विशेष रूप से जीनोम अनुक्रम और स्टक्चर की जानकारी प्रदान करते हैं। विशेषीकृत डेटाबेस जैसे कि Ensembl और UCSC Genome Browser महत्वपूर्ण होते हैं।
File Formats in Biological Databases
जीवविज्ञान डाटाबेस में सामान्यतः FASTA, FASTQ, GFF, और VCF फ़ाइल स्वरूपों का उपयोग किया जाता है। ये फ़ाइल प्रारूप डेटा के भंडारण और संचार में सहायक होते हैं।
Metadata in Biological Databases
मेटाडेटा अतिरिक्त जानकारी होती है जो डेटा के संदर्भ को स्पष्ट करती है। जैविक डाटाबेस में मेटाडेटा जैसे कि डेटासेट का स्रोत, प्रकाशन तिथि और अधिकार उपयोगी होते हैं।
Search Techniques in Biological Databases
जैविक डाटाबेस में डेटा खोजने के लिए विभिन्न तकनीकताएँ प्रयोग की जाती हैं। कीवर्ड खोज, BLAST (बेसिक लोकल अलाइनमेंट सर्च टूल) और अनुक्रम समानता खोज प्रमुख तकनीक हैं।
Sequence and Phylogeny analysis: Sequences and alignments, dynamic programming, local and global alignment, pairwise alignment (BLAST and FASTA), multiple sequence alignment, phylogenetic analysis, PCR primer designing
Sequence and Phylogeny analysis
Sequences and Alignments
जीन या प्रोटीन अनुक्रमों की तुलना के लिए अनुक्रम और संरेखण का उपयोग किया जाता है। यह अध्ययन जीवों के बीच विभिन्नता और संबंधों को समझने में मदद करता है।
Dynamic Programming
डायनामिक प्रोग्रामिंग एक गणितीय दृष्टिकोण है जिसका उपयोग अनुक्रमों की सर्वश्रेष्ठ तुलना करने के लिए किया जाता है। इसका उपयोग स्थानीय और वैश्विक संरेखण के लिए किया जाता है।
Local and Global Alignment
स्थानीय संरेखण में अनुक्रमों के कुछ हिस्सों की तुलना की जाती है, जबकि वैश्विक संरेखण पूरे अनुक्रमों की तुलना करता है। दोनों विधियाँ जीव विज्ञान में महत्वपूर्ण हैं।
Pairwise Alignment (BLAST and FASTA)
BLAST और FASTA जैसे उपकरण जोड़े में अनुक्रमों की तुलना करने के लिए उपयोग होते हैं। BLAST लंबी अनुक्रमों की तेजी से तुलना करता है जबकि FASTA अधिक संवेदनशीलता प्रदान करता है।
Multiple Sequence Alignment
कई अनुक्रमों के समवर्ती संरेखण के लिए मल्टीपल सिकोन्स एलाइन्मेंट का उपयोग किया जाता है। यह एक साझा वंश के जीवों के बीच समानताओं और भिन्नताओं को दर्शाता है।
Phylogenetic Analysis
फाइलोजेनेटिक विश्लेषण जीवों के बीच विकासात्मक संबंधों को जानने के लिए किया जाता है। यह आनुवंशिकी, ओषधि, और पारिस्थितिकी में महत्वपूर्ण है।
PCR Primer Designing
PCR प्राइमर डिजाइनिंग एक महत्वपूर्ण प्रक्रिया है जो जीन के विशिष्ट भागों को लक्षित करने में मदद करती है। सही प्राइमर चयन अनुक्रमण और विश्लेषण में प्रभाव डालता है।
Searching databases: SRS, Entrez, sequence similarity searches, genome annotation tools
Searching databases: SRS, Entrez, sequence similarity searches, genome annotation tools
SRS (Sequence Retrieval System)
SRS एक साधन है जो बायोइन्फॉर्मेटिक्स में जीन और प्रोटीन अनुक्रमों को खोजने में मदद करता है। यह उपयोगकर्ताओं को डेटाबेस में विभिन्न अनुक्रमों के लिए खोज करने की अनुमति देता है।
Entrez
Entrez एक ऑनलाइन समग्र डेटाबेस प्रणाली है जो NIH द्वारा विकसित की गई है। यह उपयोगकर्ताओं को जीनोम, प्रोटीन, और साहित्य संबंधी जानकारी प्राप्त करने की सुविधा देता है।
Sequence Similarity Searches
अनुक्रम समानता खोज एक प्रक्रिया है जिसमें शोधकर्ता एक विशेष अनुक्रम की तुलना में अन्य अनुक्रमों की पहचान करते हैं। यह विभिन्न एनजीएस टूल और BLAST जैसे कार्यक्रमों का उपयोग करके किया जाता है।
Genome Annotation Tools
जीनोम एनोटेशन टूल्स का प्रयोग जीनोम अनुक्रम में जीनों और अन्य विशेषताओं की पहचान और वर्गीकरण के लिए किया जाता है। ये टूल जीन की गति, रूप और कार्य के बारे में जानकारी प्रदान करते हैं।
Types and collection of data: Primary and secondary data, graphical representation, measures of central tendency and dispersion, skewness and kurtosis
Types and Collection of Data
Primary Data
प्राथमिक डेटा वह डेटा होता है जो सीधे स्रोत से संग्रहित किया जाता है। यह मौलिक जानकारी प्रदान करता है और इसमें सर्वेक्षण, प्रयोग और अवलोकन शामिल हो सकते हैं।
Secondary Data
द्वितीयक डेटा वह डेटा है जिसे पहले से एकत्रित किया जा चुका है और इसे अन्य स्रोतों से प्राप्त किया जाता है। इसमें पुस्तकों, शोध पत्रों, और डेटाबेस से जुटाए गए आंकड़े शामिल होते हैं।
Graphical Representation
ग्राफिकल प्रतिनिधित्व डेटा को चित्रात्मक रूप में प्रस्तुत करता है। इसमें विभिन्न प्रकार के चार्ट और ग्राफ शामिल होते हैं जैसे बार चार्ट, पाई चार्ट, और रेखा ग्राफ।
Measures of Central Tendency
केंद्रीय प्रवृत्ति के माप में डेटा के केंद्र के चारों ओर डेटा के वितरण का सारांश होता है। इसके प्रमुख मापों में माध्य, माध्यम और मोड शामिल हैं।
Measures of Dispersion
विसरण के माप डेटा के फैलाव को मापते हैं। इसमें मानक विचलन, श्रेणी, और विरूपण शामिल होते हैं। इनसे यह पता चलता है कि डेटा कैसे फैलता है।
Skewness
स्क्यूनेस डेटा के वितरण की असामान्यता को मापता है। यदि डेटा दाईं ओर फैला हुआ है, तो यह सकारात्मक स्क्यूनेस है और यदि बाईं ओर, तो यह नकारात्मक स्क्यूनेस है।
Kurtosis
कर्टोसिस डेटा के वितरण की तीव्रता या चपटा पन को मापता है। इसे उच्च कर्टोसिस (गर्भित वितरण) और निम्न कर्टोसिस (फ्लैट वितरण) में वर्गीकृत किया जा सकता है.
Probability: Definition and theorems, elementary ideas of binomial, Poisson and normal distributions
Probability: Definition and Theorems, Elementary Ideas of Binomial, Poisson and Normal Distributions
Probability का परिभाषा
Probability किसी घटना के होने की संभावना को दर्शाने वाली संख्या है। इसे 0 से 1 के बीच मापा जाता है। 0 का मतलब है घटना का न होना और 1 का मतलब है घटना का निश्चित होना।
Probability के सिद्धांत
Probability के कई सिद्धांत हैं, जिनमें: 1. Additive Law: यदि दो घटनाएँ आपस में स्वतंत्र हैं, तो उनकी संयुक्त संभावना उनके व्यक्तिगत संभावनाओं का योग होगी। 2. Multiplicative Law: यदि दो घटनाएँ स्वतंत्र हैं, तो उनकी संयुक्त संभावना उनके व्यक्तिगत संभावनाओं का गुणनफल होगा।
Binomial Distribution
Binomial Distribution तब उत्पन्न होता है जब एक निश्चित संख्या में स्वतंत्र घटनाएँ होती हैं, जहाँ प्रत्येक घटना में केवल दो संभावनाएँ होती हैं। इसका मान निम्नलिखित सूत्र से निकाला जाता है: n = संख्या p = सफलता की संभावना q = असफलता की संभावना P(X=k) = (nCk) * (p^k) * (q^(n-k))
Poisson Distribution
Poisson Distribution तब उपयोग किया जाता है जब किसी निश्चित समय या क्षेत्र में किसी घटना के होने की संख्या को मापा जाता है। इसका उपयोग अलग-अलग क्षेत्रों में किया जाता है, जैसे कि विज्ञान और वित्त। इसकी विशेषता यह है कि इसमें औसत घटना की दर स्थिर होती है। साधारणत: इसे निम्नलिखित सूत्र से दर्शाया जाता है: P(X=k) = (e^(-λ) * λ^k) / k! जहाँ λ = औसत दर है।
Normal Distribution
Normal Distribution एक निरंतर वितरण है जो एक बेल आकार का ग्राफ बनाता है। यह वितरण ज़्यादातर प्रकृति में पाया जाता है और कई स्थितियों में उपयोग किया जाता है। इसकी विशेषताएँ हैं: 1. साधारण मान (Mean) को केंद्र के रूप में देखता है। 2. मानक विचलन (Standard Deviation) के उपयोग से वितरण की चौड़ाई को निर्धारित किया जाता है। 3. 68-95-99.7 नियम के अनुसार, लगभग 68% डेटा एक मानक विचलन के भीतर, 95% दो मानक विचलन के भीतर और 99.7% तीन मानक विचलन के भीतर होता है.
Sampling: Sampling methods, confidence level, hypothesis testing, large and small sample tests, t-test, chi-square, ANOVA
Sampling and its Methods
Sampling Methods
सैंपलिंग विधियाँ डेटा संग्रहण की तकनीकें हैं। ये मुख्यतः दो प्रकार की होती हैं: प्रायोगिक और गैर-प्रायोगिक। प्रायोगिक सैंपलिंग में रेंडम सैंपलिंग, सिस्टमेटिक सैंपलिंग और स्ट्रेटिफाइड सैंपलिंग शामिल हैं। गैर-प्रायोगिक सैंपलिंग में काँवेनीएंट सैंपलिंग और जजमेंटल सैंपलिंग शामिल होते हैं।
Confidence Level
कॉन्फिडेंस स्तर एक सांख्यिकीय माप है जो दिलाई गई जानकारी की सहीता को दर्शाता है। आमतौर पर, 95% या 99% कॉन्फिडेंस स्तर का उपयोग किया जाता है। यह स्तर बताता है कि सैंपल परिणाम हर बार सही होने की कितनी संभावना है।
Hypothesis Testing
हाइपोथेसिस परीक्षण एक सांख्यिकीय विधि है जिसका उपयोग किसी दावे या मान्यता की सत्यता को परखने के लिए किया जाता है। इसमें शून्य हाइपोथेसिस और वैकल्पिक हाइपोथेसिस की परिभाषा और परीक्षण शामिल होता है।
Large and Small Sample Tests
बड़े और छोटे सैंपल परीक्षण का चयन सैंपल के आकार पर निर्भर करता है। सामान्यतः, छोटे सैंपल परीक्षण में t-test का उपयोग किया जाता है, जबकि बड़े सैंपल परीक्षण में z-test का उपयोग होता है।
t-test
t-test का उपयोग तब किया जाता है जब डेटा का सैंपल आकार छोटा होता है। यह दो या दो से अधिक समूहों के लिए औसत मूल्य की तुलना करने की विधि है।
Chi-Square Test
ची-स्क्वायर परीक्षण एक सांख्यिकीय तकनीक है जिसका उपयोग श्रेणीबद्ध डेटा के लिए किया जाता है। यह डेटा में स्वतंत्रता और संभावनाओं के संबंध को स्थापित करने में मदद करता है।
ANOVA
ANOVA (Analysis of Variance) एक विस्तृत परीक्षण है जो यह निर्धारित करने के लिए इस्तेमाल होता है कि विभिन्न समूहों के बीच औसत में कोई महत्वपूर्ण अंतर है या नहीं। यह एक साथ कई समूहों की तुलना करने की अनुमति देता है।
Correlation and Regression: Types, Karl-Pearson and Spearman correlations, regression analysis, differences between correlation and regression
Correlation and Regression
Correlation
सहसंबंध यह दर्शाता है कि दो चर एक साथ कैसे बदलते हैं। यदि एक चर में वृद्धि होती है तो क्या दूसरा भी बढ़ता है या घटता है।
Types of Correlation
सहसंबंध के मुख्य प्रकार हैं: सकारात्मक सहसंबंध, नकारात्मक सहसंबंध, और शून्य सहसंबंध।
Karl-Pearson Correlation Coefficient
कार्ल-पियर्सन का सहसंबंध गुणांक एक सांख्यिकीय मान है जो दो चर के बीच के रैखिक संबंध को मापता है। यह -1 से 1 तक हो सकता है, जहाँ 1 का अर्थ पूर्ण सकारात्मक सहसंबंध और -1 का अर्थ पूर्ण नकारात्मक सहसंबंध है।
Spearman Rank Correlation Coefficient
स्पीयर्मन रैंक सहसंबंध गुणांक डेटा के रैंक पर आधारित होता है और यह गैर-रैखिक संबंधों के लिए उपयुक्त होता है।
Regression Analysis
प्रतिगमन विश्लेषण एक सांख्यिकीय तकनीक है जिसका उपयोग एक चर के मूल्यों का अनुमान लगाने के लिए किया जाता है, आधार पर एक या अधिक स्वतंत्र चर।
Differences between Correlation and Regression
सहसंबंध केवल यह बताता है कि मुक्त और आश्रित चर के बीच संबंध है, जबकि प्रतिगमन एक चर का अनुमान लगाने के लिए एक व्यंजक प्रारूप प्रदान करता है।
