Page 5

Semester 5: Biostatistics and Bioinformatics

  • History and introduction to Bioinformatics: Applications and data generation from molecular biology, genome sequencing, protein sequencing, NMR spectroscopy, microarray

    History and introduction to Bioinformatics
    • Bioinformatics का इतिहास

      Bioinformatics की शुरुआत 20वीं सदी के अंत में हुई। जब जैविक जानकारी को व्यवस्थित करने की आवश्यकता बढ़ी। पहले कंप्यूटर का उपयोग केवल डेटा को स्टोर करने के लिए किया जाता था, लेकिन धीरे-धीरे इनका इस्तेमाल डेटा विश्लेषण में भी होने लगा।

    • Bioinformatics के प्रकार

      Bioinformatics कई प्रकार की तकनीकों का उपयोग करता है जैसे कि DNA, RNA, और प्रोटीन अनुक्रमण।

    • मॉलिक्यूलर बायोलॉजी से डेटा जनरेशन

      मॉलिक्यूलर बायोलॉजी में डेटा को उत्पन्न करने के लिए विभिन्न तकनीकें जैसे PCR, क्लोनिंग टेक्नोलॉजी का उपयोग किया जाता है। यह डेटा बाद में Bioinformatics में विश्लेषण में सहायक होता है।

    • जीनोम अनुक्रमण

      जीनोम अनुक्रमण एक महत्वपूर्ण प्रक्रिया है जिसके माध्यम से जीवों के पूरे जीनोम की अनुक्रमण किया जाता है। यह शोधकर्ताओं को जीनों के प्रस्तावित कार्य और विकास में मदद करता है।

    • प्रोटीन अनुक्रमण

      प्रोटीन अनुक्रमण प्रोटीन की संरचना और कार्य को समझने में मदद करता है। यह प्रोटीन के निर्माण की प्रक्रियाओं का अध्ययन करने के लिए आवश्यक है।

    • NMR स्पेक्ट्रोस्कोपि

      NMR स्पेक्ट्रोस्कोपि का उपयोग प्रोटीन और अन्य मॉलिक्यूल का तीन-आयामी संरचना निर्धारित करने के लिए किया जाता है। यह जैविक अनुसंधान में महत्वपूर्ण भूमिका निभाता है।

    • माइक्रोएरे

      माइक्रोएरे तकनीक का उपयोग जीन अभिव्यक्ति का अध्ययन करने के लिए किया जाता है। यह एक साथ हजारों जीनों की अभिव्यक्ति का विश्लेषण करने में सक्षम बनाता है।

  • Databases, data generation, storage and retrieval: Biological databases including NCBI, DDBJ, EMBL, protein databases, specialized genome and structure databases, file formats, metadata and search techniques

    Databases, data generation, storage and retrieval in biological contexts
    • Biological Databases Overview

      जीवविज्ञान में डाटाबेस का उपयोग जैविक डेटा के संग्रहण और पुनर्प्राप्ति के लिए किया जाता है। प्रमुख जीवविज्ञान डाटाबेस में NCBI (नेशनल सेंटर फॉर बायोटेक्नोलॉजी इन्फॉर्मेशन), DDBJ (डीडीबीजे) और EMBL (यूरोपीय मोलेक्यूलर बायॉलजी लेबोरेटरी) शामिल हैं।

    • Protein Databases

      प्रोटीन डेटाबेस प्रोटीन संरचना, कार्य और अनुक्रम की जानकारी प्रदान करते हैं। इसके अंतर्गत UNIPROT और PDB (प्रोटीन डेटा बैंक) आते हैं, जो प्रोटीन संबंधी जानकारी का संग्रह करते हैं।

    • Genome and Structure Databases

      जीनोम डेटाबेस विशेष रूप से जीनोम अनुक्रम और स्टक्चर की जानकारी प्रदान करते हैं। विशेषीकृत डेटाबेस जैसे कि Ensembl और UCSC Genome Browser महत्वपूर्ण होते हैं।

    • File Formats in Biological Databases

      जीवविज्ञान डाटाबेस में सामान्यतः FASTA, FASTQ, GFF, और VCF फ़ाइल स्वरूपों का उपयोग किया जाता है। ये फ़ाइल प्रारूप डेटा के भंडारण और संचार में सहायक होते हैं।

    • Metadata in Biological Databases

      मेटाडेटा अतिरिक्त जानकारी होती है जो डेटा के संदर्भ को स्पष्ट करती है। जैविक डाटाबेस में मेटाडेटा जैसे कि डेटासेट का स्रोत, प्रकाशन तिथि और अधिकार उपयोगी होते हैं।

    • Search Techniques in Biological Databases

      जैविक डाटाबेस में डेटा खोजने के लिए विभिन्न तकनीकताएँ प्रयोग की जाती हैं। कीवर्ड खोज, BLAST (बेसिक लोकल अलाइनमेंट सर्च टूल) और अनुक्रम समानता खोज प्रमुख तकनीक हैं।

  • Sequence and Phylogeny analysis: Sequences and alignments, dynamic programming, local and global alignment, pairwise alignment (BLAST and FASTA), multiple sequence alignment, phylogenetic analysis, PCR primer designing

    Sequence and Phylogeny analysis
    • Sequences and Alignments

      जीन या प्रोटीन अनुक्रमों की तुलना के लिए अनुक्रम और संरेखण का उपयोग किया जाता है। यह अध्ययन जीवों के बीच विभिन्नता और संबंधों को समझने में मदद करता है।

    • Dynamic Programming

      डायनामिक प्रोग्रामिंग एक गणितीय दृष्टिकोण है जिसका उपयोग अनुक्रमों की सर्वश्रेष्ठ तुलना करने के लिए किया जाता है। इसका उपयोग स्थानीय और वैश्विक संरेखण के लिए किया जाता है।

    • Local and Global Alignment

      स्थानीय संरेखण में अनुक्रमों के कुछ हिस्सों की तुलना की जाती है, जबकि वैश्विक संरेखण पूरे अनुक्रमों की तुलना करता है। दोनों विधियाँ जीव विज्ञान में महत्वपूर्ण हैं।

    • Pairwise Alignment (BLAST and FASTA)

      BLAST और FASTA जैसे उपकरण जोड़े में अनुक्रमों की तुलना करने के लिए उपयोग होते हैं। BLAST लंबी अनुक्रमों की तेजी से तुलना करता है जबकि FASTA अधिक संवेदनशीलता प्रदान करता है।

    • Multiple Sequence Alignment

      कई अनुक्रमों के समवर्ती संरेखण के लिए मल्टीपल सिकोन्स एलाइन्मेंट का उपयोग किया जाता है। यह एक साझा वंश के जीवों के बीच समानताओं और भिन्नताओं को दर्शाता है।

    • Phylogenetic Analysis

      फाइलोजेनेटिक विश्लेषण जीवों के बीच विकासात्मक संबंधों को जानने के लिए किया जाता है। यह आनुवंशिकी, ओषधि, और पारिस्थितिकी में महत्वपूर्ण है।

    • PCR Primer Designing

      PCR प्राइमर डिजाइनिंग एक महत्वपूर्ण प्रक्रिया है जो जीन के विशिष्ट भागों को लक्षित करने में मदद करती है। सही प्राइमर चयन अनुक्रमण और विश्लेषण में प्रभाव डालता है।

  • Searching databases: SRS, Entrez, sequence similarity searches, genome annotation tools

    Searching databases: SRS, Entrez, sequence similarity searches, genome annotation tools
    • SRS (Sequence Retrieval System)

      SRS एक साधन है जो बायोइन्फॉर्मेटिक्स में जीन और प्रोटीन अनुक्रमों को खोजने में मदद करता है। यह उपयोगकर्ताओं को डेटाबेस में विभिन्न अनुक्रमों के लिए खोज करने की अनुमति देता है।

    • Entrez

      Entrez एक ऑनलाइन समग्र डेटाबेस प्रणाली है जो NIH द्वारा विकसित की गई है। यह उपयोगकर्ताओं को जीनोम, प्रोटीन, और साहित्य संबंधी जानकारी प्राप्त करने की सुविधा देता है।

    • Sequence Similarity Searches

      अनुक्रम समानता खोज एक प्रक्रिया है जिसमें शोधकर्ता एक विशेष अनुक्रम की तुलना में अन्य अनुक्रमों की पहचान करते हैं। यह विभिन्न एनजीएस टूल और BLAST जैसे कार्यक्रमों का उपयोग करके किया जाता है।

    • Genome Annotation Tools

      जीनोम एनोटेशन टूल्स का प्रयोग जीनोम अनुक्रम में जीनों और अन्य विशेषताओं की पहचान और वर्गीकरण के लिए किया जाता है। ये टूल जीन की गति, रूप और कार्य के बारे में जानकारी प्रदान करते हैं।

  • Types and collection of data: Primary and secondary data, graphical representation, measures of central tendency and dispersion, skewness and kurtosis

    Types and Collection of Data
    • Primary Data

      प्राथमिक डेटा वह डेटा होता है जो सीधे स्रोत से संग्रहित किया जाता है। यह मौलिक जानकारी प्रदान करता है और इसमें सर्वेक्षण, प्रयोग और अवलोकन शामिल हो सकते हैं।

    • Secondary Data

      द्वितीयक डेटा वह डेटा है जिसे पहले से एकत्रित किया जा चुका है और इसे अन्य स्रोतों से प्राप्त किया जाता है। इसमें पुस्तकों, शोध पत्रों, और डेटाबेस से जुटाए गए आंकड़े शामिल होते हैं।

    • Graphical Representation

      ग्राफिकल प्रतिनिधित्व डेटा को चित्रात्मक रूप में प्रस्तुत करता है। इसमें विभिन्न प्रकार के चार्ट और ग्राफ शामिल होते हैं जैसे बार चार्ट, पाई चार्ट, और रेखा ग्राफ।

    • Measures of Central Tendency

      केंद्रीय प्रवृत्ति के माप में डेटा के केंद्र के चारों ओर डेटा के वितरण का सारांश होता है। इसके प्रमुख मापों में माध्य, माध्यम और मोड शामिल हैं।

    • Measures of Dispersion

      विसरण के माप डेटा के फैलाव को मापते हैं। इसमें मानक विचलन, श्रेणी, और विरूपण शामिल होते हैं। इनसे यह पता चलता है कि डेटा कैसे फैलता है।

    • Skewness

      स्क्यूनेस डेटा के वितरण की असामान्यता को मापता है। यदि डेटा दाईं ओर फैला हुआ है, तो यह सकारात्मक स्क्यूनेस है और यदि बाईं ओर, तो यह नकारात्मक स्क्यूनेस है।

    • Kurtosis

      कर्टोसिस डेटा के वितरण की तीव्रता या चपटा पन को मापता है। इसे उच्च कर्टोसिस (गर्भित वितरण) और निम्न कर्टोसिस (फ्लैट वितरण) में वर्गीकृत किया जा सकता है.

  • Probability: Definition and theorems, elementary ideas of binomial, Poisson and normal distributions

    Probability: Definition and Theorems, Elementary Ideas of Binomial, Poisson and Normal Distributions
    • Probability का परिभाषा

      Probability किसी घटना के होने की संभावना को दर्शाने वाली संख्या है। इसे 0 से 1 के बीच मापा जाता है। 0 का मतलब है घटना का न होना और 1 का मतलब है घटना का निश्चित होना।

    • Probability के सिद्धांत

      Probability के कई सिद्धांत हैं, जिनमें: 1. Additive Law: यदि दो घटनाएँ आपस में स्वतंत्र हैं, तो उनकी संयुक्त संभावना उनके व्यक्तिगत संभावनाओं का योग होगी। 2. Multiplicative Law: यदि दो घटनाएँ स्वतंत्र हैं, तो उनकी संयुक्त संभावना उनके व्यक्तिगत संभावनाओं का गुणनफल होगा।

    • Binomial Distribution

      Binomial Distribution तब उत्पन्न होता है जब एक निश्चित संख्या में स्वतंत्र घटनाएँ होती हैं, जहाँ प्रत्येक घटना में केवल दो संभावनाएँ होती हैं। इसका मान निम्नलिखित सूत्र से निकाला जाता है: n = संख्या p = सफलता की संभावना q = असफलता की संभावना P(X=k) = (nCk) * (p^k) * (q^(n-k))

    • Poisson Distribution

      Poisson Distribution तब उपयोग किया जाता है जब किसी निश्चित समय या क्षेत्र में किसी घटना के होने की संख्या को मापा जाता है। इसका उपयोग अलग-अलग क्षेत्रों में किया जाता है, जैसे कि विज्ञान और वित्त। इसकी विशेषता यह है कि इसमें औसत घटना की दर स्थिर होती है। साधारणत: इसे निम्नलिखित सूत्र से दर्शाया जाता है: P(X=k) = (e^(-λ) * λ^k) / k! जहाँ λ = औसत दर है।

    • Normal Distribution

      Normal Distribution एक निरंतर वितरण है जो एक बेल आकार का ग्राफ बनाता है। यह वितरण ज़्यादातर प्रकृति में पाया जाता है और कई स्थितियों में उपयोग किया जाता है। इसकी विशेषताएँ हैं: 1. साधारण मान (Mean) को केंद्र के रूप में देखता है। 2. मानक विचलन (Standard Deviation) के उपयोग से वितरण की चौड़ाई को निर्धारित किया जाता है। 3. 68-95-99.7 नियम के अनुसार, लगभग 68% डेटा एक मानक विचलन के भीतर, 95% दो मानक विचलन के भीतर और 99.7% तीन मानक विचलन के भीतर होता है.

  • Sampling: Sampling methods, confidence level, hypothesis testing, large and small sample tests, t-test, chi-square, ANOVA

    Sampling and its Methods
    • Sampling Methods

      सैंपलिंग विधियाँ डेटा संग्रहण की तकनीकें हैं। ये मुख्यतः दो प्रकार की होती हैं: प्रायोगिक और गैर-प्रायोगिक। प्रायोगिक सैंपलिंग में रेंडम सैंपलिंग, सिस्टमेटिक सैंपलिंग और स्ट्रेटिफाइड सैंपलिंग शामिल हैं। गैर-प्रायोगिक सैंपलिंग में काँवेनीएंट सैंपलिंग और जजमेंटल सैंपलिंग शामिल होते हैं।

    • Confidence Level

      कॉन्फिडेंस स्तर एक सांख्यिकीय माप है जो दिलाई गई जानकारी की सहीता को दर्शाता है। आमतौर पर, 95% या 99% कॉन्फिडेंस स्तर का उपयोग किया जाता है। यह स्तर बताता है कि सैंपल परिणाम हर बार सही होने की कितनी संभावना है।

    • Hypothesis Testing

      हाइपोथेसिस परीक्षण एक सांख्यिकीय विधि है जिसका उपयोग किसी दावे या मान्यता की सत्यता को परखने के लिए किया जाता है। इसमें शून्य हाइपोथेसिस और वैकल्पिक हाइपोथेसिस की परिभाषा और परीक्षण शामिल होता है।

    • Large and Small Sample Tests

      बड़े और छोटे सैंपल परीक्षण का चयन सैंपल के आकार पर निर्भर करता है। सामान्यतः, छोटे सैंपल परीक्षण में t-test का उपयोग किया जाता है, जबकि बड़े सैंपल परीक्षण में z-test का उपयोग होता है।

    • t-test

      t-test का उपयोग तब किया जाता है जब डेटा का सैंपल आकार छोटा होता है। यह दो या दो से अधिक समूहों के लिए औसत मूल्य की तुलना करने की विधि है।

    • Chi-Square Test

      ची-स्क्वायर परीक्षण एक सांख्यिकीय तकनीक है जिसका उपयोग श्रेणीबद्ध डेटा के लिए किया जाता है। यह डेटा में स्वतंत्रता और संभावनाओं के संबंध को स्थापित करने में मदद करता है।

    • ANOVA

      ANOVA (Analysis of Variance) एक विस्तृत परीक्षण है जो यह निर्धारित करने के लिए इस्तेमाल होता है कि विभिन्न समूहों के बीच औसत में कोई महत्वपूर्ण अंतर है या नहीं। यह एक साथ कई समूहों की तुलना करने की अनुमति देता है।

  • Correlation and Regression: Types, Karl-Pearson and Spearman correlations, regression analysis, differences between correlation and regression

    Correlation and Regression
    • Correlation

      सहसंबंध यह दर्शाता है कि दो चर एक साथ कैसे बदलते हैं। यदि एक चर में वृद्धि होती है तो क्या दूसरा भी बढ़ता है या घटता है।

    • Types of Correlation

      सहसंबंध के मुख्य प्रकार हैं: सकारात्मक सहसंबंध, नकारात्मक सहसंबंध, और शून्य सहसंबंध।

    • Karl-Pearson Correlation Coefficient

      कार्ल-पियर्सन का सहसंबंध गुणांक एक सांख्यिकीय मान है जो दो चर के बीच के रैखिक संबंध को मापता है। यह -1 से 1 तक हो सकता है, जहाँ 1 का अर्थ पूर्ण सकारात्मक सहसंबंध और -1 का अर्थ पूर्ण नकारात्मक सहसंबंध है।

    • Spearman Rank Correlation Coefficient

      स्पीयर्मन रैंक सहसंबंध गुणांक डेटा के रैंक पर आधारित होता है और यह गैर-रैखिक संबंधों के लिए उपयुक्त होता है।

    • Regression Analysis

      प्रतिगमन विश्लेषण एक सांख्यिकीय तकनीक है जिसका उपयोग एक चर के मूल्यों का अनुमान लगाने के लिए किया जाता है, आधार पर एक या अधिक स्वतंत्र चर।

    • Differences between Correlation and Regression

      सहसंबंध केवल यह बताता है कि मुक्त और आश्रित चर के बीच संबंध है, जबकि प्रतिगमन एक चर का अनुमान लगाने के लिए एक व्यंजक प्रारूप प्रदान करता है।

Biostatistics and Bioinformatics

B100501T

Biotechnology

V

Mahatma Gandhi Kashi Vidyapith

free web counter

GKPAD.COM by SK Yadav | Disclaimer