Page 5

Semester 5: Biostatistics and Bioinformatics

History and introduction to Bioinformatics: Applications and data generation from molecular biology, genome sequencing, protein sequencing, NMR spectroscopy, microarray
History and introduction to Bioinformatics
- Bioinformatics का इतिहास
  Bioinformatics की शुरुआत 20वीं सदी के अंत में हुई। जब जैविक जानकारी को व्यवस्थित करने की आवश्यकता बढ़ी। पहले कंप्यूटर का उपयोग केवल डेटा को स्टोर करने के लिए किया जाता था, लेकिन धीरे-धीरे इनका इस्तेमाल डेटा विश्लेषण में भी होने लगा।
- Bioinformatics के प्रकार
  Bioinformatics कई प्रकार की तकनीकों का उपयोग करता है जैसे कि DNA, RNA, और प्रोटीन अनुक्रमण।
- मॉलिक्यूलर बायोलॉजी से डेटा जनरेशन
  मॉलिक्यूलर बायोलॉजी में डेटा को उत्पन्न करने के लिए विभिन्न तकनीकें जैसे PCR, क्लोनिंग टेक्नोलॉजी का उपयोग किया जाता है। यह डेटा बाद में Bioinformatics में विश्लेषण में सहायक होता है।
- जीनोम अनुक्रमण
  जीनोम अनुक्रमण एक महत्वपूर्ण प्रक्रिया है जिसके माध्यम से जीवों के पूरे जीनोम की अनुक्रमण किया जाता है। यह शोधकर्ताओं को जीनों के प्रस्तावित कार्य और विकास में मदद करता है।
- प्रोटीन अनुक्रमण
  प्रोटीन अनुक्रमण प्रोटीन की संरचना और कार्य को समझने में मदद करता है। यह प्रोटीन के निर्माण की प्रक्रियाओं का अध्ययन करने के लिए आवश्यक है।
- NMR स्पेक्ट्रोस्कोपि
  NMR स्पेक्ट्रोस्कोपि का उपयोग प्रोटीन और अन्य मॉलिक्यूल का तीन-आयामी संरचना निर्धारित करने के लिए किया जाता है। यह जैविक अनुसंधान में महत्वपूर्ण भूमिका निभाता है।
- माइक्रोएरे
  माइक्रोएरे तकनीक का उपयोग जीन अभिव्यक्ति का अध्ययन करने के लिए किया जाता है। यह एक साथ हजारों जीनों की अभिव्यक्ति का विश्लेषण करने में सक्षम बनाता है।
Databases, data generation, storage and retrieval: Biological databases including NCBI, DDBJ, EMBL, protein databases, specialized genome and structure databases, file formats, metadata and search techniques
Databases, data generation, storage and retrieval in biological contexts
- Biological Databases Overview
  जीवविज्ञान में डाटाबेस का उपयोग जैविक डेटा के संग्रहण और पुनर्प्राप्ति के लिए किया जाता है। प्रमुख जीवविज्ञान डाटाबेस में NCBI (नेशनल सेंटर फॉर बायोटेक्नोलॉजी इन्फॉर्मेशन), DDBJ (डीडीबीजे) और EMBL (यूरोपीय मोलेक्यूलर बायॉलजी लेबोरेटरी) शामिल हैं।
- Protein Databases
  प्रोटीन डेटाबेस प्रोटीन संरचना, कार्य और अनुक्रम की जानकारी प्रदान करते हैं। इसके अंतर्गत UNIPROT और PDB (प्रोटीन डेटा बैंक) आते हैं, जो प्रोटीन संबंधी जानकारी का संग्रह करते हैं।
- Genome and Structure Databases
  जीनोम डेटाबेस विशेष रूप से जीनोम अनुक्रम और स्टक्चर की जानकारी प्रदान करते हैं। विशेषीकृत डेटाबेस जैसे कि Ensembl और UCSC Genome Browser महत्वपूर्ण होते हैं।
- File Formats in Biological Databases
  जीवविज्ञान डाटाबेस में सामान्यतः FASTA, FASTQ, GFF, और VCF फ़ाइल स्वरूपों का उपयोग किया जाता है। ये फ़ाइल प्रारूप डेटा के भंडारण और संचार में सहायक होते हैं।
- Metadata in Biological Databases
  मेटाडेटा अतिरिक्त जानकारी होती है जो डेटा के संदर्भ को स्पष्ट करती है। जैविक डाटाबेस में मेटाडेटा जैसे कि डेटासेट का स्रोत, प्रकाशन तिथि और अधिकार उपयोगी होते हैं।
- Search Techniques in Biological Databases
  जैविक डाटाबेस में डेटा खोजने के लिए विभिन्न तकनीकताएँ प्रयोग की जाती हैं। कीवर्ड खोज, BLAST (बेसिक लोकल अलाइनमेंट सर्च टूल) और अनुक्रम समानता खोज प्रमुख तकनीक हैं।
Sequence and Phylogeny analysis: Sequences and alignments, dynamic programming, local and global alignment, pairwise alignment (BLAST and FASTA), multiple sequence alignment, phylogenetic analysis, PCR primer designing
Sequence and Phylogeny analysis
- Sequences and Alignments
  जीन या प्रोटीन अनुक्रमों की तुलना के लिए अनुक्रम और संरेखण का उपयोग किया जाता है। यह अध्ययन जीवों के बीच विभिन्नता और संबंधों को समझने में मदद करता है।
- Dynamic Programming
  डायनामिक प्रोग्रामिंग एक गणितीय दृष्टिकोण है जिसका उपयोग अनुक्रमों की सर्वश्रेष्ठ तुलना करने के लिए किया जाता है। इसका उपयोग स्थानीय और वैश्विक संरेखण के लिए किया जाता है।
- Local and Global Alignment
  स्थानीय संरेखण में अनुक्रमों के कुछ हिस्सों की तुलना की जाती है, जबकि वैश्विक संरेखण पूरे अनुक्रमों की तुलना करता है। दोनों विधियाँ जीव विज्ञान में महत्वपूर्ण हैं।
- Pairwise Alignment (BLAST and FASTA)
  BLAST और FASTA जैसे उपकरण जोड़े में अनुक्रमों की तुलना करने के लिए उपयोग होते हैं। BLAST लंबी अनुक्रमों की तेजी से तुलना करता है जबकि FASTA अधिक संवेदनशीलता प्रदान करता है।
- Multiple Sequence Alignment
  कई अनुक्रमों के समवर्ती संरेखण के लिए मल्टीपल सिकोन्स एलाइन्मेंट का उपयोग किया जाता है। यह एक साझा वंश के जीवों के बीच समानताओं और भिन्नताओं को दर्शाता है।
- Phylogenetic Analysis
  फाइलोजेनेटिक विश्लेषण जीवों के बीच विकासात्मक संबंधों को जानने के लिए किया जाता है। यह आनुवंशिकी, ओषधि, और पारिस्थितिकी में महत्वपूर्ण है।
- PCR Primer Designing
  PCR प्राइमर डिजाइनिंग एक महत्वपूर्ण प्रक्रिया है जो जीन के विशिष्ट भागों को लक्षित करने में मदद करती है। सही प्राइमर चयन अनुक्रमण और विश्लेषण में प्रभाव डालता है।
Searching databases: SRS, Entrez, sequence similarity searches, genome annotation tools
Searching databases: SRS, Entrez, sequence similarity searches, genome annotation tools
- SRS (Sequence Retrieval System)
  SRS एक साधन है जो बायोइन्फॉर्मेटिक्स में जीन और प्रोटीन अनुक्रमों को खोजने में मदद करता है। यह उपयोगकर्ताओं को डेटाबेस में विभिन्न अनुक्रमों के लिए खोज करने की अनुमति देता है।
- Entrez
  Entrez एक ऑनलाइन समग्र डेटाबेस प्रणाली है जो NIH द्वारा विकसित की गई है। यह उपयोगकर्ताओं को जीनोम, प्रोटीन, और साहित्य संबंधी जानकारी प्राप्त करने की सुविधा देता है।
- Sequence Similarity Searches
  अनुक्रम समानता खोज एक प्रक्रिया है जिसमें शोधकर्ता एक विशेष अनुक्रम की तुलना में अन्य अनुक्रमों की पहचान करते हैं। यह विभिन्न एनजीएस टूल और BLAST जैसे कार्यक्रमों का उपयोग करके किया जाता है।
- Genome Annotation Tools
  जीनोम एनोटेशन टूल्स का प्रयोग जीनोम अनुक्रम में जीनों और अन्य विशेषताओं की पहचान और वर्गीकरण के लिए किया जाता है। ये टूल जीन की गति, रूप और कार्य के बारे में जानकारी प्रदान करते हैं।
Types and collection of data: Primary and secondary data, graphical representation, measures of central tendency and dispersion, skewness and kurtosis
Types and Collection of Data
- Primary Data
  प्राथमिक डेटा वह डेटा होता है जो सीधे स्रोत से संग्रहित किया जाता है। यह मौलिक जानकारी प्रदान करता है और इसमें सर्वेक्षण, प्रयोग और अवलोकन शामिल हो सकते हैं।
- Secondary Data
  द्वितीयक डेटा वह डेटा है जिसे पहले से एकत्रित किया जा चुका है और इसे अन्य स्रोतों से प्राप्त किया जाता है। इसमें पुस्तकों, शोध पत्रों, और डेटाबेस से जुटाए गए आंकड़े शामिल होते हैं।
- Graphical Representation
  ग्राफिकल प्रतिनिधित्व डेटा को चित्रात्मक रूप में प्रस्तुत करता है। इसमें विभिन्न प्रकार के चार्ट और ग्राफ शामिल होते हैं जैसे बार चार्ट, पाई चार्ट, और रेखा ग्राफ।
- Measures of Central Tendency
  केंद्रीय प्रवृत्ति के माप में डेटा के केंद्र के चारों ओर डेटा के वितरण का सारांश होता है। इसके प्रमुख मापों में माध्य, माध्यम और मोड शामिल हैं।
- Measures of Dispersion
  विसरण के माप डेटा के फैलाव को मापते हैं। इसमें मानक विचलन, श्रेणी, और विरूपण शामिल होते हैं। इनसे यह पता चलता है कि डेटा कैसे फैलता है।
- Skewness
  स्क्यूनेस डेटा के वितरण की असामान्यता को मापता है। यदि डेटा दाईं ओर फैला हुआ है, तो यह सकारात्मक स्क्यूनेस है और यदि बाईं ओर, तो यह नकारात्मक स्क्यूनेस है।
- Kurtosis
  कर्टोसिस डेटा के वितरण की तीव्रता या चपटा पन को मापता है। इसे उच्च कर्टोसिस (गर्भित वितरण) और निम्न कर्टोसिस (फ्लैट वितरण) में वर्गीकृत किया जा सकता है.
Probability: Definition and theorems, elementary ideas of binomial, Poisson and normal distributions
Probability: Definition and Theorems, Elementary Ideas of Binomial, Poisson and Normal Distributions
- Probability का परिभाषा
  Probability किसी घटना के होने की संभावना को दर्शाने वाली संख्या है। इसे 0 से 1 के बीच मापा जाता है। 0 का मतलब है घटना का न होना और 1 का मतलब है घटना का निश्चित होना।
- Probability के सिद्धांत
  Probability के कई सिद्धांत हैं, जिनमें: 1. Additive Law: यदि दो घटनाएँ आपस में स्वतंत्र हैं, तो उनकी संयुक्त संभावना उनके व्यक्तिगत संभावनाओं का योग होगी। 2. Multiplicative Law: यदि दो घटनाएँ स्वतंत्र हैं, तो उनकी संयुक्त संभावना उनके व्यक्तिगत संभावनाओं का गुणनफल होगा।
- Binomial Distribution
  Binomial Distribution तब उत्पन्न होता है जब एक निश्चित संख्या में स्वतंत्र घटनाएँ होती हैं, जहाँ प्रत्येक घटना में केवल दो संभावनाएँ होती हैं। इसका मान निम्नलिखित सूत्र से निकाला जाता है: n = संख्या p = सफलता की संभावना q = असफलता की संभावना P(X=k) = (nCk) * (p^k) * (q^(n-k))
- Poisson Distribution
  Poisson Distribution तब उपयोग किया जाता है जब किसी निश्चित समय या क्षेत्र में किसी घटना के होने की संख्या को मापा जाता है। इसका उपयोग अलग-अलग क्षेत्रों में किया जाता है, जैसे कि विज्ञान और वित्त। इसकी विशेषता यह है कि इसमें औसत घटना की दर स्थिर होती है। साधारणत: इसे निम्नलिखित सूत्र से दर्शाया जाता है: P(X=k) = (e^(-λ) * λ^k) / k! जहाँ λ = औसत दर है।
- Normal Distribution
  Normal Distribution एक निरंतर वितरण है जो एक बेल आकार का ग्राफ बनाता है। यह वितरण ज़्यादातर प्रकृति में पाया जाता है और कई स्थितियों में उपयोग किया जाता है। इसकी विशेषताएँ हैं: 1. साधारण मान (Mean) को केंद्र के रूप में देखता है। 2. मानक विचलन (Standard Deviation) के उपयोग से वितरण की चौड़ाई को निर्धारित किया जाता है। 3. 68-95-99.7 नियम के अनुसार, लगभग 68% डेटा एक मानक विचलन के भीतर, 95% दो मानक विचलन के भीतर और 99.7% तीन मानक विचलन के भीतर होता है.
Sampling: Sampling methods, confidence level, hypothesis testing, large and small sample tests, t-test, chi-square, ANOVA
Sampling and its Methods
- Sampling Methods
  सैंपलिंग विधियाँ डेटा संग्रहण की तकनीकें हैं। ये मुख्यतः दो प्रकार की होती हैं: प्रायोगिक और गैर-प्रायोगिक। प्रायोगिक सैंपलिंग में रेंडम सैंपलिंग, सिस्टमेटिक सैंपलिंग और स्ट्रेटिफाइड सैंपलिंग शामिल हैं। गैर-प्रायोगिक सैंपलिंग में काँवेनीएंट सैंपलिंग और जजमेंटल सैंपलिंग शामिल होते हैं।
- Confidence Level
  कॉन्फिडेंस स्तर एक सांख्यिकीय माप है जो दिलाई गई जानकारी की सहीता को दर्शाता है। आमतौर पर, 95% या 99% कॉन्फिडेंस स्तर का उपयोग किया जाता है। यह स्तर बताता है कि सैंपल परिणाम हर बार सही होने की कितनी संभावना है।
- Hypothesis Testing
  हाइपोथेसिस परीक्षण एक सांख्यिकीय विधि है जिसका उपयोग किसी दावे या मान्यता की सत्यता को परखने के लिए किया जाता है। इसमें शून्य हाइपोथेसिस और वैकल्पिक हाइपोथेसिस की परिभाषा और परीक्षण शामिल होता है।
- Large and Small Sample Tests
  बड़े और छोटे सैंपल परीक्षण का चयन सैंपल के आकार पर निर्भर करता है। सामान्यतः, छोटे सैंपल परीक्षण में t-test का उपयोग किया जाता है, जबकि बड़े सैंपल परीक्षण में z-test का उपयोग होता है।
- t-test
  t-test का उपयोग तब किया जाता है जब डेटा का सैंपल आकार छोटा होता है। यह दो या दो से अधिक समूहों के लिए औसत मूल्य की तुलना करने की विधि है।
- Chi-Square Test
  ची-स्क्वायर परीक्षण एक सांख्यिकीय तकनीक है जिसका उपयोग श्रेणीबद्ध डेटा के लिए किया जाता है। यह डेटा में स्वतंत्रता और संभावनाओं के संबंध को स्थापित करने में मदद करता है।
- ANOVA
  ANOVA (Analysis of Variance) एक विस्तृत परीक्षण है जो यह निर्धारित करने के लिए इस्तेमाल होता है कि विभिन्न समूहों के बीच औसत में कोई महत्वपूर्ण अंतर है या नहीं। यह एक साथ कई समूहों की तुलना करने की अनुमति देता है।
Correlation and Regression: Types, Karl-Pearson and Spearman correlations, regression analysis, differences between correlation and regression
Correlation and Regression
- Correlation
  सहसंबंध यह दर्शाता है कि दो चर एक साथ कैसे बदलते हैं। यदि एक चर में वृद्धि होती है तो क्या दूसरा भी बढ़ता है या घटता है।
- Types of Correlation
  सहसंबंध के मुख्य प्रकार हैं: सकारात्मक सहसंबंध, नकारात्मक सहसंबंध, और शून्य सहसंबंध।
- Karl-Pearson Correlation Coefficient
  कार्ल-पियर्सन का सहसंबंध गुणांक एक सांख्यिकीय मान है जो दो चर के बीच के रैखिक संबंध को मापता है। यह -1 से 1 तक हो सकता है, जहाँ 1 का अर्थ पूर्ण सकारात्मक सहसंबंध और -1 का अर्थ पूर्ण नकारात्मक सहसंबंध है।
- Spearman Rank Correlation Coefficient
  स्पीयर्मन रैंक सहसंबंध गुणांक डेटा के रैंक पर आधारित होता है और यह गैर-रैखिक संबंधों के लिए उपयुक्त होता है।
- Regression Analysis
  प्रतिगमन विश्लेषण एक सांख्यिकीय तकनीक है जिसका उपयोग एक चर के मूल्यों का अनुमान लगाने के लिए किया जाता है, आधार पर एक या अधिक स्वतंत्र चर।
- Differences between Correlation and Regression
  सहसंबंध केवल यह बताता है कि मुक्त और आश्रित चर के बीच संबंध है, जबकि प्रतिगमन एक चर का अनुमान लगाने के लिए एक व्यंजक प्रारूप प्रदान करता है।

Page 5

Semester 5: Biostatistics and Bioinformatics

History and introduction to Bioinformatics: Applications and data generation from molecular biology, genome sequencing, protein sequencing, NMR spectroscopy, microarray

History and introduction to Bioinformatics

Bioinformatics का इतिहास

Bioinformatics के प्रकार

मॉलिक्यूलर बायोलॉजी से डेटा जनरेशन

जीनोम अनुक्रमण

प्रोटीन अनुक्रमण

NMR स्पेक्ट्रोस्कोपि

माइक्रोएरे

Databases, data generation, storage and retrieval: Biological databases including NCBI, DDBJ, EMBL, protein databases, specialized genome and structure databases, file formats, metadata and search techniques

Databases, data generation, storage and retrieval in biological contexts

Biological Databases Overview

Protein Databases

Genome and Structure Databases

File Formats in Biological Databases

Metadata in Biological Databases

Search Techniques in Biological Databases

Sequence and Phylogeny analysis: Sequences and alignments, dynamic programming, local and global alignment, pairwise alignment (BLAST and FASTA), multiple sequence alignment, phylogenetic analysis, PCR primer designing

Sequence and Phylogeny analysis

Sequences and Alignments

Dynamic Programming

Local and Global Alignment

Pairwise Alignment (BLAST and FASTA)

Multiple Sequence Alignment

Phylogenetic Analysis

PCR Primer Designing

Searching databases: SRS, Entrez, sequence similarity searches, genome annotation tools

Searching databases: SRS, Entrez, sequence similarity searches, genome annotation tools

SRS (Sequence Retrieval System)

Entrez

Sequence Similarity Searches

Genome Annotation Tools

Types and collection of data: Primary and secondary data, graphical representation, measures of central tendency and dispersion, skewness and kurtosis

Types and Collection of Data

Primary Data

Secondary Data

Graphical Representation

Measures of Central Tendency

Measures of Dispersion

Skewness

Kurtosis

Probability: Definition and theorems, elementary ideas of binomial, Poisson and normal distributions

Probability: Definition and Theorems, Elementary Ideas of Binomial, Poisson and Normal Distributions

Probability का परिभाषा

Probability के सिद्धांत

Binomial Distribution

Poisson Distribution

Normal Distribution

Sampling: Sampling methods, confidence level, hypothesis testing, large and small sample tests, t-test, chi-square, ANOVA

Sampling and its Methods

Sampling Methods

Confidence Level

Hypothesis Testing

Large and Small Sample Tests

t-test

Chi-Square Test

ANOVA

Correlation and Regression: Types, Karl-Pearson and Spearman correlations, regression analysis, differences between correlation and regression

Correlation and Regression

Correlation

Types of Correlation

Karl-Pearson Correlation Coefficient

Spearman Rank Correlation Coefficient

Regression Analysis

Differences between Correlation and Regression

Biostatistics and Bioinformatics

B100501T

Biotechnology

V

Mahatma Gandhi Kashi Vidyapith