Immunologisk Bioinformatik Et undervisningsmateriale til de danske gymnasier Af Isa Kristina Kirk Materialet er lavet af Isa Kristina Kirk for Biotech Academy ved Danmarks Tekniske Universitet, DTU, i samarbejde Center for Biologisk Sekvensanalyse på DTU Systembiologi, Danske Science Gymnasier og støttet af Undervisningsministeriet, afdelingen for gymnasielle uddannelser.
Introduktion Velkommen til undervisningsmaterialet Immunologisk bioinformatik. Materialet indeholder I) beskrivelse samt guide til nogle af de bioinformatisk relaterede programmer og databaser, der er tilgænglige online og II) fire tilhørende øvelser der arbejder med brugen og forståelsen af programmerne. Hver øvelse er indelt i 3-4 underøvelser, der både kan laves individuelt eller som en hel øvelse i et samlet forløb. Udover ovenstående er fire biologisk-relaterede emner beskrevet i afsnittet Teori. Disse teoridele er mere dybtegående end programbeskrivelserne, og vil bidrage til bedre forståelse af de emner der indgår i programmerne, databaserne og øvelserne arbejder med. Undervisningsmaterialet findes også som en online udgave gennem Biotech Academys hjemmeside her, og i denne udgave vil der være links til programmer, relevant ekstra materiale samt interne links til materialet. Gennem Biotech Academys lærerindgang vil besvarelserne til øvelserne kunne finde. Lærerindgangen findes her. Rigtig god fornøjelse! Isa Kristina Kirk Stud. M.Sc. i Systembiologi ved Danmarks Teksniske Universitet, DTU Projektudvikler hos Biotech Academy ved DTU Systembiologi Januar 2012
Oversigt Teori... 4 Codons og læserammer... 5 Fylogeni... 8 Proteinstruktur... 11 Sekvens alignment... 18 Portefølje i bioinformatik øvelser... 21 Programmer og Databaser... 22 Basic Local Alignment Search Tool (BLAST)... 22 FigTree... 30 National Center for Biotechnology Information (NCBI) og Genbank... 33 Protein Databank (PDB) og Genbank... 36 PyMol... 41 UniProt... 45 Virtual Ribosome... 48 Øvelser... 51 1. Aktin, fra mrna til tredimensionelt protein... 51 2. Myostatins proteininteraktioner og organismers slægtsskab... 57 3. Bioinformatisk analyse afantistoffer... 63 4. Identifikation og visualisering af ukendt protein... 68 Ekstra materiale... 73 Ordforklaring... 74
Teori Teoridelen giver en beskrivelse af de biologiske områder som skal kendes for at kunne bruge og forstå de programmer der arbejdes med i porteføljen. I hver teori del henvises der til hvilke programmer der benytter den givne teori. Oversigt over teorien: Codon og læserammer Fylogeni Proteinstruktur Sekvens alignment
Codons og læserammer I programmet Virtual Ribosome benytter man viden omkring codons og læserammer til at finde det protein der er kodet af en given DNAsekvens. Viden omkring codons og læserammer er derfor vigtig for at kunne bruge programmet og fortolke resultatet. Codons DNA er et makromolekyler der indeholder en organismes arvemateriale. En DNA-sekvens indeholder normalt et gen, der koder for et protein. Den samlede process fra DNA til protein betegnes det centrale dogme og består blandt andet af de to trin transkription (fra DNA til messenger RNA) og translation (fra messenger RNA til protein). Læs mere om det centrale dogme fra Biotech Academy projektet, der beskriver det her. DNA molekyler er sammensat af nukleotider (Se infoboks 1). Under translationen til protein aflæses DNA-sekvensen som codons (se infoboks 2). Hver codon aflæses til netop en aminosyre, dvs. tre nukleotider bliver til en aminosyre. Der kan dannes i alt 64 forskellige codons (4³) som således oversættes til forskellige aminosyrer samt stop codons. Figur 1 viser en codon translaterings tabel, hvor det kan ses hvilke codon der koder for hvilken aminosyre. Det ses, at flere codons koder for den samme aminosyre og at codons også koder for start- og stopcodons. Startog stop-codons fortæller hvor translationen fra mrna til protein skal henholdsvis starte og stoppe på mrna sekvensen. Infoboks 1 Byggestenene for DNA er nukleotider. Der findes fire forskellige slags: Adenin (A), Cytosin (C), Guanin (G) og Thymin (T), der sammen kan sætte sig sammen og danne en DNA streng. To DNA strenge kan bindes til hinanden og dermed lave den kendte DNA struktur: dobbelt helixen. I helixen binder nukleotiderne A & T og C & T til hinanden og dermed stabiliseres DNA helixen Infoboks 2 En codon er en samling af tre nukleotider, der sammen oversættes til netop en aminosyre. Der er 4 nukleotider hvilket er ensbetydende med, at der findes 64 (4³) mulige codons. Figur 1. Codon translations tabel. Klik for at se den i stor format.
Læserammer Da DNA-sekvens aflæses codons (tre nukleotider) og ikke en nukleotid af gangen, kan der dannes forskellige aminosyrekæder alt afhængig af, hvilken position på DNA-sekvensen translationen starter. Dette betegnes, at DNA-sekvensen har forskellige læserammer (se infoboks 3). Antallet af læserammer (forskellige aminosyresekvenser), der kan dannes pr. DNA streng er dog begrænset til tre. Grunden til dette er, at en codon som nævnt består af tre nukleotider og dermed aflæses DNA-sekvensen tre nukleotider af gangen. Hvis man starter translationen på position 1 eller position 4 vil man således benytte den samme læseramme, og man vil dermed få den samme aminosyresekvens (dog uden den første aminosyre hvis man starter på position 4. Den samme aminosyrekæde vil fås hvis man starter på position 7, blot uden de to første aminosyrer etc. Hvis man starter på position 2, 5, 8... vil man få aminosyresekvensen fra læseramme 2. Denne aminosyresekvens vil være en anden end den fra læseramme 1 hvor man startede på position 1, 4, 7... Til slut er det samme gældende for læseramme 3, hvor aminosyresekvensen bliver translateret fra position 3, 6, 9..., se figur 2. Infoboks 3 En læseramme betegner de mulige måder en DNA-/RNAsekvens kan aflæses på. Da codons er tripletter af nukleotider, er der tre forskellige muligheder hvorpå en DNA-/RNA-sekvens kan aflæses. Disse tre måder beteges tre forskellige læserammer, som hver vil give en specifik aminosyresekve ns. De tre læserammer starter aflæsningen fra enten position 1, 4, 7 etc., 2, 5, 8 etc. eller 3, 6, 9 etc. Figur 2. Læserammer. Hver DNA-streng har tre forskellige læserammer alt afhængig af startpositionen for aflæsningen. Hver start position er markeret med en bestemt farve, og det ses, at der dannes forskellige aminosyrekæder alt afhængig af hvilken læserammer der bliver brugt. Da DNA-molekyler er sat sammen af to DNA-strenge i en dobbelt DNA helix, findes der ikke kun 3 læserammer, men faktisk 6 forskellige
læserammer for hvert DNA-molekyle; 3 forskellige læserammer på hver DNA-streng. Læserammen mellem to stop codons betegnes den åbne læseramme (eng. Open Reading Frame, ORF) og er den del der kan kode for et protein. Det er dog ikke alle åbne læserammer der koder for et funktionelt protein, faktisk er det som regel kun en åben læseramme ud af de 6 mulige der gør det. DNA'sekvensen i den åbne læseramme der koder for det funktionelle protein kaldes den kodende sekvens (eng. coding sequence, CDS, se infoboks 4), og er dermed det stykke DNA der translateres til proteinet. Du kan læse mere om det centrale dogme og translation her. Infoboks 4 CDS er en forkortelse for coding sequence og er den del på DNAsekvensen der koder for selve proteinet. En DNA sekvens består nemlig af introns og exons, hvor exons er de dele af DNA-sekvensen der splejses sammen til et messenger RNA der senere translateres til et protein.
Fylogeni I programmet FigTree kan man visualisere evolutionære træer. Kendskab til fylogeni og trækonstruktion er derfor vigtigt for at kunne bruge programmet og fortolke resultatet. Fylogeni er læren om og beskrivelsen af organismers slægtskab, se infoboks 1. Fylogeni bruges blandt andet til: I. Klassificering af fossiler og levende arter så de kan blive placeret i livets træ sammen med andre kendte organismer. II. Kortlægge konserverede domæner (se infoboks 2) i f.eks. vira og bakterier for at finde sekvenser til brug i vacciner. Du kan læse mere om konserverede domæner her. III. Finde sammenhæng mellem kendte og nyopdagede proteiner for at bestemme de nyes funktionalitet. I fylogenetiske træer bliver arter og organismerne betegnet som taxons (flertal: taxa, se infoboks 3), og træets tippe har hver én taxon, se figur 1. Hvis man følger en taxon tilbage, ned langs grenene, er hver forgrening ensbetydende med en fælles stamfader. Med andre ord, er forgreningspunktet det sted hvor en taxon udviklede sig til to taxa. Disse to taxa har hver en gren ud fra forgreningspunktet, og de betegnes derfor som søstergrupper. I figur 1 er taxa A og B søstergrupper, da de begge stammer fra stamfader III, Alle taxa, der er udviklet fra en fælles stamfader kaldes en monofyletisk gruppe (eng. clade). I figur 1, hører taxa A, B, C og stamfader III til samme monofyletiske gruppe, da de alle udspringer fra stamfader II. Monofyletiske grupper dannes, da medlemmerne i de forskellige grupper vil have en række karakteristika tilfælles, hvilke de alle har arvet fra deres fælles stamfader. Infoboks 1 Fylogeni er læren om organismers slægtskab. Et fylogenetisk træ er således et stamtræ hvor man kan visualisere organismernes evolutionære slægtskab Infoboks 2 Konserverede domæner er specifkke områder af en eller flere aminosyrers længde i et protein som IKKE er muteret mellem forskellige organismer. Konserverede domæner er ofte det sted på proteinet der udfører den biologiske funktion proteinet har. Hvis to proteiner har de samme konserverede domæner kan det antages at de udfører samme funktion og dermed er beslægtede. Klik her for et eksempel på konserverede domæner. Infoboks 3 Taxon er betegnelsen for en organisme i et fylogenetisk træ. Flere organismer betegnes taxa, og et fylogenetisk træ viser dermed det evolutionære slægtskab mellem træet taxa.
Figur 1. Eksempel på et fylogenetisk træ med taxa, stamfædre og grupperinger. Et fylogenetisk træ kan både være rodet eller ikke-rodet. Når der her skrives rodet er det ikke ensbetydende med uorden, men derimod et udtryk for en kronologisk udvikling af træets taxa. Et ikke-rodet træ viser hvorledes træets taxa er beslægtet med hinanden, men giver ikke noget billede af udvikling i forhold til hvilke taxa der ældst/yngst. Et ikke-rodet træ benyttes derfor hvis udviklingen er underordnet og man blot ønsker at se, hvorledes træets taxa er grupperet. Et rodet træ har derimod en rod svarende til den ældste fælles stamfader, hvorfra træets taxa har udviklet sig. For at kunne lave et rodet træ er man nødt til at have et vist kendskab til træets taxa. Man kan benytte en såkaldt ydergruppe (eng. outgroup, se infoboks 4) til at placere roden på et træ, da ydergruppen er den taxon der først er divergeret væk fra træets andre taxa (eng. ingroup). For at være i stand til at lave et rodet træ er det derfor en god ide at inkludere en taxon som på forhånd vides at være divergeret væk fra de andre først, dvs. ligge evolutionært langt væk fra de resterende taxa. Ønsker man eksempelvis at undersøge slægtskabet mellem pattedyr kan man for hver art tage en sekvens der koder for det samme protein samt inkludere den samme sekvens fra en fugl, da det på forhånd vides at fugle ikke er evolutionært beslægtet med pattedyr på samme måde som de er indbyrdes. Fugle-sekvensen kan således benyttes som ydergruppe og dermed lave et rodet træ så det kronologisk slægtskabstræ for pattedyrerne kan visualiseres. Et eksempel på et ikke-rodet og et rodet træ kan ses i figur 2. Begge træer viser det samme slægtsskab, men i træ B er taxon A valgt som ydergruppe og træet er derfor blevet rodet. Hver gren i træet har en distance tilknyttet, hvilken eksempelvis kan være antal mutationer. Ved at sammenligne træet i A og B ses det, at distancerne ikke er ændret, hvilket betyder at det indbyrdes slægtsskab ikke er ændret, Infoboks 4 En ydergruppe betegner den taxon som er mindst belægtet med alle de andre taxa i det slægtskab man undersøger. Ydergruppen skal specificeres hvis man vil lave et rodet træ og
men blot den grafiske afbildning. Figur 2. Forskel mellem et rodet og ikke rodet træ. A viser et fylogenetisk træ der ikke er rodet. B viser et fylogenetisk træ som er blevet rodet ved at bruge taxon A som ydergruppe. Det ses, at grenlængderne ikke er ændret så slægtsskabet mellem træets taxa er dermed ikke ændret. Det rodede træ vil derfor "kun" give en kronologisk opbygning af slægsskabet og ikke ændre det. Klik for at se figuren i stor format. Hvis man ønsker at læse mere om fylogeni og evolutions teori kan følgende læses: Gyldendals Store Danske Encyklopædi om Evolution: Gå til siden Gyldendals Store Danske Encyklopædi om Fylogeni: Gå til siden Engelsk introduktion til emnet udarbejdet af Center for Biologisk Sekvensanalyse på DTU: Download
Proteinstruktur Proteiner er en polypeptider (poly = mange), som er sammensat afaminosyrer, der er kovalent sammenbundet gennem peptidbindinger (se infoboks 1). Aminosyrer Den generelle struktur for en aminosyre kan ses i figur 1. Infoboks 1 En kovalent binding er betegnelsen for en stærk binding mellem to atomer. Figur 1. Den generelle struktur af en aminosyre. Den består af et kulstof atom bundet til en positivt ladet aminogruppe, en negativt ladet carboxylgruppe, et hydrogen atom og en sidekæde. Der findes i alt 20 forskellige aminosyrer, der hver er karakteriseret på baggrund af deres sidekæde. Sidekæden definere hvilke kemiske egenskaber aminosyren har og dermed hvilke bindinger den kan lave. De 20 aminosyrer er inddelt i 5 kategorier på baggrund af deres kemiske egenskaber. Aminosyrer opdelingen kan ses i tabel 1.
Tabel 1. Oversigt over de 20 forskellige aminosyrer, opdelt efter kemiske egenskaber. Primærstruktur Aminosyrer bliver sat sammen gennem peptidbindinger, hvormed lange rækker af aminosyrer kan dannes, disse kaldes som før nævnt polypeptider. Peptidbindingen bliver dannet ved at det negativt ladet oxygen i carboxylgruppen reagerer med et af hydrogen atomerne fra aminogruppen i en anden aminosyre. Ved reaktionen bliver der afgivet et vandmolekyle (betegnes kondensation), og en peptidbinding er dermed skabt, se figur 2.
Figur 2. Dannelsen af peptidbindinger. Det ses, at der frigives et vandmolekyle for hver binding der dannes. Rækkefølgen af aminosyrer betegnes et proteins primærstruktur. Polypeptider vil altid have to ender; en med en fri aminogruppe og en med en fri carboxylgruppe. Den ende i kæden der har en fri aminogruppe betegnes N terminalen og den ende der har en fri carboxylgruppe betegnes C terminalen. Sekundærstruktur De lange polypeptidkæder kan på grund af sidekædernes kemiske egenskaber foldes i lokale rumlige strukturer. De mest udbredte strukturer kaldes α-helix og β-plader. α-helixen er en spiral med en rygrad af aminosyrer, der er holdt sammen ved hydrogenbindinger mellem hver femte aminosyre. Spiralen er konstrueret sådan, at aminosyrernes sidekæder stikker ud af spiralen. Sidekæderne kan interagere med hinanden for at skabe stabilitet til spiralen, men de kan også interagere med andre molekyler, se figur 3. α-helixer er mest udbredt i membranproteiner (proteiner der går gennem cellemembranen) og i DNA bindende proteiner. I DNA bindende proteiner er α-helixen i de domæner der interagerer med DNA'et så proteinet kan ændre på transkriptionen af DNA'et.
Figur 3. α-helix med sidekæder, hvor hydrogenbindinger er vist med gule prikkede linjer. β-plader består af to eller flere β-strenge. β-strengene kaldes for β- plader backbone (rygrad) og er peptidekæder der er sat sammen med hydrogenbindinger (se infoboks 2) mellem hver backbone. β- pladernes struktur bevirker, at sidekæderne stikker vinkelret ud fra pladerne med en variation på hver anden, således at den første sidekæde stikker op ad, den anden stikker ned ad osv., se figur 4. β- plader bruges bl.a. til danne strukturer der går gennem cellemembranen således at små molekyler kan transporteres ind og ud af cellen. Infoboks 2 En hydrogen binding er en svag binding mellem to atomer, der deler et hydrogen atom. Figur 4. β-plade vis med sidekæder. Det kan ses, at sidekæderne er vertikale på pladen hvor hver anden stikker henholdsvis op og ned. Tertiærstruktur Polypeptidkæden er en dynamisk struktur som på grund af de mange forskellige sidekæder kan foldes i forskellige strukturer. Disse strukturer danner proteints tertiærstruktur, hvilken bliver ofte stabiliseret af α-helix, β-plader, svovlbroer mellem aminosyren cystein's sidekæder samt hydrofobe/-file interaktioner. Proteiners tertiærstruktur bestemmer deres funktion. Foldningen bevirker nemlig,
at aminosyrerne bliver placeret så de kan interagere i specifikke processer, f.eks. til at katalysere enzymatiske reaktioner. Proteiner kan være opdelt i såkaldte domæner der hvert tildels folder uafhængigt af de andre. Hvert domæne vil have en unik struktur og dermed forskellige egenskaber. Se figur 5 for et eksempel på en tertiærstruktur og figur 6 for en sammehæng mellem den primær-, sekundær- og tertiærstruktur. Figur 5. Eksempel på et proteins tertiærstruktur. Her kan både β-plader og α-helix ses. Figur 6. Sammenhæng mellem den primær-, sekundærog tertiærstruktur. β-plader er vist med gule pile og α-helix er vist med røde spiraler. Kvaternærstruktur De foldede polypeptidkæder kan interagere med hinanden og danne
et protein kompleks. Komplekset er proteinets kvaternærstruktur, og polypeptidkæderne betegnes som subunits i det færdige protein. Et protein kompleks kan består af mange subunits, der både kan være forskellige og ens. Eksempelvis består et hæmoglobin molekyle af fire identiske subunits, der hver kan binde et oxygen molekyle. Se figur 7 for et proteins kvaternærstruktur. Figur 7. Eksempel på et proteins kvatærstruktur. Her er hæmoglobin vist og de fire forskellige subunit kan ses med hver sin farve. Strukturen er fundet gennem PDB og lavet i PyMol. Konserverede domæner Som nævnt ovenfor bliver polypeptidkæderne foldet til tertiærtrukturer, som har en specifik biologisk egenskab. En biologisk egenskab er f.eks. regulering af transkription (når et protein binder til DNA'et) eller nedbrydelse af sukkermolekyler i fordøjelsessystemet. Selvom det er hele proteinet der har en biologisk egenskab er det faktisk kun bestemte aminosyrer eller længere peptidsekvenser i proteinet der er direkte forbundet med funktionen. Den funktionelle del af proteinet er ofte konserveret (bevaret), dvs. aminosyresammensætning der er karakteristisk for en funktion vil kunne findes på tværs af forskellige organismer, der ellers er fjernt beslægtede. De aminosyrer der ikke udgør den funktionelle del er ikke så vigtige for proteinets funktion, men kan i stedet medvirke til at stabilisere protienstrukturen og foldningen. Da aminosyrerne ikke indgår direkte i de biologiske funktioner, vil aminosyrerne til en vis grad kunne ændres eller fjernes uden proteinet mister sin biologiske egenskab. Figur 8 illustrerer hvor konserverede domæner kan være. Her er de konserverede domænerne i α-helixen og β-pladen (indikeret med en grå streg), mens de aminosyrer der er i loopet før, efter og i mellem dem er ændret. Ændringerne har ikke betydning for sekundærstrukturen og det er dermed den samme tertiærstruktur der vil dannes fra begge sekvenser.
Figur 8. To sekvenser har konserverede domæner der hvor de danner en α- helix og en β-plade. Selvom den primærstruktur ikke er helt identisk mellem de to sekvenser, vil de alligevel have den sammen tertiærstruktur og dermed samme funktion. Når man laver alignemnts vil man ofte kunne se konserverede domæner, dvs. aminosyrerne på disse positioner vil være identiske i de sekvenser der sammenlignes. Endvidere vil aminosyrerne uden for domænet i højere grad variere, men ofte vil aminosyrerne være indenfor samme kemiske gruppe som klassificeret i tabel 1. Når aminosyrerne er indenfor samme gruppe vil de nemlig have den samme kemiske egenskab og dermed bibeholde proteinet i en korrekt struktur.
Sekvens alignment Sekvens alignments (se infoboks 1) benyttes til at sammenligne to eller flere DNA- eller proteinsekvenser. Programmet BLAST benytter alignments til at finde sekvenser der er beslægtede med den sekvens der benyttes til BLAST. Hvis man kender sammensætningen af nukleotid eller aminosyrer for henholdsvis DNA- eller proteinsekvenser kan man sammenligne to eller flere sekvenser for at se hvor meget de ligner hinanden. Sammenligningen af sekvenser foretages DNA mod DNA og protein mod protein, da man ser direkte på hvilke nukelotider eller aminosyrer som er identiske mellem sekvenserne. På engelsk betegnes sekvenssammenligninger som alignments og at sammenligne sekvenser betegnes at aligne to sekvenser. Termerne alignment og aligne vil blive brugt i denne teoridel. Alignments foretages for at se om to sekvenser er beslægtede. Hvis sekvenserne er beslægtede er der en sandsynlighed for at proteinerne har samme funktion og gennem alignments kan man således finde funktionen af ukendte sekvenser. På grund af mutationer i form af insættelser (eng. insertions) eller fjernelser (eng. deletions) af aminosyrer kan beslægtede sekvenserne været blevet ændret med tiden, og aminosyrerne kan derfor variere eller hele dele af sekvensen kan være fjernet (se infoboks 2). På trods af ændringer i sekvensen kan den overordnede funktion stadig været bevaret, da det er specifikke domæner (f.eks. katalyserende domæner i enzymer, se infoboks 3) der har betydning for proteints funktion. Således gør det intet at mindre betydningsfulde positioner i proteinet er muteret. På grund af indsættelser eller fjernelser af aminosyrer er de sekvenser man aligner ikke altid lige lange. For at tage højde for det i alignmentet kan man indsætte huller (eng. gaps, se infoboks 4) for at indikere at en eller flere aminosyrer mangler. Ved at indsætte huller kan man opnå en bedre alignment, hvilket fremgår af figur 1. Infoboks 1 Når man lave en alignment vil det sige at man sammenligner DNA- eller proteinsekvener for at undersøger om der er steder på sekvensen hvor de er ens. Hvis sekvenserne er ens kan det antages at proteinerne har samme funktion. Infoboks 2 Mutationer kan opstå på forskellige måder; de kan være inducerede af f.eks. radioaktivitet eller forekomme naturligt som en del af evolutionen. Mutationer overordnet opdeles i t0 kategorier: 1. punktmutation, hvor en enkelt nukleotid er ændret f.eks. fra A til G. 2. Frame-shift mutationer, hvor der er enten er fjernet eller indsat en eller flere nukleotider..
Infoboks 3 Figur 1. To sekvenssammenlignerne. Den øverste er uden huller og den nederste med. Et 1 tal indikerer at aminosyrerne er identiske og et 0 indikerer at der er enten et mis-match eller et hul. I teorien kan alle sekvenser alignes, og hvis man indsætter tilstrækkelig mange huller vil sekvenserne blive lige lange. For at skelne mellem gode og dårlige alignments, dvs. alignments hvor proteinerne faktisk er beslægtede mod alignments hvor de ikke er, benytter man et scoringssystem. Scoringssystemet er konstrueret således, at hver alignment får tildelt en score (alignment scoren), som på baggrund af antal identiske aminosyre (match), antal huller og antal næsten identiske aminosyre (mis-match, f.eks. position 6, L mod V, i figur 1) tildeler alignmentet en score. Des højere score vil være ensbetydende med en bedre sammenligning, da match vil bevirke til en positiv score og huller/mis-match vil få tildelt en negativ score. Hvis det antages at et match scorer 1, mis-match scorer -1 og huller scorer -2 vil scoren for de to alignments i figur 1 være: Sammenligning uden huller: 1-1-1+1-1-1-1-1-1+1 = -4 Sammenligning med huller: 1-2+1+1+1-1+1+1+1-2+1 = 3 Det kan således ses, at selvom der bliver indsat huller der vægter negativt vil alignmentet alligevel være bedre end uden huller. Omvendt ville et overtal af huller dominere med en negativ score, og dermed vil en alignment med mange huller ikke være favorabel. Som nævnt kan man lave alignments mellem to eller flere sekvenser. Hvis man aligner mere end to sekvenser kaldes det et multiple alignment. Når man laver multiple alignments kan man undersøge hvor tæt beslægtede et stort antal proteiner er. Man kan bruge disse alignments til at lave fylogenetiske træer (se infoboks 5), således at slægtskabet mellem proteinerne kan visualiseres. Du kan læse mere om fylogeni her. Nogle proteiner er mere identiske på tværs af arter end andre. Ofte er disse proteiner essentielle proteiner, hvilke indgår i vigtige biologiske processer som metabolismen, proteinsyntesen og DNA-replikation. Specifikke domæner i proteiner er her ensbetydende med områder i proteinet der er vigtigt for dets funktion. Disse domæner er oftest bevarede i beslægtede proteiner og aminosyrer sekvensen vil derfor være identisk på disse steder når man sammenligner sekvenserne. Specifikke domæner er f.eks. steder hvor proteinet interagerer med andre proteiner eller molekyler, eller det sted hvor processer katalyseres. Se et eksempel på specifikke (bevarede) domæner her. Infoboks 4 Huller (gaps) kan observeres i sekvenssammenligning er, og er er de steder hvor en deletion eller insertion har fundet sted i en af sekvenserne. En deletion er ensbetydende med at en eller flere nukleotider eller aminosyre er blevet slettet. Huller kan ses som "-" i den sekvens der mangler de pågældende nukleotider/aminosyrer.
Det skal dog påpeges at bevarede proteiner ikke altid er essentielle, men det kan antages at hvis bestemte områder i et protein er bevaret er disse essentielle. Ved at lave multiple allignments på essentielle proteiner der stammer fra forskellige organismer vil man udover at se slægtskabet over proteinerne også kunne se slægtskabet mellem organismerne, da det kan antages, at forskellen mellem proteinerne relativt set er den samme som forskellen mellem organismerne. Således kan man bruge alignments til at undersøge hvor beslægtede både proteiner og organismer er. Infoboks 5 Fylogeni er læren om organismers slægtskab. Et fylogenetisk træ er således et slægtskabsstæ hvor man kan visualisere organismernes slægtskab.
Portefølje i bioinformatik øvelser Porteføljen består af en beskrivelse samt generel guide til syv forskellige programmer og databaser samt 4 tilhørende øvelser der hver berør flere af de beskrevne programmer. De fire øvelser er alle uafhængig af hinanden og består hver af en række deløvelser der eksemplificere brugen af netop et program eller database. De fire øvelser er alle bygget op med en kronologisk tilgang til brugen af de forskellige programmer og databaser, men alle deløvelserne vil også kunne laves separat hvis dette skulle ønskes. Oversigt over programmer og databaser: Basic Local Alignment Search Tool (BLAST) FigTree National Center for Biotechnology Information (NCBI) Protein Databank (PDB) PyMol UniProt Virtual Ribosome Oversigt over øvelser: 1. Aktin, fra mrna til tredimensionelt protein Denne øvelse arbejder med Virtual Ribosome, UniProt, PDB og Pymol. 2. Myostatins proteininteraktioner og organismers slægtsskab Denne øvelse arbejder med UniProt, PDB, Pymol og FigTree. 3. Bioinformatisk analyse af antistoffer Denne øvelse arbejder med BLAST, PDB og Pymol. 4. Identifikation og visualisering af ukendt protein Denne øvelse arbejder med BLAST, UniProt, PDB og Pymol.
Programmer og Databaser Basic Local Alignment Search Tool (BLAST) Gå til BLAST her. Basic Local Alignment Search Tool (BLAST) er en metode til at sammenligne DNA- eller proteinsekvenser. Figur 1. Illustration på BLAST. Ved at blaste en sekvens mod en database laver man en parvis alignment mellem query-sekvensen og alle andre sekvenser i den pågældende database. Hver alignment får en score og tilslut kan man se om der er nogle sekvenser i databasen der er beslægtede med query-sekvensen. Beskrivelse BLAST er et værktøj, der bruges til at sammenligne DNA- eller proteinsekvenser. Når man bruger BLAST laver man database søgning, da man undersøger om der i en database findes DNA- eller proteinsekvenser der ligner den input sekvens man har givet BLAST. Den sekvens man undersøger betegnes en query-sekvens (se infoboks 1) og undersøgelse i BLAST betegnes at blaste sekvensen (se infoboks 2). Disse to termer vil gå igen i materialet og det er derfor vigtigt at blive bekendt med dem. BLAST kan også bruges til at finde funktionen af DNA- og proteinsekvenser. Det kan nemlig antages at hvis to sekvenser ligner hinanden i aminosyresammensætning har de også samme funktion. Overordnet set er BLAST et værktøj, der giver et hurtigt overblik over Infoboks 1 En query sekvens er betegnelsen for den DNA- eller proteinsekvens man laver en BLAST på. Infoboks 2 At lave en BLAST undersøgelse på en given DNA- eller proteinsekvens betges at blaste sekvensen. I. Hvorvidt en query-sekvens er beslægtet med andre sekvenser i en database. II. I hvor høj grad sekvenserne er relaterede. III. Hvad funktionen af query-sekvensen højst sandsynlig er. BLAST er bygget på en matematisk model der sammenligner DNAeller proteinsekvenser ved brug af parvis alignment. Parvis alignment er en metode til at søge efter lokale ligheder (eng. local alignments,
se infoboks 3) mellem query-sekvensen og de DNA- og proteinsekvenser der findes i de biologiske databaser. En alignmentet er illustreret ved figur 2. Man kan udregne en score for hvor godt alignmentet er ved at finde de positioner hvor sekvenserne er henholdsvis forskellige og identiske. På baggrund af scoren kan man konkludere hvor tæt sekvenserne er beslægtede. Du kan læse mere om alignments her. Infoboks 3 Når man lave en alignment vil det sige at man sammenligner DNA- eller proteinsekvener for at undersøger om der er steder på sekvensen hvor de er ens. Hvis sekvenserne er ens kan det antages at proteinerne har samme funktion. Figur 2. Sammenligning af to proteinsekvenser. Et grønt 1-tal indikerer at de to aminosyre er identiske og et rødt 0 indikerer at de er forskellige. Til at udregne scoren bliver identiske aminosyrer scoret med værdien 1 og to forskellige aminosyrer bliver scoret med værdien -1. BLAST sorterer søgeresultaterne efter hvor godt de matcher querysekvensen. Resultatsekvenserne sorteres efter den før omtalte score, hvor en høj score er ensbetydende med et godt match og dermed en indikation af at sekvenserne er beslægtede. De sekvenser der alignes er ikke altid lige lange. På grund af mutationer i DNA kan der være fjernet eller indsat nukleotider i DNAsekvensen, hvilket betyder at der mangler eller er blevet indsat en ekstra aminosyre. Der tages højde for mutationer i alignmentet, da man kan indsætte huller (eng. gaps, se infoboks 4) i alignmentet for at få en bedre score og dermed en bedre sammenligning. Figur 3 viser hvordan indsættelse af huller kan forbedre scoren. For at hele alignmentet ikke bliver fyldt med huller, bliver disse scoret med en negativ værdi som er lavere end den for to forskellige aminosyre der står overfor hinanden. I figur 3 bliver match scoret med 1, et mismatch (to forskellige aminosyrer) bliver scoret med -1 og huller bliver scoret med -2. Du kan læse mere om brugen af huller i sekvenssammenligninger her. Infoboks 4 Huller(gaps) kan observeres i sekvenssammenligning er, og er er de steder hvor en deletion eller insertion har fundet sted i en af sekvenserne. En deletion er ensbetydende med at en eller flere nukleotider eller aminosyrer er blevet slettet. Huller kan ses som "-" i den sekvens der mangler de pågældende nukleotider/aminosyrer.
Figur 3. Sammenligning af to proteinsekvenser hvor der er indsat huller. Et grønt 1-tal indikerer at de to aminosyrer er identiske og et rødt 0 indikerer at de er forskellige. Til at udregne scoren bliver identiske aminosyrer scoret med værdien 1, to forskellige aminosyrer bliver scoret -1 og et hul bliver scoret med -2. Hvis der sammenlignes med alignmentet fra figur 2 er det tydligt at sekvenserne matcher bedre efter der er indsat huller. Når man laver en BLAST undersøger man om en query-sekvens er beslægtet med andre proteiner i en database. Når man skal analysere resultaterne fundet gennem BLAST er det derfor vigtigt at være kritisk, da man vil finde beslægtede sekvenser. I teorien kan ALLE sekvenser nemlig alignes, men blot fordi de kan det, eller får en høj score er det ikke nødvendigvis ensbetydende med at resultatsekvensen er beslægtet med query-sekvensen. I BLAST resultatet er der inkluderet metoder der undersøger om sekvenserne i alignmentet kan karakteriseres som værende beslægtet. Dette gøres blandt andet ved at finde resultatsekvensernes querydækning og e-værdi. Nedenfor gennemgås de tre forskellige værdier som der er vigtige at kigge på når man fortolker et BLAST resultat. Query dækning (eng. query coverage) angiver hvor mange procent af den pågældende resultatsekvens der er med i den parvise alignement den danner med query-sekvensen. Hvis query dækningen er på høj indikerer det, at en stor andel af resultatsekvensen matcher query sekvensen. Det skal dog påpeges, at dækning ikke fortæller om der er eventuelle huller i alignmentet (se infoboks 4) eller om alle aminosyrerne er identiske. Desuden kan den procentuelle dækning være misvisende da en query-sekvens kan være en lille del af en større sekvens og den procentuelle dækning vil således ende med at være lille da den kun angiver den del af resultatsekvensen der indgår i den parvise alignment med query-sekvvensen. Max scoren er den score som hver resultatsekvens får på baggrund af matchet med query-sekvensen. Max scoren udregnes gennem den før omtalte matematiske model og tager ikke højde for om sekvenserne egentlig er identiske. Query-sekvensen bliver nemlig sammenlignet med ALLE sekvenser i den pågældende database, og hver sammenligning vil få tildelt en score. I et
generelt BLAST-output er det resultatsekvenserne med de højeste scorer, der bliver vist først (des højere score, des bedre match), men som nævnt er en høj score ikke ensbetydende med et identisk match. Grunden er, at sekvenser rent tilfældigt kan matche en query-sekvens uden egentlig at være beslægtet med den. Et mål for tilfædigheden er e-værdien, hvilke beskrives nedenfor. E-værdien (eng. e-value eller expected valuee ) angiver den forventede (tilfældige) tilstedeværelse af en resultatsekvens i den database man søgte imod. Grunden til man bruger e-værdier er, at man af tilfædlige årsager kan finde højt scorende resultatsekvenser i en stor database. E-værdien for en given sekvens bruges til at sige hvor mange resultater med den score man ville kunne forvente af tilfældige årsager. Input: En query sekvens (DNA- eller proteinsekvens). Output: Liste over resultatsekvenser der matcher querysekvensen. Generel guide Når man skal foretage en BLAST skal følgende punkter gennemgåes: 1. Valg af den organisme og/eller database man vil søge mod. 2. Valg af BLAST typen. 3. Indtaste sekvens eller uploade fil med sekvens. 4. Starte BLAST 5. Fortolke resultatet De 5 punkter vil blive gennemgået nedenfor. Punkt 1-2 På startsiden for BLAST, se figur 4, kan man vælge hvilken organisme man ønsker at blaste query-sekvensen mod. Man vælger organismen under BLAST Assembled RefSeq Genomes. Hvis der ikke er noget specifikt ønske om organisme kan man blaste mod alle sekvenser i databasen ved at vælge Basic BLAST. Det skal påpeges at typen af BLAST (BLAST mod DNA- eller proteinsekvenser) også kan vælges når man har indtastet sin query sekvens, se figur 5.
Figur 4. BLAST start side. Figur 5. BLAST søgeside. Punkt 3 Afhængig af den query-sekvens man ønsker at blaste, og om man vil finde lignende DNA- eller proteinsekvenser, skal BLASTen specificeres. Dette gøres ved at vælge hvilken type BLAST man vil foretage. Der er følgende former: BLASTn: Har en nukleotidsekvens og søger i nukleotiddatabaser. BLASTp: Har en proteinsekvens og søger i proteindatabaser. BLASTx: Har en nukleotidsekvens og søger i proteindatabaser. tblastn: Har en proteinsekvens og søger i nukleotiddatabaser. tblastx: Har en nukleotidsekvens og søger i nukleotiddatabaser (denne er mere omfattende end BLASTn). De type af BLAST, der er mest benyttede er BLASTn og BLASTp. Øvelserne der omhandler BLAST arbejder med BLASTp.
I figur 5 kan søgesiden for BLAST ses. Den øverste markering viser felterne, der specificerer hvilken type BLAST man vil lave og den midterste markering viser hvor man kan vælge hvilken database man vil blaste imod. De mest benyttede databaser er dem der indeholder flest sekvenser. Disse er følgende: nucleotide collection nr/nt for BLASTn, tblastn og tblastx. non-redundant protein sequences for BLASTp og BLASTx. Man kan begrænse sin søgning ved at vælge databaser, der indeholder et begrænset antal sekvenser. Eksempelvis benyttes databasen Protein Data Bank (PDB, læs mere her), hvis man kun ønsker resultater hvor proteinet har en kendt 3D struktur. Punkt 4 Den nederste markering i figur 5 viser hvor man starter BLAST. Punkt 5 Outputtet af BLAST er opdelt i tre dele; Graphic Summary, Descriptions og Alignments. De to første dele kan ses i figur 6 og den sidste i figur 7. De vigtigste områder er forklaret på illustrationen og vil blive gennemgået nedenfor. Infoboks 5 En superfamilie er den overordende betegnelse for protienfamilier, der er grupper af proteiner der nedstammer fra en fælles stamfader og som typisk har ens tredimensionel struktur. Infoboks 6 Figur 6. Den øverste del af BLAST outputtet. GraphicSummary Øverst kan man se hele query-sekvensen og dens længde i aminosyrer (sekvensen i figur 4 er 136 AA lang). Under query-sekvensen er området superfamilier (eng. superfamilies, se infoboks 5). Her angives hvor på querysekvensen der er konserverede domæner (se infoboks 6), og om disse tilhører en bestemt superfamilie af proteiner. Du kan læse om konserverede domæner her. I den næste del af graphic summary kan man se hvilke områder af resultatsekvenserne, der match query-sekvensen samt hvor de Konserverede domæner er specifkke områder af en eller flere aminosyrers længde i et protein som IKKE er muteret mellem forskellige organismer. Konserverede domæner er ofte det sted på proteinet der udfører den biologiske funktion proteinet har. Hvis to proteiner har de samme konserverede domæner kan det antages at de udfører samme funktion og dermed er beslægtede. Klik her for et eksempel på konserverede domæner.
matchende områder er. Hver linje er en resultatsekvens, og de er listet i den rækkefølge som sekvenserne også er listet i Descriptions delen. Farverne for hver resultatsekvens (sort, blå, grøn lilla og rød) indikerer hvad max-scoren for resultatsekvensen er, og længden af linjerne indikerer hvilke områder i sekvensen query- og resultatsekvensen er identiske. Descriptions Her er de bedste resultatsekvenser vist med accession nummer, beskrivelse af proteinfunktion, hvor det stammer fra, max scoren, total scoren, procent lighed, e-værdi og links til databaser hvor sekvensen kan findes. Ved at trykke på accession nummeret kan man komme til proteinets genbankside hvor man kan finde flere informationer omkring proteinet (se infoboks 7 for information og se opbygningen af en genbankside her). De vigtigste informationer omkring resultatsekvensen og matchet med query-sekvensen kan findes ved at se på e-værdien, max scoren og procent ligheden, da disse tre beskriver hvor identisk resultatsekvenserne er med query-sekvensen. En resultatsekvens kan antages som et korrekt match til querysekvensen hvis e-værdien er under 10ˆ-4-10ˆ-5 (des lavere, des bedre). Infoboks 7 Genbank er hoved databasen for DNA sekvenser, og indeholder dermed flest sekvenser. En sekvens genbank side er en internet side i Genbank der indeholder informationer om netop den DNA-sekvens. Figur 7. Den nederste del af BLAST outputtet. Alignments Her vises sekvenssammenligningen mellem de enkelte resultatsekvenser og query-sekvensen. I hver sekvenssammenlignen vises hvilke steder sekvenserne er både identiske og forskellige. Den midterste sekvens er sammenligningen, hvor en aminosyre indikerer at aminosyreren på den position er identiske, et "+" indikerer at aminosyrerne minder om hinanden fysisk/kemisk, f.eks. hvis de begge har carboxylsyre sidekæder, og et mellemrum indikerer at sekvenserne er vidt forskellige på den position. Det anbefales altid at kigge på sekvenssammeligningerne, da man således kan se hvor sekvenserne er identiske. En resultatsekvens
kan endvidere undersøges nærmere ved at trykke på accession nummeret, hvilke vil føre til dens beskrivelse på NCBI. På baggrund af viden omkring en god e-værdi samt sammenligning af max score og procentuel lighed, kan det bestemmes hvilken/hvilke resultatsekvenser der matcher query-sekvensen. Hvis man opnår resultater med en e-værdier der er laver en grænseværdien på 10ˆ-4-10ˆ-5 kan man konkludere at query sekvensen har samme funktion som resultatsekvensen med den lave e-værdi. Alle resultatsekvenser vil altid kunne undersøges nærmere ved at trykke på det tilhørende accession nummer hvormed man kan gå til dens genbank- eller NCBIside. Øvelse 3. Bioinformatisk analyse af antistoffer (3.A) og øvelse 4. Identifikation og visualisering af ukendt protein (4.A) arbejder med brugen af BLAST.
FigTree FigTree kan hentes her. FigTree er et program der benyttes til at visualisere fylogenetiske træer så man blandt andet kan danne sig et overblik over organismers slægtskab. Figur 1. Fylogenetisk træ. Et fylogenetisk træ viser slægtsskabet mellem forskellige taxa (arter). For at kunne fortolke resultatet af FigTree er det vigtigt at have en basis forståelse af fylogeni og evolutionære slægtskaber (se infoboks 1). Det anbefales derfor at læse teori afsnittet om fylogeni. Du kan finde teorien her. Beskrivelse FigTree bruges til at visualisere slægtskaber mellem organismer gennem fylogenetiske træer. Fylogenetiske træer kan konstrueres på forskellige måder. Hver måde benytter en bestemt matematisk model, og valg af denne vil bestemme hvordan slægtskabet mellem organismer bliver. Oftest er der ikke variation i det over ordnede slægtskab, men det er vigtigt at vide, at et evolutionært slægtskab ikke altid er entydigt. I øvelserne er valg af matematisk model er underordnet da FigTree bruges til at visualisere træer der er lavet på forhånd. Infoboks 1 Fylogeni er læren om organismers slægtskab. Et fylogenetisk træ er således et stamtræ hvor man kan visualisere organismernes evolutionære slægtskab Input: Fil med det fylogenetisk træ i format phylip (filen kan kan laves i programmet ClustalX eller Treehugger, hvor bl.a. sekvenssammenligninger bruges til lave træer. Dette ligger dog uden for det her materiale). Output: Et fylogenetisk træ hvor man kan visualisere slægtskabet mellem organismerne. Generel guide
Inden man kan benytte FigTree skal man have lavet et træ og gemt det i phylip format. Et træ kan laves med programmerne ClustalX eller Treehugger, men i øvelserne der arbejder med FigTree får du træer der lavet på forhånd og du skal derfor ikke selv konstruere dem. I et åbnet FigTree vindue benyttes open til at åbne phylip filen med det træ man vil visualisere. Træet der vises har en rod, dvs. den ældste stamfader er fordefineret. Roden er dog valgt tilfældigt af FigTree og giver derfor ikke et korrekte billede af det kronologiske slægtskab. For at få et rigtigt billede af slægtskabet bør træet vises uden rod. Et ikke-rodet træ viser nemlig hvordan træets taxa er relateret til hinanden, men giver ingen indikation om kronologien i slægtskabet, dvs. træet giver ikke nogen informationer om hvilke taxa der er ældst eller yngst. I figur 2 kan det ses hvordan man viser et træ uden rod. For at lave træet med en korrekt rod skal man have kendskab til de forskellige taxa i træet og vide hvilken der er fjernest beslægtet. Hvis man ved hvilken taxon der er fjernest beslægtet kan en ydergruppe vælges (se infoboks 2 og læs mere om ydergrupper her), og træet vil kunne rodes i forhold til den. Ved at vælge en ydergruppe specificerer man hvilken taxon der er længst fra de andre, og FigTree vil lave et nyt træ som placerer ydergruppen længst væk fra de andre taxa. Træet omrodes ved først at trykke på den taxon der skal være ydergruppe og derefter benytte kommandoen Reroot, se figur 2. Infoboks 2 En ydergruppe (outgroup) betegner den taxon som er mindst belægtet med alle de andre taxa i det slægtskab man undersøger. Ydergruppen skal specificeres hvis man vil lave et rodet træ og dermed have en kronologisk opbygning af træet, dvs. være i stand til at bestemme hvilke taxon der er yngst og ældst. Figur 2. FigTree output. Klik på figuren for at se den i stor format. Grenene mellem de forskellige taxa i træet svarer til distancen mellem dem og er defineret som antal mutationer divideret med længden af sekvenssammenligningen (alignmentet) inklusiv gaps mellem de to taxa. Det skal påpeges at grenlængden ikke indikerer hvor tæt beslægtet de forskellige taxa er fra hinanden. I figur 3 ses det, at taxon A og B er tættest beslægtet, selvom grenlængden mellem dem (1+2 = 3) er længere end den mellem A og C (1+0.5+1 = 2.5). Grunden til dette er, at sekvensen for A er tættere på
skevensen for C end den er på B. Dette kan f.eks. skyldes at B har akkumuleret flere mutationer efter den diergerede væk fra A i forhold til antal af mutationer stamfaderen til A og B fik efter C divergerede væk. Målestokken er også vigtig at kigge på, da denne angiver antal mutationer pr. afstand. En høj målestok er således ensbetydende med mange mutationer og dermed stor forskel mellem træets taxa. Grenlængde og målstok er således vigtige for at kunne fortolke slægtskabet korrekt og ikke drage forhastede konklusioner om et eventuelt tæt slægtskab. I figur 2 er det vist hvor man kan finde målestokken i FigTree. Figur 3. Træet viser slægtsskabet mellem taxon A, B og C. På trods af, at grenlængden mellem A og B er større end mellem A og C er A og B faktisk tættere beslægtet, dvs. de to taxa divergerede senere væk fra hinanden. Grunden til at grenlængden mellem A og C er kortere er fordi deres sekvenser er tættere på hinanden end A og B. Dette kan eventuelt skyldes at B har muteret mere siden den divergerede fra A. Øvelse 2. Myostatins proteininteraktioner og organismers slægtsskab (2.D) arbejder med brugen af FigTree.
National Center for Biotechnology Information (NCBI) og Genbank Gå til NCBI her. National Center for Biotechnology Information (NCBI) er en af de mest omfattende og benyttede online ressourcer hvor man kan finde information om næsten alle kendte DNA- og proteinsekvenser. Beskrivelse Internetsiden hos NCBI er bygget op omkring mange forskellige databaser, bl.a. sekvensdatabaser for nukleotider og proteiner. Udover sekvensdatabaser, har NCBI også tilknyttet databaser for hele genomprojekter og litteratur (PubMed) samt forskellige programmer som f.eks. søgemaskinen BLAST (læs mere om BLAST her). Det store antal databaser er med til at gøre søgning på NCBI til en af de mest omfangsrige. NCBI er derfor en god internetside at benytte når man skal finde informationer om sekvenser. Brug Finde informationer om DNA- og proteinsekvenser ved at søge på enten navn, funktion, organisme, accession nummer (se infoboks 1) eller lignende. Finde videnskabelige artikler om et givent DNA eller protein. Bestemme en funktion for en ukendt DNA- eller proteinsekvens. Generel guide Ved at benytte NCBI til informationssøgning vil man automatisk søge på tværs af biologisk relaterede databaser. Resultatet af søgningen er omfangsrig på grund af de store databaser, og det er derfor vigtigt at specificere sin søgning. Specificering kan eksempelvis gøres ved at vælge hvilken database man vil søge imod. Valg af database afhænger af om man vil søge efter DNA eller proteiner. I figur 1 kan du se hvor du kan vælge database. Infoboks 1 Et accession nummer er et unikt nummer der gives til DNA- eller proteinsekvens så denne kan findes på tværs af databaser. Dvs. at den samme i UniProt og NCBI eksempelvis vil have samme unikke nummer tilknyttet så man ved at søge på det vil få samme resultat ved søgning i begge databaser. Figur 1. Forsiden på NCBI. Klik for at se figuren i stor format.
Søgning på NCBI giver ofte et resultat med mange sekvenser. Hver sekvens der er tilgængelig gennem NCBI har sin egen side med information, en genbankside, se infoboks 2. Man kan gå til en sekvens genbankside ved at klikke på sekvensens understregede navn på resultatsiden, se figur 2. Infoboks 2 Genbank er hoved databasen for DNA sekvenser, og indeholder dermed flest sekvenser. En sekvens genbank side er en internet side i Genbank der indeholder informationer om netop den DNA-sekvens. Figur 2. Siden efter søgning efter protiensekvensen for insulin. Klik for at se figuren i stor format. Genbank Genbank er hoveddatabasen for kendte DNA-sekvenser og den kan findes gennem NCBI's internetside. Hver DNA-sekvens i Genbank har sin egen genbankside. Genbanksiden indeholder informationer omkring DNAsekvensen, bl.a. hele nukleotid sekvensen, organismen den kommer fra, links til dens translaterede proteinsekvensen mm. Genbanksider er alle opbygget på samme måde og består af tre dele hvilke gennemgåes nedenfor. For at se opbygningen af en genbankside kan der klikkes her. Header Denne del indeholder den generelle information omkring sekvensen: Accession nummer, sekvensens navn, hvilken organisme sekvensen stammer fra, hvilket kromosom den er på, hvilke artikler og publikationer der omtaler den mm. Feature Denne del er en slags tabel, der indeholder informationer om selve DNA-sekvensen og funktionen af de forskellige områder i sekvensen. Her beskrives bl.a. hvilke nukleotider der faktisk koder for proteinet (denne del betegnes CDS, der er en forkortelse af coding sequence, se infoboks 3) samt positionerne for introns og exons (se infoboks 3). Origin Denne del indeholder udelukkende selve DNA-sekvensen (nukleotiderne) samt dens positioner. Infoboks 3 CDS er en forkortelse for coding sequence og er den del på DNAsekvensen der koder for selve proteinet. En DNA sekvens består nemlig af introns og exons, hvor introns er de dele af DNA sekvensen der koder for et protein (bliver sat sammen til CDS), og exons bliver splejset ud.
Der er ingen øvelser forbundet til søgning på NCBI's internetside, og dermed gennemgåes søgninger på NCBI ikke nøjere i dette materiale. På trods af dette anbefales det at man alligevel prøver søgemaskinerne af.
Protein Databank (PDB) og Genbank Gå til PDB her. Protein Data Bank (PDB) er en database, der indeholder proteiner og deres kendte tredimensionel struktur. Infoboks 1 Sekventering er en betegnelse for at bestemme nukleotid rækkefølgen af DNA eller aminosyre rækkefølgen af proteiner. Med andre ord er det en betegnelse for at bestemme sammensætningen af DNA- eller proteinsekvenser. Læs mere om sekventering i afsnit 4.3 her. Infoboks 2 Figur 1. Sammenhæng mellem proteiners strukturformer. I PDB kan man finde tertiær- og kvanternærstrukturen for proteiner. Beskrivelse For at et protein kan blive tilgængeligt gennem PDB skal det ofte være blevet sekventeret (se infoboks 1), dvs. man skal kende proteinets aminosyresammensætning og dermed både den primær-, sekundær- og tertiærstruktur (se infoboks 2). Proteiner tilgængelige gennem PDB er ofte i interaktion med andre molekyler, f.eks. metalioner, DNA eller andre proteiner da interaktionerne stabiliserer proteinet. Et protein er sat sammen på forskellige niveau (strukturer). Den primære struktur betegner aminosyre sammensætningen, den sekundære struktur betegner den måde proteinet er foldet på (α-helix eller β-plader), den tertiære struktur betegner den tredimensionnelle foldning af proteinet og den kvanternære struktur betegner et færdigt protein når der er sat sammen i flere subunits (hvor hver subunit er i sin tertiære form). Se et sammenhæng mellem proteinstrukturerne her.
En af metoderne hvorpå den tredimnesionelle struktur bliver fundet er ved røntgenkrystallografi. I denne metoder sender man røntgenstråler ind på atomerne i en struktur og da røntgenstrålen vil afbøje forskelligt alt afhængig af atomets palcering kan man ved at måle afbøjningen bestemmer atomernes placering. PDB-databasen er kædet sammen med en række andre databaser og programmer, blandt andet NCBI og PyMol. Ved at søge på et protein på NCBI kan det dermed undersøges om proteinet har en kendt tredimensionel struktur. Undersøgelsen kan gøres da hvert protein i PDB har et PDB id (se infoboks 3). Et PDB id er et unikt nummer i stil med et accession nummer (se infoboks 4). PDB id'et er fire karaktere lang og består af både tal og bogstaver f.eks. 1MGY. Brug Undersøge om et protein har en kendt tredimensionel struktur. Finde PDB id'et til proteinet med den kendte struktur. Finde informationer om proteinets struktur der kan bruges til en senere undersøgelse i PyMol o Hvordan ser proteient ud? o Hvordan ser det aktive site ud? o Hvilke kæder (subunits) består det af? o Hvor lang aminosyresekvensen i hver kæde? o Er der konserverede domæner (se infoboks 5)? Generel guide Den mest simple søgning i PDB-databasen gøres ved at søge på et PDB id, f.eks. 1JKL. Ved at søge på PDB id finder man kun det pågældende protein, men det er en forudsætningen at man kender PDB id'et.v En mere kompleks søgning gøre med fri tekst, f.eks. "human insulin". Fri tekst søgning anvendes hvis man vil undersøge om PDB indeholder kendte strukturer indefor søgekriteriet, f.eks. om PDB indeholder strukturer af humant insulin. En ulempe ved fri tekst søgning er det store antal af resultater der ofte fås. Det anbefales derfor at søge direkte på PDB id et hvis man kender det. På figur 2 kan man se hvor søgningsfelterne er placeret i PDB, og figur 3 viser opbygningen af en resultat side efter. Infoboks 3 Et PDB id er et unikt nummer alle strukturer i PDB få tildelt. PDB id'et består af fire karakterer, hvilke oftest er et bogstav efter fulgt af tre tal, f.eks. 1JKL. Infoboks 4 Et accession nummer er et unikt nummer der gives til DNA- eller proteinsekvens så denne kan findes på tværs af databaser. Dvs. at den samme i UniProt og NCBI eksempelvis vil have samme unikke nummer tilknyttet så man ved at søge på det vil få samme resultat ved søgning i begge databaser.
Infoboks 5 Figur 2. Startsiden for PDB. Klik for at se figuren i stor format. Specifikke domæner i proteiner er her ensbetydende med områder i proteinet der er vigtigt for dets funktion. Disse domæner er oftest bevarede i beslægtede proteiner og aminosyrersekvensen vil derfor være identisk på disse steder når man sammenligner sekvenserne. Specifikke domæner er f.eks. steder hvor proteinet interagerer med molekyler eller det sted hvor processer katalyseres. Se et eksempel på specifikke (bevarede) domæner her. Figur 3. Resultatside for en "fri tekst" søgning i PDB. Klik for at se figuren i stor format. Når den rette struktur er fundet kan man gå til strukturens PDB-side. Øverst på siden er en række faner (1 på figur 4), der kategoriserer strukturens informationen. I dette materiale skal fanerne Summay og Sequence benyttes. Summary siden er startsiden for strukturen (se figur 3). Som navnet antyder giver summary siden en opsummering af strukturens informationer. Det mest interessante område på summary siden er den molekylære beskrivelse (eng. Molecular Description, 2 på figur 4). I denne del kan man få informationer om: o Klassifikationen (i eksemplet her er det et hormon) o Vægt o Antal af kæder (subunits) og deres længde
I området under kilde (eng. Source, (3 på figur 4) kan man se hvilke organismer strukturerne stammer fra. Figur 4. Summary siden for en PDB side. I fanen Sequence (se figur 5), er der mere specifikke informationer omkring strukturen. Som nævnt kan et protein bestå af flere kæder (subunits). Kæderne kan være både identiske og forskellige, og i Sequence fanen kan man se hvilke der er identiske og forskellige. Dette kan findes under 1 i figur 5, hvor der også står hvor mange kæder der er. Man kan vælge om man vil se informationerne for alle kæderne i strukturen eller kun dem der er unikke (dvs. at der kun vises en af hver kæde, og identiske kæder bliver dermed ekskluderet), se 2 på figur 5. For hver kæde kan man endvidere se sekundærstrukturen for forskellige dele af sekvensenen og dermed se ved hvilke aminosyrer de forskellige sekundærstrukturer starter. Figur 5. Sequence siden for en PDB side. Klik for at se figuren i stor format. Du kan læse mere om proteinstrukturer i teoridelen her. Hvis man ønsker at arbejde videre med proteinet i f.eks. PyMol, kan
man downloade PDB filen. Dette gøres ved at trykke Download files i det øverste højre hjørne ved siden af PDB id'et (i figur 5 er det ved siden af 2L1Y). Når man har trykket på Download files skal punktet PDB file (Text) vælges, og PDB filen bliver dermed downloaded direktet til din download mappe. PDB filen kan åbnes i programmet PyMol hvor du kan visualisere proteinet. Øvelse 1. Aktin, fra mrna til tredimensionelt protein (1.C), 2. Myostatins proteininteraktioner og organismers slægtsskab (2.B), Øvelse 3. Bioinformatisk analyse af antistoffer (3.B) og øvelse 4. Identifikation og visualisering af ukendt protein (4.C) arbejder med brugen af PDB.
PyMol PyMol kan hentes her (man skal registreres først). PyMol er et program, der bruges til at visualisere proteiners tredimensionelle opbygning. Figur 1. En kvantenærstruktur af en protein der består af fire forskelligekæder, hver farvet forskelligt. Strukturen er fundet gennem PDB og lavet i PyMol. Beskrivelse PyMol er et værktøj til at undersøge den tredimensionelle opbygning af proteiner. PyMol kan bl.a. bruges til at finde og undersøge bindingsdomæner, katalyserende domæner, interaktioner med f.eks. DNA og meget andet. Et eksempel er visualisering af en transskriptionsfaktor. Her er transkriptionsfaktoren (proteinet) i interaktion med et DNA-molekyle. Ved at visualisere interaktione kan transkriptionsfaktorens bindingssted på DNA-molekylet bestemmes og man kan finde de aminosyrer som er vigtige for bindingen. Man kan zoome ind på de interessnte måde og derved visualisere både sekundær-, men også primærstrukturen. PyMol er et vigtigt redskab for at forstå enkelte proteiners opbygning og deres interaktioner med andre molekyler. Input: PDB id for det protein man ønsker at visualisere, eller en PDB fil downloadet fra PDB databasen. Output: Det ønskede protein i 3D. Dette kan redigeres og præsenteres efter brugerens ønske. Generel guide I PyMol kan man se den overordnedestruktur af proteinet på forskellige måder. De mest benyttede er:
Ribbon (dansk: bånd), der en simpel struktur hvor molekylet vises som tynde bånd. Sticks (dansk: pinde), der også er en båndstruktur, men her vises sidekæderne også. Cartoon (dansk: tegning), hvor man kan se proteiners sekundærstruktur (se infoboks 1). Surface (dansk: overflade), som viser overfladen af molekylet. Denne form er god hvis man skal undersøge hvilke aminosyre der ligger på overfladen af proteinet og dermed kan interagere med andre molekyler. Brugeren af PyMol kan selv bestemme detaljeringsgraden for proteinet. Ønskes få detaljer kan man gemme forstyrrende elementer, se kommandoen her. Forstyrrende elementer kan f.eks. være sidekæder (se infoboks 2) og hydrogen atomer da disse er tilsted på hver aminosyre. Hvis der omvendt er dele som sidekæder, atomer etc. man gerne vil undersøge kan de vælges separat. Herefter kan de farves og præsenteres som ønsket, se her for kommandoerne til dette. Ved at præsentere enkelte dele anderledes end hele proteinet kan de nemmere undersøges af brugeren. PyMol vinduet, som man arbejder i, er opdelt i flere forskellige dele: Historiedelen hvor kommandoerne der senest er benyttet vises. Kommandolinjen hvor manuelt input indtastes. Kommandolinjen starter med PyMOL>. En række kommandoer til brug i PyMol kan findes her. Visualiseringsdelen (med sort baggrund i figur 2) er delen hvor proteinet kan ses. Oversigtsdelen, der er ved siden af visualiseringsdelen. Oversigtsdelen viser de molekyler/makromolekyler PyMol vinduet indeholder. Hvis brugeren selv vælger dele af molekylet vil de også fremgå her. Kommandotasterne A (Action), S (Show), H (Hide), L (Label) og C (Color) (ASHLC tasterne) benyttes til at redigere proteinet. Kommandoer gennem disse taster kan også indtastes i kommandolinjen, dog er det oftest lettere at benytte ASHLC tasterne. Infoboks 1 Et protein er sat sammen på forskellige niveau (strukturer). Den primære struktur betegner aminosyre sammensætningen, den sekundære struktur betegner den måde proteinet er foldet på (α-helix eller β-plader), den tertiære struktur betegner den tredimensionnelle foldning af proteinet og den kvanternære struktur betegner et færdigt protein når der er sat sammen i flere subunits (hvor hver subunit er i sin tertiære form). Se et sammenhæng mellem proteinstrukturerne her. Infoboks 2 En sidekæde er den varierende del på en aminosyre og dermed specificerer den.. Figur 2 viser et eksempel på et PyMol vindue og de forskellige dele PyMol er bygget op af.
Figur 2. Eksempel på et PyMol vindue. Som nævnt er PyMol og PDB databasen kædet sammen. Hvis computeren der arbejdes ved har internetforbindelse er PyMol således i stand til automatisk at downloade det protein man ønsker at arbejde med. Proteinet downloades direkte fra PDB, hvor man blot skal benytter PDB id'et til at hente proteinet. Downloading gøres gennem kommandolinjen med kommandoen fetch efterfulgt af proteinets PDB id. En anden måde at hente protener til PyMol er ved at downloade selve PDB filen for det pågældende protein, og derefter vælge open i filer. Når et protein er blevet hentet ind i et PyMol vindue vil dets navn, i form af PDB id et, blive vist i oversigtsdelen til højre i skærmen (se figur 1). Ved at benytte ASHLC tasterne ud for proteinets navn specificeres kommandoer for det protein der er valgt. Det er muligt at have flere proteiner i samme PyMol. Det/de proteiner man ønsker at se, kan markeres ved blot at trykke på proteinets navn i oversigtsdelen. For at få den bedste visualisering af proteinet er det en god ide at ændre på fremstillingen af det. En trinvis guide til at visualisere et protein i PyMol kan ses her, hvor PyMol kommandoen også kan ses: 1. Hent proteinet: fetch PROTEIN_NAVN 2. Skjul overflødig data: hide everrthing 3. Ændre på struktur fremstillingen: show cartoon
4. Farve interessante områder (f.eks. bindings domæner etc.): color NAVN_PÅ_OMRÅDE Diverse redigeringskommandoer til benyttelse i kommandolinjen kan findes her. Desuden kan flere kommandoer til PyMol findes her (siden er på engelsk). Øvelse 1. Aktin, fra mrna til tredimensionelt protein (1.D), 2. Myostatins proteininteraktioner og organismers slægtsskab (2.C), Øvelse 3. Bioinformatisk analyse af antistoffer (3.C) og øvelse 4. Identifikation og visualisering af ukendt protein (4.D) arbejder med brugen af PyMol.
UniProt Gå til UniProt her. UniProt er en online database der indeholder informationer omkring proteiner. Beskrivelse UniProt er en af de mest omfangsrige databaser når det gælder informationer om et givent protein. Informationerne der fås gennem UniProt inkluderer blandt andet: Proteinsekvensen og -strukturen. Funktionen af proteinet. Aminosyremodifikationer. Lokaliteten hvor det aktive protein udfører sin funktion. Vigtige områder i proteinet, f.eks. active sites. Hvilke organismer der fremstiller det. Sygdomme der kan være relateret til protein. Henvisning til andre databaser. Brug UniProt bruges til at få viden om et protein da databasen givet et godt overblik over proteinfunktioner og dermed en hurtig tilgang til viden. UniProt læres bedst at kende ved at lave søgninger på forskellige proteiner. Generel guide I UniProt kan man søge efter proteiner ved at bruge enten accessionnummeret (se infoboks 1) eller ved at søge på fri tekst. Hvis man vælger at søge på accessionnummer søger man på et specifikt protein og får der med kun et resultat. Dette anbefales hvis man kender accessionnummeret og gerne vil finde informationer om netop det protein. Kender man ikke accessionnummeret kan man foretage en fri tekst søgning. Hvis man vil søge efter eksempelvis insulin indtaster man det i søgefeltet (se figur 1) og får dermed en resultatliste med alle de UniProt sider der indeholder noget med insulin. Da UniProt er koblet sammen med mange af de mest omfangsrige databaser, vil en uspecifik søgning i UniProt ofte give en meget stor mængde af resultater. Infoboks 1 Et accession nummer er et unikt nummer der gives til DNA- eller proteinsekvens så denne kan findes på tværs af databaser. Dvs. at den samme i UniProt og NCBI eksempelvis vil have samme unikke nummer tilknyttet så man ved at søge på det vil få samme resultat ved søgning i begge databaser. Figur 1. Sartsiden for UniProt. For at mindske antallet af resultater kan man gøre søgningen mere
specifik. Søgningen kan foretages ved at angive forskellige parametre, blandt andet proteinnavn, hvilken organisme det skal stamme fra, den subcellulære location (se infoboks 2) etc. Valget af søgningsparametre afhænger af det protein man vil finde og hvor nøjagtigt man ønsker at resultatet skal være. De nævnte parametre kan bestemmes ved at lave en avanceret søgning gennem Advanced search (se figur 1) Hvis man eksempelvis vil søge efter Immunoglobulin G fra en mus kan man i første søgefelt skrive IgG (se figur 2), trykke Advanced search, vælge AND der specificerer at resultat OGSÅ skal indeholde det næste søgekriterium. I feltet Field kan man da vælge organisme og tilslut skrive mus muscous i det andet søgefelt, se figur 2. NB! Husk at søge på engelske navne og latinske navne. Infoboks 2 Den subcellulæer lokation er det sted i cellen hvor det færdige protein hører til, dvs. det er her det udfører sin funktion g dermed vil kunne findes. Figur 2. Brugen afavanceret søgning. Klik for at se figuren i stor format. Søgning med UniProt giver som nævnt ofte mange resultater så det anbefales at specificere sin søgning med Advanced search. Eksempelvis vil søgning på insulin også give resultater med bl.a. insulinreceptor. For at undgå resultater der er beslægtet med det protein man vil finde kan man benytte NOT kriterier. NOT bruges på samme måde som AND, men vil specificere at søgningen IKKE må give resultater, der indeholder det efterfølgende søgekriterium. Et eksempel på et søgeresultat kan ses i figur 3. Felter der er vigtige er markeret med en ring. Informationerne i felterne fortæller om det givne resultat og giver dermed en indikation om man er på rette spor i sin søgning. Felterne inkluderer blandet andet proteinnavnet og organismen. Feltet Accession henfører til proteinets accession
nummer som man kan klikke på for at komme til proteinets UniProt side. Figur 3. En resultatside efter søgning i UniProt. Klik for at se figuren i stor format. For at læse om et protein og få informationer omkring det, skal man gå til proteinets UniProt side. Dette gøres ved at klikke på accessionnummeret der står med blåt (se figur 3). UniProt siden indeholder en beskrivelse af proteinet i en detaljeringsgrad der varierer alt afhængig af den kendskab der findes om proteinet. UniProt siden er inddelt i forskellige områder, hvoraf de vigtigste er følgende: Names and origin, der indeholder en generel, kort beskrivelse af proteinet. General annotation (Comments), der giver en forholdsvis uddybende forklaring af proteinets funktion. Dette er en god sektion at læse for at danne sig et overblik over proteinet og hvilken rolle det har i organismen. Sequence annotation (Features), der beskriver de forskellige domæner i proteinet. Dette kan eksempelvis være signal sekvenser, der giver information om proteinets sidste destination i cellen, aminosyre modifikationer, fx acetylering og glycosylering, eller hvis aminosyrer er blevet fjernet i det færdige protein. Sequence, der giver hele aminosyresekvensen. Et eksempel på en UniProt side kan ses her, hvor overskrifterne er de områder der lige er nævnt. Det anbefales selv at lave en simpel søgning på UniProt hvorefter proteinets siden undersøges. Øvelse 1. Aktin, fra mrna til tredimensionelt protein (1.B), 2. Myostatins proteininteraktioner og organismers slægtsskab (2.A) og øvelse 4. Identifikation og visualisering af ukendt protein (4.B) arbejder med UniProt.
Virtual Ribosome Gå til Virtual Ribosome her. Virtual Ribosome er et online program, der benyttes til at translatere (oversætte) DNA-sekvenser til protein. Viden omkring codons og læserammer er essentiel for at forstå og bruge Virtual Ribosome. En kort beskrivelse af codons og læserammer kan findes her, ellers se infoboks 1+2. Infoboks 1 En codon er en samling af tre nukleotider, der sammen oversættes til netop en aminosyre. Der er 4 nukleotider hvilket er ensbetydende med, at der findes 64 (4³) mulige codons. Infoboks 2 Figur 1. En DNA sekvens translateres til proteinsekvens. I Virtual Ribosome kan man undersøge en DNA sekvens for mulige læserammer. Således kan man finde den korrekte aminosyre sekvens som DNA'et koder for. Beskrivelse Virtual Ribosome bruges til at translatere DNA-sekvenser til proteinsekvenser. Udover den direkte translation bruges Virtual Ribosome også til at analysere de 6 mulige læserammer, da programmet nemlig kan finde den mest sandsynlige læseramme for DNA-sekvensen. Hvis man har en ukendt sekvens er analysen af læserammer en stor fordel, da man ved at undersøge dem for den åbne læseramme kan finde protein-kodende gener i sekvenserne. En læseramme er mellem to stop codons og betegner de mulige måder en DNA-/RNAsekvens kan aflæses på. Da codons er tripletter af nukleotider, er der tre forskellige muligheder hvorpå en DNA-/RNA-sekvens kan aflæses. Disse tre måder beteges tre forskellige læserammer, som hver vil give tre forskellige aminosyresekvenser. De tre læserammer starter aflæsningen fra enten position 1, 4, 7 etc., 2, 5, 8 etc. eller 3, 6, 9 etc. Læs mere om læserammer her. Input: Output: DNA-sekvens der skal translateres til et protein. En aminosyre sekvens der er lavet på baggrund af den bedste læseramme. Generel guide Når man går til internetsiden for Virtual Ribosome kommer man direkte ind på startsiden, som kan ses i figur 2.
Figur 2. Startsiden for Virtual Ribosome. Den DNA-sekvens man ønsker at translatere indtastes i felt 1 på figur 2, og kan indtastes både med og uden "header". En DNA-sekvens med header ser ud som nedenfor. Det er vigtig at huske en ny linje mellem header og selve sekvensen, da linjen adskiller dem: >protein 1 AATGTGGACCTCAGTTGACTAGCAGTTAGGAGCACAGATGACAGTA Et eksempel på en DNA-sekvens uden header: ACCGGATGCGTAACAGATAGGGCACCCATGATGACGAACGTATAG Sekvenser med headere kaldes for FASTA filer, og du kan se udvidet beskrivelse her. Hvis der ikke ændres på parametrene inden man kører Virtual Ribosome er det standardindstillingerne, der bliver brugt til translationen. Disse er følgende: Læseramme 1 benyttes, dvs. det er position 1 på den viste (positive) DNA streng der er det første nukleotid der aflæses. Valg af læseramme kan ændres i felt 2 i figur 2 til den læseramme/er man ønsker at bruge. Der er ingen specificeret start codon, dvs. at hele DNAsekvensen oversættes til aminosyrer og ikke kun den åbne læseramme (mellem stop- og stopcodon). Valg af den åbne læseramme ændres ved felt 3 i figur 2. Det anbefales at denne ændres til Start codon: Strict, da det her vælges at translationen SKAL starte ved startcodonen ATG. Dette er den mest udbredte startcodon, og derfor også den codon der starter langt de fleste åbne læserammer. For at starte translationen skal man trykke på Submit query.
Et output for Virtual Ribosome kan ses i figur 3. Som det fremgår af figuren kan man se både DNA- og proteinsekvens, hvor proteinsekvensen er den øverste. I eksemplet i figur 3 er der kun benyttet en læseramme. Hvis der havde været flere vil disse være stablet ovenpå hinanden således at de tre læserammer, der tilhører den positive DNA streng vil være over DNA-sekvensen, og de tre der tilhører den negative DNA streng vil være under DNAsekvensen i baglæns aminosyre rækkefølge. Hvis man vil gemme den translaterede proteinsekvens kan man højre klikke på FASTA og trykke "gem som". Proteinsekvens bliver da gemt i FASTA format. Figur 2. Eksempel på et output fra Virtual Ribosome. Øvelse 1. Aktin, fra mrna til tredimensionelt protein (1.A) arbejder med Virtual Ribosome.
Øvelser 1. Aktin, fra mrna til tredimensionelt protein Introduktion Aktin er et protein, som er højt konserveret på tværs af arter. Faktisk er der kun en variation på 20% mellem aktin fra mennesker og det fundet i alger. Aktin er det protein, der danner grundlag for cytoskelettet i cellers cytoplasma, og det er en af byggestenene i muskler hvor det danner en platform for proteinet myosin. Platformen er det system der kontrollerer muskelkontraktion, og dermed gør at musklerne kan trække sig sammen (se infoboks 1). Aktin dannes som et monomerisk molekyle, dvs. at det består af en enkelt subunit. For at aktin bliver til en funktionel struktur, der kan udføre en biologisk virkning, skal aktin danne en polymer (poly = mange). I muskler består aktin platformen således af mange aktin molekyler der er sat sammen til en lang kæde af aktin molekyler der tilsammen er en funktionel struktur. Infoboks 1 Muskelkontraktion, er når en muskel trækker sig sammen, f.eks. når man spænder sine armmuskler. Musklerne trækker sig sammen ved det der kaldes "sliding filament" teorien. Denne bygger på, at et myosin molekyle danner en interaktion med en aktin polymer. Myosin molekylet bøjes hvorpå det får aktin polymeren til at glide hen over sig (slide). Interaktionen med myosin molekylet og aktin polymeren bliver brudt og myosin molekylet er nu klar til at danne en ny interaktionen længere nede på aktin polymeren. Figur 1. Aktin og Myosin i muskler. Et funktionelt aktin molekyle er sat sammen af flere subunits (røde og blå cirkler) der holdes sammen ved hjælp af Tropomyosin og Troponin. Myosin molekylerne bevirker at aktin komplekset kan glide frem og tilbage i en kontraherende bevægelse. Dette gøres ved at myosin hovederne binder til aktin, skubber det frem ad og derefter slipper igen. Øvelses oversigt Øvelse 1 er sat sammen af fire deløvelser (A-D). Nedenfor kan du se en oversigt over de forskellige øvelser.
1.A Virtual Ribosome Formålet med øvelsen er at lære om læserammer, strict/non-strict startcodon og betydningen af at vælge den rigtige læseramme. Du kan læse mere om læserammer her. a) Hent mrna sekvensen for aktin her. Marker og kopier sekvensen. Gå herefter til Virtual Ribosom, der er et online translations program du kan finde her. Translater sekvensen i Virtual Ribosome med standardindstillingerne, se guiden til Virtual Ribosome for program brug. Dan dig et overblik over outputtet ved at besvare følgende spørgsmål: 1. Hvad betyder tegnene >>> ))) og *** under sekvensen? NB! Du kan se et codon translationsskema her. 2. Hvad er en læseramme, og hvilken er der blevet brugt til denne translation? 3. Kan det antages at dette er den rigtige læseramme for at få det korrekte protein, hvorfor/hvorfor ikke? b) Prøv at translatere sekvensen med hensyn til den mest almindelige startcodon ATG (se infoboks 2). Dette vil ikke ændre læserammen, dvs. translationen vil stadig starte på position 1 på den positive DNA streng. Derimod vil translationen give det længste protein der har ATG som startcodon, og ikke translatere hele sekvensen som før. Til Infoboks 2 Start- og stopcodon er de to typer af codons der specificere hvor translationen af mrna til protein foregår. Startcodonen består i de fleste tilfælde af nukleotiderne ATG, som også koder for aminosyren methionin. Dermed er methionin den første aminosyre i den translaterede peptid sekvens. En stopcod består af nukleotid tripletterne UAA, UGA eller UAG, og når man i translationen støder på en af disse vil den stoppe, og peptidsekvensen er færdig med at blive translateret.
denne søgning skal feltet Start codon:strict ændres, se eventuelt guiden til Virtual Ribosome for program brug. 4. Hvor langt er dette protein? Vil du (stadig) antage at dette er det korrekt protein? C) Ved at vælge en strikt startcodon kan man nemt visualisere den længste aminosyresekvens (mellem start- og stopcodon) fra en given læseramme. Som regel vil man således hurtigt kunne danne sig et overblik over hvorvidt det er en korrekt translation da en peptidsekvens skal have en vis længde for at være et funktionelt protein. Dog skal det påpeges at der kan være pro-peptidsekvenser som f.eks. signalpeptider der bliver kløvet af i det funktionelle protein, men vil være tilstede når DNA-sekvensen bliver translateret. Prøv nu at translatere sekvensen med strikt startcodon på alle 6 læserammer, se guiden til Virtual Ribosome for hvordan dette gøres. Ved at kombinere alle 6 læserammer og have en strikt startcodon vil Virtual Ribosome finde den længste translaterede peotidsekvens, der har ATG som startcodon, på tværs af alle læseramerne. 5. Hvor langt er dette protein og hvilken læseramme er blevet brugt? 6. Som nævnt finder Virtual Ribosome den længst translaterede sekvens, men kan det altid antages at denne translation giver det korrekte protein, hvorfor/hvorfor ikke? 1.B UniProt Formålet med denne øvelse er at lære at søge efter og gøre sig bekendt med proteiner ud fra den information, der er tilgængelig gennem UniProt. Dette gøres ved at benytte almene fri tekst søgekriterier eller accession numre og derefter undersøge UniProtsiderne for de proteiner der findes gennem søgningerne. a) Benyt den generelle guide til søgning i UniProt til at søge efter det ønskede protein, når du ved at: I. Det er aktin II. Det skal komme fra mennesker III. Det skal komme fra glat muskulatur (se infoboks 3) i en hovedblodåren (Aorta). Foretag maksimalt tre søgninger og tilføj et kriterium efter hver søgning (f.eks. første søgning er på insulin, den næste er på insulin AND human osv.). Besvar følgende spørgsmål efter hver søgning: 1. Hvor mange sekvenser svarer til kriteriet? Infoboks 3 Glat muskulatur er den type af muskulatur der findes i blodkar og i de indre organer f.eks. mavesækken, tarmene og øjnene. Denne type af muskulatur styrer man ikke selv (det er autonomt), f.eks. skal man ikke e selv sørge for at mavesækken trækker sig sammen så maden kan blandes, men man skal selv styre musklerne i sine ben der skal trække sig sammen for at vi kan gå. Muskeltypen i benene betegnes skeletmuskulatur eller tværstribet muskulatur og bortset fra hjertet styrer vi selv kontraktionen af den muskulatur (det er ikke-autonomt).
2. Hvilket søgekriterier vil du tilføje for at indsnævre resultatet? Vil du benytte et AND, OR eller NOT kriterium, hvorfor/hvorfor ikke? Fortag nu søgningen med de nye søgekriterier. NB! Benyt eventuelt den udvidet søgning og specificer field feltet som beskrevet i den generelle guid for UniProt. b) Hvert protein har et accession nummer (se infoboks 4). Benyt nu proteinets accession nummer, P62736, til at finde UniProt siden for det given protein. Ved at benytte det unikke accession nummer er det nemt at finde et protein og dermed undgå at skulle gennemse en masse søgeresultater for at finde det korrekte protein. Dan dig et overblik over UniProt siden og find ud af hvilke informationer man kan få omkring proteinet ved at besvare følgende spørgsmål: 3. Hvad er proteinets anbefalede navn (eng. recommended name) og dets gennavn (navnet på det gen der koder for proteinet)? 4. Hvor lang er sekvensen i aminosyrer (fork. AA)? 5. Hvad er dets funktion, subcellulære lokation (se infoboks 5) og er der forbundet nogle sygdomme med det? 6. Er der nogle pro-peptiddele i den translaterede sekvens (propeptider er aminosyrer der ikke er i det færdige funktionelle protein)? NB! Se afsnittet molecule processing under Sequence Annotation domænet. Infoboks 4 Et accession nummer er et unikt nummer der gives til DNA- eller proteinsekvens så denne kan findes på tværs af databaser. Dvs. at den samme i UniProt og NCBI eksempelvis vil have samme unikke nummer tilknyttet så man ved at søge på det vil få samme resultat ved søgning i begge databaser. Infoboks 5 Den subcellulæer lokation er det sted i cellen hvor det færdige protein hører til, dvs. det er her det udfører sin funktion g dermed vil kunne findes. 1.C PDB Formålet med øvelsen er at lære at finde relevant information om et protein gennem dets PDB side så de rette dele af det kan observeres gennem 3D visualisering i PyMol. a) Gå til PDB databasen og søg efter PDB siden med id 1M8Q (se infoboks 6). 1. Hvilke molekyler kan man se i PDB id'et? Infoboks 6 Et PDB id er et unikt nummer alle strukturer i PDB få tildelt. PDB id'et består af fire karakterer, hvilke oftest er et bogstav efter fulgt af tre tal, f.eks. 1JKL. 2. Hvor mange kæder (subunits) indeholder id et, hvor mange af disse er unikke, hvad er navnet på dem (A, B, C...) og hvillke proteiner tilhører de forskellige kæder (Myosin, aktin...)? NB! Dette kan findes under fanen Sequence, se en oversigt
over siden her. 3. Hvor mange aminosyrer indeholder hver af de unikke kæder, og hvilke positioner på kæden er i id et? NB! Dette kan findes ved at trykke show unique chains only. Viden omkring hvilke kæder (subunits) PDB id et indeholder, hvilke proteiner der hører til de forskellige kæder og hvilke dele af selve aminosyresekvensen id et reelt set indeholder, kan benyttes i PyMol til at undersøge proteinerne i 3D, markere kæderne, markere interessante aminosyre eller observere interaktioner når PDB id et indeholder mere end et protein. 1.D PyMol Formålet med øvelsen er at lære at benytte PyMol til 3D visualisering af proteiner samt at markere relevante kæder og dermed præsentere proteiner på en måder der er overskuelig. a) Åben PyMol og hent aktin-myosin komplekset med PDB-id 1M8Q. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol og relevante kommandoer at kende så du kan gøre følgende: 1. Vis alle molekylerne i båndstruktur. NB! Det anbefales først at gemme (hide) alting og derefter benytte vis (show) til at gøre dette. 2. Farv henhodsvis myosin og aktin kæderne hver deres farve og gem et billede af komplekset. NB! Du kan gemme ved enten at taget et screen shot eller filer Save Image As PNG. 3. Aktin-myosin komplekset består af mange kæder, og det kan derfor forstyrre det overordende billede af komplekset og aktin-myosin interaktionen når det vises som pinde-, båndeller tegningsstruktur. For at præsentere komplekset på en mere overskuelig måde kan vise overfladen af proteinerne. Vis overfladen af alle proteinerne i komplekset og sammenlign med strukturen fra spørgsmål 2. Synes du det er blevet nemmere at visualisere protienerne som en helhed? 4. I 4.A fandt du hvilke kæder aktin er kodet på. Benyt denne viden til at finde ud af hvor mange aktin proteiner der interagere med et myosin molekyle, når du ved at myosin kæde P interagerer med aktin. NB! Start med at lokalisere kæde P ved farvning og zoom. Herefter kan kæde specifik farvning bruges til undersøgelsen. 5. Udforsk selv PyMol og de forskellige måder molekylerne kan fremstilles på. Fx kan baggrundsfarven ændres, skyggerne kan
justeres, måderne hvorpå α-helix og β-plader i den sekundære struktur bliver vist kan ændres, og meget andet.
2. Myostatins proteininteraktioner og organismers slægtsskab Introduktion Myostatin, der også er kendt som Growth/Differentiation factor 8 (GDF8), er et protein fra TGF-beta-familien (TGF = Transforming growth factor, se infoboks 1). Proteinet har en negativ virkning på muskelvækst og inhiberer dermed både muskeldifferentiering og - vækst ved at binde til receptorer på muskelceller. En mangel på myostatin som f.eks. følge af en mutation i genet eller inhibering af proteinet vil således føre til øget muskelvækst. For "hverdags" eksempler på myostatin inhibitorer kan følgende artikler læses: Super Babies reveal the Key to Strength Gene, engelsk artikel fra singularityhub.com, 2009 New Supertrout Set To Muscle Its Way Into Supermarkets, engelsk artikel fra slantedscience.com, 2010 Infoboks 1 Medlemmer af familien Transforming Growth Factor β (TGFβ) er proteiner der regulerer cellevækst og - differentiering. Medlem mer af TGFβ familien har en inhiberende virkning på cellevækst, og dermed vil en mangel på disse proteiner kunne ses i mange tumorer, der er celler med ukontrolleret cellevækst. Follistatin kodes af genet FST, og er et protein, der binder til proteiner fra TGF-beta-familien og derved inhiberer dem. Follistatin binder især til proteinet activin, men også til myostatin hvor med det blokerer for myostatins funktion. Follistatin vil således bevirke øget muskelvækst, da inhiberingsproteinet (myostatin) for muskelvækst selv bliver inhiberet. Figur 1. Myostatin er hæmmer transkription så der er mindsket muskel differentiering. Follistatin inhiberer myostatin og vil dermed bevirke øget genudtrykkelse og dermed øget muskelvækst. Øvelses oversigt Øvelse 2 er sat sammen af fire deløvelser (A-D). Nedenfor kan du se
en oversigt over de forskellige øvelser. Infoboks 2 2.A UniProt Formålet med denne øvelse er at lære at søge efter og gøre sig bekendt med proteiner ud fra den information, der er tilgængelig gennem UniProt. Dette gøres ved at benytte almene fri tekst søgekriterier eller accession numre (se infoboks 2) og derefter undersøge UniProt-siderne for de proteiner der findes. a) Benyt den generelle guide til søgning i UniProt til at søge efter de ønskede proteiner, du kan vælge enten at have to UniProt sider åbner i hver sit vindue og foretage de to søgninger samtidig eller du kan lave del 2.A.a og del 2.A.b for først myostatin og derefter follistatin. Du skal søge efter: Et accession nummer er et unikt nummer der gives til DNA- eller proteinsekvens så denne kan findes på tværs af databaser. Dvs. at den samme i UniProt og NCBI eksempelvis vil have samme unikke nummer tilknyttet så man ved at søge på det vil få samme resultat ved søgning i begge databaser. I. Myostatin der skal komme fra mennesker. II. Follistatin der skal komme fra mennesker. NB! Husk at proteiner ofte har både et populært navn (f.eks. myostatin) og et videnskabeligt navn (f.eks. differentiation factor 8 for myostatin). Du kan gå til UniProt databasen ved at klikke her. Husk eventuelt at åbne to vinduer, da du skal lave to søgninger. 1. Hvad er accession nummeret for de to proteiner? b) Gå til de to proteiners UniProt-side og svar på nedenstående
spørgsmål. Dette skal du gøre for at få et overblik over UniProtsiderne samt finde ud af hvilke informationer man kan få omkring proteiner gennem UniProt. De to første spørgsmål kan besvares ved at se øverst på proteinernes UniProt side. 2. Hvad er proteinernes anbefalede navn (eng. recommended name) og deres gennavn (navnet på det gen der koder for proteinet)? 3. Hvor lang er sekvenserne i aminosyrer (fork. AA)? 4. Gå til afsnittet "General annotation (Comments)". Hvad er deres funktion og subcellulærelokationer (se infoboks 3)? Follistatin har et bindingsdomæne specifikt for proteiner fra TGF. Hvilken proteinfamilie tilhører myostatin? Hvordan tror du at det passer med follistatin (tror du at proteinerne interagerer)? Infoboks 3 Den subcellulæer lokation er det sted i cellen hvor det færdige protein hører til, dvs. det er her det udfører sin funktion g dermed vil kunne findes. 5. Hvad ville der ske, hvis der kun var myostatin i kroppen? hvad ville der ske hvis der både er myostatin og follistatin? 6. Gå til afsnittet "Sequence annotation (Features)". Follistatin binder som nævnt til proteiner fra TGF-beta-familien, hvad hedder dette domæne på proteinsekvensen for follistatin, og på hvilke positioner kan det findes? NB! Se afsnittet molecule processing under Sequence Annotation. 2.B PDB Formålet med denne øvelse er at lære at finde relevant information om et protein gennem dets PDB side, så de rette dele kan observeres gennem 3D-visualisering i PyMol. a) Gå til PDB databasen og søg efter PDB siden med id 3HH2. 1. Hvilke molekyler kan man se i PDB id'et? 2. Hvor mange kæder indeholder id et og hvor mange af disse er identiske? hvad er navnet på dem (A, B, C...)? hvad koder de for (myostatin, follistatin...)? NB! Dette kan findes under Sequence fanen, se et billede af det her. 3. Hvor mange aminosyrer indeholder hver af kæderne og hvilke positioner på kæden er den første og sidste aminosyre på? Stemmer dette overens med længden af de færdige proteiner som du fandt i 2.A.6 (109AA for myostatin og 315AA for follistatin)?
NB! Dette kan også ses vises gennem Sequence fanen. Viden omkring hvilke kæder PDB id et indeholder, hvad disse koder for og hvilke dele af selve aminosyresekvensen id et reelt set indeholder, kan benyttes i PyMol til at undersøge proteinerne i 3D, markere kæderne, markere interessante aminosyre eller observere interaktioner når PDB id et indeholder mere end et protein. 2.C PyMol Formålet med øvelsen er at lære at benytte PyMol til 3D visualisering af proteiner samt at markere relevante kæder og dermed præsentere proteiner på en overskuelig måde. a) Åben PyMol og hent aktin-dnaasei komplekset med PDB-id 1ATN. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol og relevante kommandoer at kende så du kan gøre følgende: 1. Vis alle molekylerne i tegningsstruktur. NB! Det anbefales først at gemme (hide) alting og derefter benytte vis (show). 2. Farv de fire forskellige kæder hver deres farve (kæde A+B en nuance fx blålige og kæde C+D en anden fx rødlige). 3. Visualiser TB domænet (TGF beta familiens bindingsdomæne) på follistatin molekylet (kæde C og D). Det skal vises med både sidekæde og separat farve. Hvis ikke 2.a er lavet er dette domæne 30-103 på det ikke-færdige protein og dermed aminosyre 1-74 på det færdige. NB! Vælg først aminosyrerne, vis sidekæder og til slut farv dem. 4. Visualiser kun én myostatin og én follistatin kæde, fx kæde A og C. Med en generel viden omkring protein interaktioner, vil du da antage at det er det korrekte domæne der på follistatin der interagerer med myostatin? NB! Dette kan gøres ved at benytte hide og derefter den kæde man ikke vil se. 5. Udforsk selv PyMol og de forskellige måde molekylerne kan fremstilles på. Fx kan baggrundsfarven ændres, skyggerne kan justeres, måderne hvorpå α-helix og β-plader i den sekundære struktur bliver vist kan ændres, og meget andet. 2.D FigTree
Formålet med øvelsen er at lære om FigTree og at kunne benytte programmet til at visualisere det evolutionære slægtskab mellem forskellige organismer. a) Hent filen myostatin_alignment.ph her. Filen er lavet ved sekvens alignments (læs mere her) i programmet ClustalX og er en træ-fil af formaten Newick. Newick formaten bruges til træ-filer og i formaten bliver det evolutionære slægtskab mellem træets arter angivet med distancen mellem arterne. Marker al teksten i myostatin_alignment.ph og kopier den over i en tekst editor som f.eks. Notepad på Windows computere eller TextEdit på Apple computere. Gem nu filen som en almindelig tekst fil som myostatin_alignment.ph. Det er vigtigt at filen ender på.ph, da dette specificer at filen er i en format kaldet phylip. Denne type fil bruges nemlig som input i programmet FigTree. Åben nu FigTree og åben derefter myostatin_alignment.ph i programmet. Svar herefter på følgende spørgsmål: 1. Er der en overordnet tendens til en gruppering (dannelse af clades, se infoboks 4) af de forskellige organismer? 2. Hvilken organisme adskiller sig mest fra de andre, se her både på grenlængden og hvilken der intuitivt set (på baggrund af din viden om organismerne) adskiller sig mest? Infoboks 4 En gruppering er en fordanskning af det engelske ord clade, der er en fælles betegnelse for alle de organismer (taxa) der har samme stamfader. b) For at kunne danne sig et overblik over et kronologisk slægtskab kan man lave en rod på træet. Roden laves ved at specificere ydergruppen (eng. outgroup, se infoboks 5), som er den organisme der først divergerede væk fra de andre arter, som samlet kan betegnes som ingroup. Således kan der dannes en evolutionær tidshorisont. 3. Hvilken organisme vil du vælge som ydergruppe, og hvorfor? Lav nu træet med rod, dvs. lave en rod således at ydergruppen kommer tættest på roden og dermed længst væk fra de andre arter, benyt den generelle guide til FigTree for at se hvorledes det gøres. 4. Er der sket nogle ændringer i de observerede grupperinger fra spørgsmål 1, Hvorfor/hvorfor ikke? 5. Stemmer grupperingerne overens med din logiske viden omkring arterne, og det slægtskab omkring dem du kender til? NB! Benyt eventuelt funktionen Rotate til at vende grenene, dette ændre ikke på selve slægtskabet, men kun på visualiseringen af træet. Infoboks 5 En ydergruppe (eng. outgroup) betegner den taxon som først divergerede væk fra de andre arter (betegens ingroup). En ydergruppe skal specificeres hvis man vil lave et rodet træ og dermed have en kronologisk opbygning af træet, dvs. være i stand til at bestemme hvilke taxon der først divergerede væk fra de andre og dermed finde en indikation om hvilke arter der er yngst og ældst. Se et eksempel på ydergrupper her. Hvis der er tid, kan træet sammenlignes med et træ lavet fra den taxonomiske database hos NCBI. Hent først listen af arterne der
ingår i træet her, og gem den i en tekst fil på din computer som myostatin_arter. Gå herefter til den taxoniske database ved at klikke her. Benyt filen myostatin_arter i choose file og vælg derefter choose subset. Boksen animals tjekkes af og choose vælges for at visualisere træet. Arterne med fed skrift er dem der indgår i træet. De latinske navne for arterne bør kendes for at forstå træet, disse kan ses her.
3. Bioinformatisk analyse afantistoffer Introduktion Antistoffer er en del af kroppens forsvar mod fremmede organismer. Antistoffer findes enten opløst i blodet eller på overfladen af B-celler. B-celler er en del af kroppens immunsystem og bekæmper bakterielle infektioner ved brug af antistoffer. Antistoffer kan bekæmpe fremmede organismer, da specifikke dele i antistoffet kan genkende peptidsekvenser som fremmede og dermed starte et hurtigt og effektivt immunrespons ved at binde til den fremmede organisme så andre celler kan nedbryde den eller s[ de blokerer det bundne proteins funktion. Der findes fem forskellige typer af antistoffer. Ved typebestemmelse bruges antistoffers biokemiske navn immunglobuliner (Ig). De fem forskellige typer er IgA, IgD, IgE, IgG og IgM, hvoraf IgG er den mest udbredte (udgør 75 %). Alle fem typer af antistoffer har den samme "Y" grundstruktur, se figur 1, men varierer i antal kæder og deres længde samt hvor i kroppen antistofferne primært kan findes. Antistoffer er bygget op af tunge (eng. heavy) og lette (eng. light) kæder og hver af disse er opdelt i konstante og variable domæner. Figur 1. Opbygningen af et antistof. De lette kæder er vist med rød og de tunge kæder er vist med blå. Desuden er de konstante domæner for hver kæde vist med en mørkere farve end de variable domæner. Bindingsstedet for fremmed organismer er vist ved trekanter og firkanter, hvilket indikerer at hver variable del genkender forskellige strukturer. Dog genkender hver kæde, f.eks. de to tunge kæder, i et antistof den samme struktur. Kæderne i et antstof er holdt sammen med svovlsulfid bindinger, hvilket er vist med de grå cirkler.
De fem antistoffer har forholdsvis identiske konstante domæner, dvs. protein sekvensen er den samme (se infoboks 1). De variable domæner er placeret i spidsen af antistoffets "Y" og er modsat de konstante domæner meget forskellige både mellem antistoftyperne, men også indenfor de fem forskellige typer. Grunden til den store diversitet er, at de variable domæner er den del af antistoffet der genkender fremmede organismer. For at immunforsvaret kan genkende så mange forskellige fremmede organismer som muligt skal der derfor være mange forskellige antistoffer der hver har et specifikt variabelt domæne der genkender netop en fremmed organisme. Diversiteten i de variable domæner opstår ved mutationer samt genetisk rekombination (se infoboks 2) hvilke tilsammen giver de utallige antal af antistoffer der fidnes. De fem forskellige antistof typer er inddelt i forskellige underklasser der varier i forhold til deres fleksibilitet. Fleksibiliteten i et antistof påvirker hvilke fremmed organismerne antistoffet kan binde da strukturene er forskellige mellem de forskellige fremmed organismer. Des mere fleksibelt et antistof er, des mere komplekse strukturer kan det binde til. Fleksibiliteten i et antistof opstår i hængselsregionen der er det sted i Y et hvor de konstante domæner på de tunge kæder knækker over i de konstante dele på de lette kæder. For mere information om antistoffer og immunsystemet kan Biotech Academy projekt om immunforsaret læses. Den kan findes her. Øvelses oversigt Øvelse 3 er sat sammen af tre deløvelser (A-C). Nedenfor kan du se en oversigt over de forskellige øvelser. Infoboks 1 Konserverede domæner er specifkke stykker af en eller flere aminosyrer i et protein som IKKE er muteret mellem forskellige organismer. Konserverede domæner er ofte det sted på proteinet der udfører den biologiske funktion proteinet har. Hvis to proteiner har de samme konserverede domæner kan det antages at de udfører samme funktion og dermed er beslægtede. Se et eksempel på konserverede domæner her. Infoboks 2 Genetisk rekombination sker under celledelingen og er betegnelsen for den process hvir DNAstrengene åbner sig og sætter sig sammen på nye måder. Således bliver DNA'en ændret hvilket medfører at nye gener bliver udtrykt. Infoboks 3 3.A BLAST Formålet med øvelsen er at lære om BLAST, at kunne benytte BLAST til at bestemme hvilken superfamilie makromolekyler hører til (se infoboks 3), finde hvor mange andre proteiner der ligner din sekvens samt finde PDB siden for en given proteinsekvens. En superfamilie er den overordende betegnelse for protiener der er evolutionært beslægtet, dvs. minder om hinanden i struktur og funktion. Superfamilier kan videre indeles i familier og subgrupper, hvor proteinerne i disse grupper er endnu tættere beslægtet.
a) Sekvensen for en tunge kæde fra et IgG antistof kan hentes her. Marker og kopier proteinsekvensen og gå derefter til BLAST hjemmesiden. Her skal du benytte den proteinsekvens til at lave en protein-blast (BLASTp) mod PDB-databasen (denne vælges under Choose search set, se mere her). Efterfølgende skal du besvar nedenstående spørgsmål. Som hjælp til udførslen af BLAST samt fortolkning af resultatet kan du bruge den generelle guide for BLAST som du kan finde her. 1. Hvilken superfamilie hører sekvensen til? NB! se Specific Hits og Query sequence, se mere her. 2. Hvor mange sekvenser er næsten 100% identiske (har ubrudte røde linier) med din IgG sekvens? b) Gå ned til området Descriptions og find de to resultatsekvenser du antager som de bedste match til din IgG sekvens. Du skal tage højde for de elementer der i følge BLAST guiden er vigtige for et godt match. 3. Hvad er de to resultatsekvensers accession nummer (se infoboks 4), max score, procent lighed (eng. query coverage) og e-værdi? 4. Hvorfor valgte du disse to som de bedste. Argumenter for dit valg. Ved at blaste din sekvens har du undersøgt databasen Protein Databank for proteinsekvenser der er identiske med den proteinsekvens du havde til at starte med. Fra antallet af resultatsekvenser kunne du se at der var mange sekvenser der til en vis grad lignede din sekvens, men ved at se på E-værdi og antal sekvenser med ubrudte røde linier blev det klart at kun få sekvenser egentlig matchede din sekvens. Du skal nu videre til databasen Protein Databank og undersøge en af de to resultatsekvenser du har fundet gennem BLAST. 3.B Protein Databank, PDB Formålet med øvelsen er at lære at finde relevante informationer om et protein gennem dets PDB side der kan hjælpe til en optimal visualisering af proteinets tredimensionelle struktur. Den tredimensionelle struktur vil kunne visualiseres i programmet PyMol. a) Gå til PDB databasen og søg efter PDB siden for det bedste hit fra 3.a. Hvis denne del ikke er lavet, søg da efter siden med PDB id 1IGY (se infoboks 5). Som hjælp til søgning samt guide til opbygning af proteiners PDB side kan du bruge den generelle guide til PDB i denne Infoboks 5 Et PDB id er et unikt nummer alle strukturer i PDB få tildelt. PDB id'et består af fire karakterer, hvilke oftest er et bogstav efter fulgt af tre tal, f.eks. 1JKL.
Infoboks 4 øvelse. Guiden kan findes her. 1. Hvilken type immunoglobulin koder PDB id'et for (IgA, IgG etc.) og er det en bestemt subtype (1, 2, 3 etc.)? NB! Dette kan findes ved at se på PDB id'ets navn. 2. Hvor mange kæder har antistoffet, hvor mange af disse er identiske, hvad er navnet på dem (A, B, C...) og hvilken type kæder er det (tunge, lette eller )? NB! Dette kan findes under Sequence fanen, se en oversigt over området her. Et accession nummer er et unikt nummer der gives til DNA- eller proteinsekvens så denne kan findes på tværs af databaser. Dvs. at den samme i UniProt og NCBI eksempelvis vil have samme unikke nummer tilknyttet så man ved at søge på det vil få samme resultat ved søgning i begge databaser. 3. Hvor mange aminosyrer indeholder hver af kæderne og hvilke domæner er de delt op i (konstante, variable eller )? NB! For hver kæde skal domæne og hvilke aminosyrerpositioner de dækker noteres, eksempelvis: Kæde A: position 1-100 er det variable domæne på den lette kæde, position 101-200 er det konstant domæne på den lette kæde. Hvis der kigges på længden af den tunge kæde (434 aminosyrer) kan det ses, at længden ikke er den samme som den faktiske længde af kæden (474 aminosyre). Der mangler faktisk 40 aminosyrer. Manglen på aminosyrer kan skyldes fejlkilder forbundet med den eksperimentelle strukturbestemmelse, og er ikke ensbetydende med at de 40 aminosyrer mangler i kædens rigtige form. Man skal dog huske, at aminosyrerne mangler hvis man skal arbejde videre med proteinet i f.eks. PyMol, da man ikke vil kunne visualisere de dele af strukturen der mangler. 3.C PyMol Formålet med øvelsen er at lære at benytte PyMol til 3D visualisering af proteiner samt markere interessante kæder og dermed præsentere proteiner på en overskuelig måde. a) Åben PyMol og hent strukturen med PDB-id 1IGY. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol og relevante kommandoer at kende så du kan gøre følgende: 1. Vis alle molekylerne i tegningsstruktur. NB! Det anbefales først at gemme (hide) alting og derefter benytte vis (show) til at vise tegningsstrukturen. 2. Farv de fire forskellige kæder hver deres farve (kæde A + C en nuance fx blålige og kæde B + D en anden fx rødlige). 3. Har antistoffet den rette Y formede struktur og stemmer placeringen af de tunge og lette kæder overens med den forventede form?
NB! Se eventuelt figur 1 for at se den Y formede opbygning af et antistof. 4. I øvelse 3.a.1 blev de to bedste resultater fra BLAST søgningen fundet hvoraf det ene er det der visualiseres i PyMol. Antistoffet fra det andet resultat skal nu hentes ind i det åbne PyMol vindue (hvis ikke 3.a.1 er lavet, hent da antistoffet med PDB id 1IGT). Antistoffet hentes til PyMol på samme måde som tidligere, nemlig ved brug af fetch. Rediger nu i det nyhentede antistof så det også kun bliver vist i tegningsstruktur. NB! Det anbefales at de to antistoffer farves hver sin farve, dvs. alle kæderne i et antistof farves den samme farve. 5. Prøv nu at sammenlign (eng. align) de to antistoffer med hinanden og undersøg hvordan sammenligningen ser ud. Er de to antistoffer af samme type, f.eks. begge IgM? Hvis ja, tilhører de da samme subklasse? 6. Udforsk selv PyMol og de forskellige måde antistofferne kan fremstilles på. F.eks. kan antistoffernes farve ændres, baggrundsfarven i PyMol vinduet kan skiftes, skyggerne kan justeres, måderne den sekundærstruktur bliver vist kan ændres og meget andet.
4. Identifikation og visualisering af ukendt protein Introduktion En forsker har fået en prøve fra et får der er blevet syg efter at have spist en ukendt sammensætning af affald. Det er nu forskerens opgave at finde årsagen til fårets sygdom, dvs. karakterisere mulige proteiner i prøven der normalt ikke vil være tilstede i raske får. Forskeren har haft muligheden for at finde en samlet aminosyresekvens for to proteiner der ikke findes i raske får, og han skal nu finde ud af hvad de to proteinsekvenser hver især koder for og hvorvidt de stammer fra andre organismer. I følgende øvelse skal du hjælpe forskeren til at bestemme funktion, struktur og oprindelse for de to protein sekvenser. Øvelses oversigt Øvelse 4 er sat sammen af fire deløvelser (A-D). Nedenfor kan du se en oversigt over de forskellige øvelser.
4.A BLAST Formålet med øvelsen er at lære om BLAST og at kunne benytte denne metode til at bestemme en ukendt proteinsekvens og hvilke organisme den kommer fra. a) Hent den ukendte skevens her. Marker og kopier sekvensen og gå derefter til BLAST siden. Benytte nu protein BLAST (BLASTp) til at bestemmes hvilke proteiner der ikke findes i raske dyr. Da både organisme og funktion er ukendt anbefales det at lave en bred BLAST, dvs. mod alle genomer og mod standard databasen for BLAST (nonredundant protein sequences). Du skal derfor ikke ændre noget i opsætningen, men blot kopiere sekvensen ind og starte BLAST søgningen. Benyt den generelle guide for BLAST som hjælp til udførelsen samt til fortolkning af outputtet. 1. Hvilke to superfamilier tilhører proteinsekvensen (se infoboks 1)? 2. Hvor lange (ca.) er de to proteiner? NB! Se under Superfamilies i Graphic Summary domænet, se mere her. 3. Vil du på baggrund af e-værdien (skal være så lav som muligt) og sekvens dækningen (eng. query coverage, skal være så høj som muligt) antage at BLAST har fundet de korrekte proteiner der normalt ikke er tilstede i raske dyr? Argumentér for din Infoboks 1 En superfamilie er den overordende betegnelse for protiener der er evolutionært beslægtet, dvs. minder om hinanden i struktur og funktion. Superfamilier kan videre indeles i familier og subgrupper, hvor proteinerne i disse grupper er endnu tættere beslægtet.
konklusion. NB! Se under Descriptions afsnittet. De to nederste resultat sekvenser matcher det protein der er kodet i første del af proteinsekvensen. Resten af resultatsekvenserne giver information om proteinet der er kodet i den sidste del af proteinsekvensen. Ved at blaste proteinsekvens har du undersøgt alle protein databasen for at finde ud af om de indeholder en proteinsekvens der er identiske med den ukendte sekvens. Bestemmelse af superfamilien giver en indikation af funktionen for proteinet fra den ukendte, faktisk fandt du ud af at sekvensen bestod af to superfamilier, dvs. at den faktisk består af to forskellige proteiner. Ved at se på E-værdi og sekvensdækningen var du desuden i stand til at bestemme om BLAST fandt en proteinsekvenser der er identisk med den ukendte sekvens. Du skal nu videre til databasen UniProt hvor du kan undersøge de proteinsekvenser som blev fundet gennem BLAST. 4.B UniProt Formålet med denne øvelse er at lære at søge efter og gøre sig bekendt med proteiner ud fra den information, der er tilgængelig gennem UniProt. Dette gøres ved at benytte almene fri tekst søgekriterier eller accession numre (se infoboks 2) og derefter undersøge UniProt-siderne for de proteiner der findes. a) I opgave 4.A analyserede du en ukendt proteinsekvens gennem BLAST, og to proteiner blev fundet som match til den ukendte sekvens: GFP og P53. Benyt ny UniProt til at tilegne dig information omkring disse to protein. Du kan bruge den generelle guide til søgning i UniProt som hjælp. Søg først på Green Flourescent Protein (GFP er en forkortelse for dette) og tryk på det første resultat's accession nummer. Dermed kommer du ind på proteinets UniProt side. Besvar nu følgende spørgsmål, her kan svarne til de 3 første spørgsmål findes øvest på UniProt siden: Infoboks 2 Et accession nummer er et unikt nummer der gives til DNA- eller proteinsekvens så denne kan findes på tværs af databaser. Dvs. at den samme i UniProt og NCBI eksempelvis vil have samme unikke nummer tilknyttet så man ved at søge på det vil få samme resultat ved søgning i begge databaser. 1. Hvad er accession nummeret for det protein du undersøger? 2. Hvad er gennavnet og hvilken organisme kommer dette GFP fra? 3. Hvor lang er sekvensen i aminosyrer (fork. AA)? 4. Under sektionen "General annotation (Comments)" kan man læse, at proteinet udsender grønt lys ved hjælp af energioverførsel. Hvordan tror du man kan udnytte det i et biologisk regi når man f.eks. laver gensplejsning og dermed mutanter?
5. Læs afsnittet Biotechnological use, stemmer dette overens med svaret fra spørgsmål 4? b) Gå tilbage til søgesiden i UniProt. Søg nu på P53 og tryk ligesom før på det første resultat's accession nummer så du kommer ind på proteinets UniProt side. Besvar følgende sørgsmål: 6. Hvad er accession nummeret for det protein du undersøger? 7. Hvad er gennavnet og hvilken organisme kommer dette P53 fra? 8. Hvor lang sekvensen i aminosyrer (fork. AA)? 9. Hvad er proteinets funktion? NB! Se under sektionen General annotation (Comments) 10. Hvilke sygdomme tror du P53 kan være forbundet med? 4.C PDB Formålet med denne øvelse er, at lære at finde relevant information om et protein gennem dets PDB side, så de rette dele kan observeres gennem 3D-visualisering i PyMol. a) Gå til Protein Databank (PDB) databasen og søg efter siden med PDB id 3Q05 (se infoboks 3). Se eventuelt den generelle guide til PDB for hvordan brug. 1. Hvilke molekyler kan man se i PDB komplekset? 2. Hvor mange kæder (subunits) indeholder id et og hvor mange af disse er identiske? hvad er navnet på kæderne (A, B, C osv.), hvilke proteiner/molekyler er de forskellige kæder (f.eks. kæde A er P53, kæde B er DNA etc.)? NB! Dette kan findes under Sequence fanen, se en oversigt over siden her. 3. Hvor mange aminosyrer indeholder hver af kæderne der koder for P53? Stemmer dette overens med længden af de færdige proteiner som du fandt i 4.B.8 (393AA)? 4. En metal ion, nærmere betegnet en zink ion, er bundet til P53 proteinet. Ved hvilke fire positioner og aminosyre er dette bundet? En zink ion bundet til et protein betegnes også en zink finger (eng. zinc finger, se infoboks 4). Man kan finde zink fingre i en række DNA bindende proteiner, da zink ionen er med til at stabilisere Infoboks 3 Et PDB id er et unikt nummer alle strukturer i PDB få tildelt. PDB id'et består af fire karakterer, hvilke oftest er et bogstav efter fulgt af tre tal, f.eks. 1JKL. Infoboks 4 En zink finger er en proteinfoldning, hvor fire aminosyre interagerer med en zink ion for at give stabilitet til proteinets tertiære struktur (dets foldning). Zink fingre findes ofte i proteiner der binder til DNA molekyler, da DNA er negativt ladet og den positive zink ion vil dermed give stabilitet til DNA-protein komplekset.
interaktionen mellem DNA og protein. Viden omkring hvilke kæder PDB id et indeholder, hvad disse koder for og hvilke dele af selve aminosyresekvensen id et reelt set indeholder kan benyttes i PyMol. Kendskabet kan anvendes til at undersøge proteinerne i 3D, markere kæderne, markere interessante aminosyrer eller observere interaktioner når id et indeholder mere end et protein. 4.D PyMol Formålet med øvelsen er at lære at benytte PyMol til 3D visualisering af proteiner samt markere relevante kæder og dermed præsentere proteiner på en overskuelig måde. a) Åben PyMol og hent P53 i DNA interaktion med PDB id 3Q05. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol og relevante kommandoer at kende så du kan gøre følgende: 1. Vis alle molekylerne i tegningsstruktur. NB! Det anbefales først at gemme (hide) alting og derefter benytte vis (show) 2. Farv de seks forskellige kæder hver deres farve (kæde A, B, C og D én nuance fx rødlige, lad DNA strengene (kæde K og L) være som den er). 3. Visualiser zink finger domænerne på hver af de fire kæder (A, B, C og D), således vil du tydeligt kunne se at der er plads til en ion. De skal vises med både sidekæde, separat farve og aminosyre mærkat. Hvis 4.c ikke er lavet, er disse position 176, 179, 248 og 242. NB! Vælg først aminosyrerne, vis sidekæder, farv dem og sæt et mærkat på, herefter kan der zoomes ind på interaktionen. 4. Hvor på proteinet er zink fingeren (ydersiden, indersiden, tæt på DNA strengen)? Er dette hvad du ville forvente når du ved, at zink fingeren er med til at stabilisere protein-dna interaktionen? 5. Udforsk selv PyMol og de forskellige måde molekylerne kan fremstilles på. Fx kan baggrundsfarven ændres, skyggerne kan justeres, måderne den sekundære struktur bliver vist kan ændres og meget andet.
Ekstra materiale Denne side indeholder ekstra materiale til artikler der omhandler nogle af de emner der berøres i materialet. Se et eksempel på en Genbank side; dens opbygning og informations indhold her (PDF). Se et eksempel på formaten FASTA her (PDF). Se et eksempel på en UniProt side her (PDF). Se en liste over PyMol kommandoer her (internt link). Se en liste over PyMol kommandoer fra PyMol's internet side her (eksternt engelsk link). Følgende er en oversigt over ekstra læsemateriale hvis man ønsker at vide mere indenfor de forskellige områder. Læs mere om fylogeni og evolutionsteori her (PDF, engelsk introduktion til emnet).
Ordforklaring Her er en liste over ord og begreber som er vigtige for forståelsen af dette undervisnignsmateriale. Længere forklaringer vil dog være tilstede i inforboksene ved det pågældende materiale. Algoritme En anden betegnelse for en matematisk model med ligninger/formler der sammen danner et flow og dermed kan løse et givent problem. Alignment Sammenligning af DNA- eller proteinsekvenser. Man kan lave en enkelt alignment hvor man sammenligner to sekvenser eller en multiple alignment hvor man sammenligner tre eller flere sekvenser. Apoptose Programmeret celledød eller "celle selvmord", da cellen nedbrydes ved påvirkning af signalmolekyler (eller mangel på samme). BLAST CDS Forkortelse for Basic Local Alignment Search Tool, som er en metode hvorpå man kan sammenligne en DNA- eller proteinsekvenser på tværs af databaser med kendte sekvenser. Forkortelse for coding sequence, og er den del på DNAsekvensen der koder for selve proteinet. Codon Tre nukleotider, der oversættes til en aminosyre. Der er 4 nukleotider, hvilket er ensbetydende med at der findes 64 (4³) mulige codons. Det centrale dogme Exon Fylogeni Fylogenetisk træ Genbank Genbank sider Gruppering Betegnelse for processen: DNA mrna protein, hvor processen fra DNA til mrna betegnes transkription og processen fra mrna til protein betegnes translation. En eller flere dele af en DNA-sekvens der IKKE er en del af den kodende sekvens, dvs. det er dele af en DNA-sekvens der IKKE indgår i det mrna der translateres til protein. Læren om organismers slægtskab. Et slægtskabsstæ hvor man kan visualisere organismernes evolutionære slægtskab. Genbank er hoved databasen for kendte DNA-sekvenser og kan findes gennem NCBI's internetside. Hver kendt DNA-sekvens i Genbank har en tilhørende genbank side hvor informationer om DNA-sekvensen kan findes. En fordanskning af det engelske ord clade, der er en fælles betegnelse for alle de organismer (taxa) der har samme stamfader.
Intron Kvaternærstruktur Læseramme NCBI PDB PDB id Primærstruktur Query sekvens Sekundærstruktur Sekventering Sidekæde Stamfader Startcodon Stopcodon Søstergrupper Taxon Tertiærstruktur Transkription Transkriptions faktor En eller flere dele af en DNA sekvens der indgår i den kodende sekvens, introns bliver sat sammen til at danne det færdige mrna der bliver translateret til et protein. I protein struktur er dette den færdige form, der består af forskellige subunits, alle i deres tertiære form. Henviser til at en DNA/RNA sekvens kan blive aflæst på tre forskellige måder (seks hvis man ser på begge DNA strenge), da tre nukleotider (en codon) koder for en aminosyre. Aflæsningen kan dermed starte på tre forskellige positioner, der vil give 3 forskellige aminosyresekvenser. Forkortelse for National Center for Biotechnology Information, som er den mest omfangsrige database med biologisk relateret materiale som f.eks. DNA- og proteinsekvenser, forskningsartikel og værktøjer så som BLAST. Forortelse for Protein Databank, som er en database med proteiner der har en kendt 3D struktur. Unikt nummer der tildeles alle strukturer i PDB databasen. I protein struker er det aminosyre sammensætningen. Betegnelsen for den sekvens man laver en BLAST søgning med. I protein struker er det måden proteinet er foldet på (α-helix eller β-plader). Måden hvorpå nukleotid og aminosyrer sammensætning i DNAog protiensekvenser bestemmes. Den varierende del på en aminosyre og dermed det specificerer den. Den knob (taxon) på et træ hvorfra to nye taxa udvikler sig. Den "ældre" taxon er dermed stamfader for de to nye. Specificerer hvor translationen af mrna til protein skal starte. Startcodonen er i de fleste tilfælde nukleotid tripletten ATG. Specificerer hvor translationen af mrna til protein skal stoppe. Stopcodonen er nukleotid tripletterne UAA, UGA eller UAG. I fylogeni er dette to taxa der begge har samme stamfader. Betegnelse for en knob på et fylogenetisk træ, hvilken repræsenterer en organisme. flere taxons betegnes taxa. I protein struktur er det den tredimensionelle foldning af proteinet. Det sted i det centrale dogme hvor DNA bliver aflæst til mrna. Protein der binder til DNA og påvirker transkriptionen af det. Transkriptions faktorer kan opregulere transkriptionen (aktivere) af DNA'et eller den kan mindske transkriptionen (inhibere).
Translation Ydergruppe Zink finger Åben læseramme Det sted i det centrale dogme hvor mrna aflæses til aminosyrer og dermed protein. Betegner den taxon som er mindst belægtet med alle de andre taxa i det slægtskab man undersøger. På engelsk kaldes den en outgroup. En proteinfoldning hvor fire aminosyre interagerer med en zink ion for at give stabilitet til proteinets tertiære struktur (dets foldning). Den del af DNA-/RNA-sekvensen der er mellem start- og stopcodon. Den længeste læseramme vil oftest være den åbne læseramme og dermed den læseramme der oversættes til et funktionelt protein.