Svar til sommereksamen 2014, opdateret 30. april 2018:

Relaterede dokumenter
Svar til sommereksamen 2014, opdateret maj 2016:

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet. Kursus navn: Introduktion til Bioinformatik. Kursus nummer: Hjælpemidler: alle.

27611 Eksamen Sommer 2007

Side 1 af 13. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Side 1 of 16. Du skal i opgaven skrive en sorteret liste af Blast e-værdier, med den mest signifikante (laveste) I toppen af listen.

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet. Løsningsforslag til Øvelse i Immonologisk Bioinformatik

Side 1 of 11. Kursus navn: Kursus nr Introduktion til Bioinformatik

Side 1 af 14. Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Danmarks Tekniske Universitet

Danmarks Tekniske Universitet

Identifikation af potentielle microrna gener ved hjælp af komparativ genomanalyse

Geneious en manual til elevbrug

Side%1%af%14% Eksamen: Bioinformatik It og Sundhed 27 Jan 2011 kl 9-13

Genetiske afstande og afstandsmatricer

Simpel opsætning og brug af Sikker Mail.

NR. 92 PDF-formularer med OpenOffice DEN 4. MARTS 2015

27611 Eksamen Sommer 2008

Tips & Tricks nr. 92 PDF-formularer med OpenOffice til LUDUS Web

SUBS_BACLE 1 0 ELYA_BACHD 1 MRQSLKVMVLSTVALLFMANPAAASEEKKEYLIVVEPEEVSAQSVEESYD 50

Write-N-Cite IV til Word 2010

Write-N-Cite IV til Word 2010

Opret og vedligehold af favoritliste på markedspladsen

UNI-labels i Open- og LibreOffice

Udviklingstab, og hvordan man sætter instilling i dansk office 2007 som jeg bruger herhjemme.

Brugervejledning til hurtig start af EasyBusiness Online Indholdsfortegnelse:

Uni-Login Skift adgangskode

Mobile Device Management Brugervejledning

Brugermanual til Assignment Hand In

Hvordan bruges Avery Nordics Produkt Information System?

Den digitale Underviser. Videoredigering. Windows Live Movie Maker

Aktivering af brugerkonto i uni.au.dk

Introduktion til CD ere og Arkivdeling Gammel Dok - September-oktober Jonas Christiansen Voss

ISOWARE release note

Write-N-Cite III til Word på Citrix

Import af skemaskabeloner

Digital Eksamen Når du er logget ind i Digital Eksamen, bliver du mødt med en oversigt som vist nedenfor:

ISOWARE release note

Opsætningsvejledning efter opdatering (ghostning) af hybriderne

Sådan opretter du en elektronisk aflevering

ECB'S E-UDBUD INDGIVELSE AF SVAR I EN UDBUDSPROCEDURE ("RFX")

Side 1 of 12. Kursus navn: Kursus nr Introduktion til Bioinformatik

I denne manual kan du finde en hurtig introduktion til hvordan du:

BRUGERMANUAL FOR KLUBKOORDINATORER. Version 2.0

Side 1 of 13. Kursus navn: Kursus nr Introduktion til Bioinformatik

Trin 01 Gramps kan køre i både Linux og Windows. Trin 02 Opret et nyt træ. Trin 03 Tilføj en ny person. Trin 04 Indstilling af hjemme personen

Generelt Windows tidligere versioner... 1 Windows Apple Mac Log på... 2 Rediger dokumentet Tilføj et tillægsdokument...

Vejledning. Indhold. 1. Kryptering. 2. Vigtig information

Vi anbefaler, at du lader boksen med træffetider blive liggende på din afdelingsforside. Hvad der ellers skal være af indhold er op til jer.

Google Apps. Lær at oprette, organisere, dele og slette dokumenter. Udarbejdet af PLC, version 2013!!!!!!! Side 1 af 9

Write-N-Cite III til Word 2003

Brugervejledning til Avery Wizard for Microsoft Office. Dansk version til -

MountainSite Guide: Kom godt i gang

Immunologisk bioinformatik

Trin-for-trin guide til debatforum

QUICK GUIDE TIL INDBERETNING AF WHEREABOUTS

BRUGERVEJLEDNING. Diabetesforeningens lokale hjemmesider

Brugermanual til Assignment hand in

Installation af Bilinfo på Windows

SIGIL Sådan opretter du en e- bog Step by Step

1. Du bliver mødt af denne boks. Klik på Gem, og gem filen et sted hvor du kan finde den igen.

Brugervejledning til FOKUSpartnere

Vejledning: Flytning af egne udviklede ØS LDV rapporter i Reporting services fra en server til en anden server. Målgruppe: Rapportadministrator

Huskesedler. Design og automatisering af regneark. Microsoft Excel 2013

Vejledning til opgraderet version af Danmarks Arealinformation

Fjernadgang til BEC s systemer via Portal2

Håndtering af prisfiler fra Mekonomen

QUICKGUIDE TIL XMEDIA

DIGITAL SIGNATUR l OUTLOOK 2010

elib Aleph, ver.18 Introduktion til GUI FUJITSU SERVICES A/S

Vejledning til Teknisk opsætning

Brugervejledning til databrowseren

Vejledning i brug af dli dokumenthåndteringssystemet til virksomheder

IDAP manual Emission

DE DANSKE BREVDUEFORENINGER. De danske Brevdueforeninger. DdB Compakt Manual. TauRIS software Opdatering af Terminal

IT vejledning for Studerende

UC Syddanmark

Elevvejledning til SkoleKomNet - Min egen hjemmeside

Aktivering af brugerkonto i uni.au.dk

1. Der er ikke gennemført en filvedligeholdelse i længere tid (eller nogensinde overhovedet). 2. Din PC har ikke været genstartet i længere tid

Vejledning til Kilometer Registrering

Revo Uninstaller Pro en guide. Hanne B. Stegemüller 17. juni 2015

Startvejledning. Microsoft PowerPoint 2013 ser anderledes ud end tidligere versioner, så vi lavet denne guide for at gøre din læreproces nemmere.

4.0 SharePoint redigering De lokale hjemmesider er bygget i et Microsoft program kaldet SharePoint2010.

Mappen Lænderyg præsentation DaneSpine kan placeres et vilkårligt sted på PC (drev/mappe).

Regressionsanalyse i SurveyBanken

OVERGANGS- OG OPBYGNINGSEFFEKTER

Opret ODBC datakilde Vejledning

Filupload LEJERBO.DK FILARKIV UNDER MØDER OSV. Upload filer til et eksisterende filupload-komponent

EVALUERING I SURVEYXACT TRIN FOR TRIN

1.TILBUD NYT TILBUD 1.1 TRIN FORUDSÆTNINGER

BEC. NetScaler Unmanaged VPN. Installation. Bruger Vejledning. Version

G-MAIL (GOOGLE)

installa'on af printer Konica Minolta Bizhub C 224e

EVALUERING I SURVEYXACT TRIN FOR TRIN

Quick Guide for TopSURV RTK

Picasa billedalbum og webalbum

Transkript:

Svar til 27611 sommereksamen 2014, opdateret 30. april 2018: ER proteiner, KDEL motiv og KDEL receptor Opgave 1 - Karakterisering af KDEL receptoren Spørgsmål a: Der er 2577 proteiner i UniProt, der hedder "ER lumen protein retaining receptor"; 34 i Swiss-Prot (reviewed) og 2543 i TrEMBL (unreviewed). Søgestreng: name:"er lumen protein retaining receptor" Spørgsmål b: Der er 3 menneskelige hits i Swiss-Prot (reviewed). Søgestreng: name:"er lumen protein retaining receptor" AND organism:"human [9606]" Spørgsmål c: "ER lumen protein retaining receptor 1" fra menneske har accession-kode P24390 og UniProt ID ERD21_HUMAN. Gen-navnet er KDELR1 ERD2.1. Spørgsmål d: Ja, ERD21_HUMAN er et transmembranprotein. Det kan ses under Subcellular location, hvor der står Multi-pass membrane protein, samt i feature-tabellen under Subcellular location / Topology, hvor der er flere Transmembrane features. Endelig kan det ses i Keywords under Family & Domains, hvor der står Transmembrane. Der er 7 transmembran-segmenter, men deres positioner er ikke eksperimentelt bestemt (der står Sequence Analysis ud for dem alle, hvilket betyder at den pågældende feature er forudsagt ud fra sekvensen). NB: Dette var lettere at se i 2014, da der i stedet for Sequence Analysis stod Potential. Spørgsmål e: "ER lumen protein retaining receptor" fra bagegær (Saccharomyces cerevisiae) i Swiss-Prot har accession-kode P18414 og UniProt ID ERD2_YEAST. Gennavnet er ERD2. Man finder (kun) den med søgestrengen name:"er lumen protein retaining receptor" organism:"saccharomyces cerevisiae" AND reviewed:yes Bemærk: man finder den ikke med flg. søgestreng: name:"er lumen protein retaining receptor" AND organism:"saccharomyces cerevisiae [4932]" AND reviewed:yes men derimod virker denne søgestreng fint: name:"er lumen protein retaining receptor" taxonomy:"saccharomyces cerevisiae (Baker's yeast) [4932]" AND reviewed:yes Spørgsmål f: Ja, der er en forskel. Om ERD21_HUMAN står der This receptor recognizes the C-terminal K-D-E-L motif. Om ERD2_YEAST står der This receptor strongly recognizes 1

H-D-E-L and weakly recognizes D-D-E-L and K-D-E-L. Gær foretrækker altså H på første position af motivet, hvor mennesker foretrækker K. Spørgsmål g: Her er alignmentet: ERD21_HUMAN 1 MNLFRFLGDLSHLLAIILLLLKIWKSRSCAGISGKSQVLFAVVFTARYLD 50...: :: :....:.... :. : :.. ERD2_YEAST 1 MNPFRILGDLSHLTSILILIHNIKTTRYIEGISFKTQTLYALVFITRYLD 50 ERD21_HUMAN 51 LFT-NYISLYNTCMKVVYI-ACSFTTVWLIYSKFKATYDGN----HDTFR 94. :::.. :.: :.::........... : ERD2_YEAST 51 LLTFHWVSLYNALMKIFFIVSTAYIVVLLQGSKRTNTIAYNEMLMHDTFK 100 ERD21_HUMAN 95 VEFLVVPTAILAFLVNHDFTPLEILWTFSIYLESVAILPQLFMVSKTGEA 144 ::. ::.: :::...:.. :. : :: : :. :. ERD2_YEAST 101 IQHLLIGSALMSVFFHHKFTFLELAWSFSVWLESVAILPQLYMLSKGGKT 150 ERD21_HUMAN 145 ETITSHYLFALGVYRTLYLFNWIWRYHFEG-FFDLIAIVAGLVQTVLYCD 193.::. : : :. :......... : :. ERD2_YEAST 151 RSLTVHYIFAMGLYRALYIPNWIWRYSTEDKKLDKIAFFAGLLQTLLYSD 200 ERD21_HUMAN 194 FFYLYITKVLKGKKLSLPA 212 :. ::.... ERD2_YEAST 201 FFYIYYTKVIRGKGFKLPK 219 Der er 50% identitet og 70% similaritet. Der er fire gaps (tre af længde 1 og et af længde 4). Spørgsmål h: Jeg gør mig følgende overvejelser: Da der er tale om aminosyresekvenser, vælger jeg protein BLAST. Jeg ved fra foregående spørgsmål, at menneske- og gær-proteinerne er 50% identiske. Derfor er der ikke nogen grund til at bruge PSI-BLAST, så jeg vælger blastp. Jeg ved at jeg skal prøve at finde et bestemt Swiss-Prot entry, så jeg sætter databasen til swissprot. Endelig ved jeg at jeg skal lede i organismen bagegær, så jeg indtaster Saccharomyces cerevisiae under Organism. Med disse indstillinger finder jeg P18414.1 som første (og eneste signifikante) hit, det er det samme som gær-proteinet fra spørgsmål e. E-værdien er 2e-68 (særdeles signifikant). Der er 50% identitet og 70% similaritet. Der er fire gaps (tre af længde 1 og et af længde 4) faktisk er alignmentet identisk med det i foregående spørgsmål, bortset fra at allersidste position ikke er med. 2

Opgave 2 - Karakterisering af KDEL motivet fra dyr og svampe Spørgsmål a: 118712, Søgestreng: locations:(location:"endoplasmic reticulum") 77420, Søgestreng: locations:(location:"endoplasmic reticulum [SL- 0095]") Begge regnes for korrekte. Spørgsmål b: 1824, Søgestreng: locations:(location:"endoplasmic reticulum" evidence:experimental) 1758, Søgestreng: locations:(location:"endoplasmic reticulum [SL-0095]" evidence:experimental) NB: i 2014 var der 6642 hits! Mange annoteringer i UniProt er desværre gået fra at være betragtet som experimental til at have ukendt evidens. Spørgsmål c: 12424, Søgestreng: locations:(location:"endoplasmic reticulum lumen") locations:(location:"endoplasmic reticulum") locations:(location:lumen) 940, Søgestreng: locations:(location:"endoplasmic reticulum lumen [SL- 0096]") Dette kan virke som en meget voldsom forskel, men det skyldes alle de virus- og bakterieproteiner, der findes i Host endoplasmic reticulum lumen. NB: Man kan også få 12329 hits med søgestrengen locations:(location:"endoplasmic reticulum lumen" evidence:any) 845 med søgestrengen locations:(location:"endoplasmic reticulum lumen [SL-0096]" evidence:any) hvis man har brugt det grafiske interface til at sætte Evidence tilbage til Any assertion method. Det skyldes at entries med ukendt evidens ikke kommer med, når der står evidence:any. Men det er en meget ulogisk opførsel fra interfacets side, og det burde rettes i UniProt! Vi har gjort opmærksom på det, men uden resultat. Bemærk at spørgsmål d, e, f og h også kan give alternative (korrekte) svar ved tilføjelse af evidence:any. Spørgsmål d: 15254, Søgestreng: locations:(location:"endoplasmic reticulum") annotation:(type:signal) 15023, Søgestreng: locations:(location:"endoplasmic reticulum [SL- 0095]") annotation:(type:signal) 3

Spørgsmål e: 87855, Søgestreng: locations:(location:"endoplasmic reticulum") fragment:no 72645, Søgestreng: locations:(location:"endoplasmic reticulum [SL- 0095]") fragment:no Spørgsmål f: 890, Søgestreng: locations:(location:"endoplasmic reticulum lumen") annotation:(type:signal) fragment:no 815, Søgestreng: locations:(location:"endoplasmic reticulum lumen [SL- 0096]") annotation:(type:signal) fragment:no Spørgsmål g: Menneske (Homo sapiens) tilhører riget Metazoa (dyr). Bagegær (Saccharomyces cerevisiae) tilhører riget Fungi (svampe) Spørgsmål h: Metazoa: 664 Søgestreng: locations:(location:"endoplasmic reticulum lumen") annotation:(type:signal) fragment:no taxonomy:metazoa Fungi: 57 Søgestreng: locations:(location:"endoplasmic reticulum lumen") annotation:(type:signal) fragment:no taxonomy:fungi Her gør det ikke nogen forskel om man bruger [SL-0096] ej. 4

Spørgsmål i: Metazoa: Fungi: Positionerne 14 og 15 indeholder mest information i begge logoer. Man kan direkte aflæse konsensus-sekvenserne for KDEL-motiverne ved at tage de øverste bogstaver i de sidste fire positioner (12-15): KDEL for Metazoa og HDEL for Fungi. Forskellen mellem de to riger er tydeligst i position 12, hvor H er meget mere sandsynlig end K for Fungi, men man kan også se en forskel i position 13, D er meget mere sandsynlig end E for Fungi, mens den kun er lidt mere sandsynlig end E for Metazoa. Der er også en forskel i positionerne 1-9, hvor der er en vis præference for D og E i Fungi, men kun en ganske svag præference for E i Metazoa. 5

Opgave 3 - Fylogeni af KDEL receptoren Spørgsmål a: Hvis man selv vil downloade sekvenserne i FASTA format fra UniProt, skal man bruge følgende søgestreng: name:"er lumen protein retaining receptor" AND reviewed:yes og derefter klikke på Download knappen og vælge FASTA (canonical). Men det er helt OK blot at bruge den fil, der blev opgivet. NB: hvis man downloader selv, får man 34 sekvenser i stedet for 33 som i det opgivne sæt der er kommet én mere siden 2014. Efter de beskrevne rettelser ser FASTA filen således ud: >ER21A_XENLA_Metazoa MNIFRFLGDISHLSAIFILLLKIWKSRSCAGISGKSQLLFAIVFTARYLDLFTNYISFYN TSMKVVYVASSYATVWMIYSKFKATYDGNHDTFRVEFLIVPTAILAFLVNHDFTPLEIFW TFSIYLESVAILPQLFMVSKTGEAETITSHYLFALGIYRTLYLFNWIWRYQFEGFFDLIA IVAGLVQTVLYCDFFYLYVTKVLKGKKLSLPA >ER21B_XENLA_Metazoa MNIFRFLGDISHLSAIIILLLKIWKSRSCAGISGKSQLLFAIVFTTRYLDLFTNFISFYN TSMKVVYVASSYATVWMIYSKFKATYDGNHDTFRVEFLIVPTAILSFLVNHDFTPLEILW TFSIYLESVAILPQLFMVSKTGEAETITSHYLFALGIYRTLYLFNWIWRYQFEEFFDLIA IVAGLVQTVLYCDFFYLYITKVLKGKKLSLPA >ERD21_BOVIN_Metazoa MNLFRFLGDLSHLLAIILLLLKIWKSRSCAGISGKSQVLFAVVFTARYLDLFTNYISLYN TCMKVVYIACSFTTVWMIYSKFKATYDGNHDTFRVEFLVIPTAILAFLVNHDFTPLEILW TFSIYLESVAILPQLFMVSKTGEAETITSHYLFALGVYRTLYLFNWIWRYHFEGFFDLIA IVAGLVQTVLYCDFFYLYITKVLKGKKLSLPA >ERD21_HUMAN_Metazoa MNLFRFLGDLSHLLAIILLLLKIWKSRSCAGISGKSQVLFAVVFTARYLDLFTNYISLYN TCMKVVYIACSFTTVWLIYSKFKATYDGNHDTFRVEFLVVPTAILAFLVNHDFTPLEILW TFSIYLESVAILPQLFMVSKTGEAETITSHYLFALGVYRTLYLFNWIWRYHFEGFFDLIA IVAGLVQTVLYCDFFYLYITKVLKGKKLSLPA >ERD21_MOUSE_Metazoa MNLFRFLGDLSHLLAIILLLLKIWKSRSCAGISGKSQVLFAVVFTARYLDLFTNYISLYN TCMKVVYIACSFTTVWMIYSKFKATYDGNHDTFRVEFLVVPTAILAFLVNHDFTPLEILW TFSIYLESVAILPQLFMVSKTGEAETITSHYLFALGVYRTLYLFNWIWRYHFEGFFDLIA IVAGLVQTVLYCDFFYLYITKVLKGKKLSLPA >ERD21_RAT_Metazoa MNLFRFLGDLSHLLAIILLLLKIWKSRSCAGISGKSQVLFAVVFTARYLDLFTNYISLYN TCMKVVYIACSFTTVWMIYSKFKATYDGNHDTFRVEFLVVPTAVLAFLVNHDFTPLEILW TFSIYLESVAILPQLFMVSKTGEAETITSHYLFALGVYRTLYLFNWIWRYHFEGFFDLIA IVAGLVQTVLYCDFFYLYITKVLKGKKLSLPA >ERD21_XENTR_Metazoa MNIFRFLGDISHLSAILILLLKIWKSRSCAGISGKSQLLFAIVFTTRYLDLFTNFISLYN TSMKMVYVASSYATIWMIYSKFKATYDGNHDTFRVEFLIVPTAILAFLVNHDFTPLEILW TFSIYLESVAILPQLFMVSKTGEAETITSHYLFALGIYRALYLFNWIWRYQFEGFFDLIA IVAGLVQTVLYCDFFYLYITKVLKGKKLSLPA >ERD22_BOVIN_Metazoa MNIFRLTGDLSHLAAIVILLLKIWKTRSCAGISGKSQLLFALVFTTRYLDLFTSFISLYN TSMKLIYIACSYATVYLIYMKFKATYDGNHDTFRVEFLVVPVGGLSFLVNHDFSPLEILW TFSIYLESVAILPQLFMISKTGEAETITTHYLFFLGLYRALYLVNWIWRFYFEGFFDLIA VVAGVVQTILYCDFFYLYITKVLKGKKLSLPA >ERD22_CHICK_Metazoa MNIFRLTGDLSHLAAIIILLLKIWKSRSCAGISGKSQLLFALVFTTRYLDLFTSFISLYN TSMKLIYIACSYATVYLIYMKFKATYDGNHDTFRVEFLIVPVGGLSFLVNHDFSPLEILW TFSIYLESVAILPQLFMISKTGEAETITTHYLFFLGLYRALYLVNWIWRYYFEGFFDLIA VVAGVVQTVLYCDFFYLYVTKVLKGKKLSLPA >ERD22_HUMAN_Metazoa MNIFRLTGDLSHLAAIVILLLKIWKTRSCAGISGKSQLLFALVFTTRYLDLFTSFISLYN TSMKVIYLACSYATVYLIYLKFKATYDGNHDTFRVEFLVVPVGGLSFLVNHDFSPLEILW TFSIYLESVAILPQLFMISKTGEAETITTHYLFFLGLYRALYLVNWIWRFYFEGFFDLIA VVAGVVQTILYCDFFYLYITKVLKGKKLSLPA >ERD22_DANRE_Metazoa MNIFRLTGDLSHLAAIIILLLKIWKSRSCAGISGKSQILFALVFTTRYLDLLTSFISLYN TCMKVIYIGCAYATVYLIYAKFRATYDGNHDTFRAEFLVVPVGGLAFLVNHDFSPLEILW TFSIYLESVAILPQLFMISKTGEAETITTHYLFCLGVYRALYLFNWIWRFYFEGFFDMIA IVAGVVQTILYCDFFYLYVTKVLKGKKLSLPA 6

7 >ERD22_MOUSE_Metazoa MNIFRLTGDLSHLAAIVILLLKIWKTRSCAGISGKSQLLFALVFTTRYLDLFTSFISLYN TSMKLIYIACSYATVYLIYMKFKATYDGNHDTFRVEFLVVPVGGLSFLVNHDFSPLEILW TFSIYLESVAILPQLFMISKTGEAETITTHYLFFLGLYRALYLVNWIWRFYFEGFFDLIA VVAGVVQTILYCDFFYLYITKVLKGKKLSLPA >ERD22_RAT_Metazoa MNIFRLTGDLSHLAAIVILLLKIWKTRSCAGISGKSQLLFALVFTTRYLDLFTSFISLYN TSMKLIYIACSYATVYLIYMKFKATYDGNHDTFRVEFLVVPVGGLSFLVNHDFSPLEILW TFSIYLESVAILPQLFMISKTGEAETITTHYLFFLGLYRALYLVNWIWRFYFEGFFDLIA VVAGVVQTILYCDFFYLYITKVLKGKKLSLPA >ERD22_XENLA_Metazoa MNVFRLSGDLCHLAAIIILLLKIWNSRSCAGISGKSQLLFAMVFTTRYLDLFTSFISLYN TSMKVIYMGCAYATVYLIYMKFKATYDGNHDTFRVEFLVVPVGGLSVLVNHDFSPLEILW TFSIYLESVAILPQLFMISKTGEAETITTHYLFFLGLYRALYLFNWIWRFSFEGFFDLIA IVAGVVQTILYCDFFYLYVTKVLKGKKLSLPA >ERD22_XENTR_Metazoa MNVFRLSGDLSHLAAIIILLLKIWKSRSCAGISGKSQLLFALVFTTRYLDLLTSFISLYN TSMKVIYIGCAYATVYLIYMKFKATYDGNHDTFRVEFLVVPVGGLSVLVNHDFSPLEILW TFSIYLESVAILPQLFMISKTGEAETITTHYLFFLGLYRALYLFNWIWRYSFEGFFDLIA IVAGVVQTILYCDFFYLYVTKVLKGKKLSLPA >ERD23_DANRE_Metazoa MNIFRLSGDVCHLIAIIILFLKIWRSKSCAGISGKSQVLFALVFTTRYLDLFTSYISAYN TVMKVVYLLLAYSTVGLIFFRFRNSYDSESDSFRVEFLLVPVAGLSFLENYAFTPLEILW TFSIYLESVAILPQLFMITKTGEAESITAHYLLFLGLYRALYLANWLWRFHTEGFYDQIA VVSGVVQTIFYCDFFYLYFTRVLRGSGKMSLPMPV >ERD23_HUMAN_Metazoa MNVFRILGDLSHLLAMILLLGKIWRSKCCKGISGKSQILFALVFTTRYLDLFTNFISIYN TVMKVVFLLCAYVTVYMIYGKFRKTFDSENDTFRLEFLLVPVIGLSFLENYSFTLLEILW TFSIYLESVAILPQLFMISKTGEAETITTHYLFFLGLYRALYLANWIRRYQTENFYDQIA VVSGVVQTIFYCDFFYLYVTKVLKGKKLSLPMPI >ERD23_MOUSE_Metazoa MNVFRILGDLSHLLAMILLLVKIWRSKSCAGISGKSQILFALVFTTRYLDLFSNFISIYN TVMKVVFLLCAYVTVYMIYWKFRKTFDIENDTFRLEFLLVPVTGLSFLVNYSYTPMEVLW TFSIYLESVAILPQLFMISKTGEAETITTHYLFFLGLYRLLYLANWIRRYQTENFYDQIS VVSGVVQTIFYCDFFYLYVTKVLKGKKLSLPVPV >ERD23_XENLA_Metazoa MNIFRILGDVSHLLAIIILLLKMWKSKSCAGISGKSQLLFALVFTTRYLDLFTVFISPYN TVMKIIFLACAYVTVYLIYGKLRKSYDSENDTFRLEFLLVPVIGLSFLENYEFTPLEILW TFSIYLESVAILPQLFMISKTGEAESITTHYLFFLGLYRVLYLANWIWRYHTEKFYDQIA VVSGVVQTIFYFDFFYLYVTKVLKGKKLSLPMPV >ERD23_XENTR_Metazoa MNVFRISGDVSHLLAIIILLLKMWKSKSCAGISGKSQLLFALVFTTRYLDLFTVFISAYN TVMKIVFLVCAYVTVYLIYGKFRKAYDSENDTFRLEFLLVPVIGLSFLENYEFTPLEILW TFSIYLESVAILPQLFMISKTGEAESITTHYLFFLGLYRVLYLANWIWRYHTEKFYDQIA VVSGVVQTIFYFDFFYLYITKVLKGKKLSLPMPV >ERD2_ARATH_Viridiplantae MNIFRFAGDMSHLISVLILLLKIYATKSCAGISLKTQELYALVFLTRYLDLFTDYVSLYN SIMKIVFIASSLAIVWCMRRHPLVRRSYDKDLDTFRHQYVVLACFVLGLILNEKFTVQEV FWAFSIYLEAVAILPQLVLLQRSGNVDNLTGQYVVFLGAYRGLYIINWIYRYFTEDHFTR WIACVSGLVQTALYADFFYYYYISWKTNTKLKLPA >ERD2_CAEBR_Metazoa MNIFRITADLAHAVAIVILLLKIWKSRSCEGISGRSQILFAVTFFTRYLDLFTSFYSLYN TVMKVLFLAGSIGTVYLMWVKFKATYDRNNDTFRIEFLVIPSIILALIINHEFMFMEVMW TFSIYLEAVAIMPQLFMLSRTGNAETITAHYLFALGSYRFLYIFNWVYRYYTESFFDPIA VVAGIVQTVLYADFFYLYITRVIQSNRQFEMSA >ERD2_DICDI_Amoebozoa MNLFSFLGDMLHLGSMLILLFKIKNDKSCAGVSLKSQILFTIVFTARYLDLFTNYVSLYI TFMKITYIAVSYYTLHLIARKYKFTYDKDHDTFKIVYLIASCAILSLITYDKTTIGIYST FLEILWTFSIYLESIAILPQLILLQRTGEVEALTSNYIVLLGGYRAFYLFNWIYRITFYN WSGKIEMLSGLLQTILYADFFYYYAKSRMYGKKLVLPQ >ERD2_CAEEL_Metazoa MNLFRFTADVAHAIAIVVLLLKIWKSRSCEGISGRSQLLFALVFVTRYLDLFTNFFSFYN TAMKIFYLVASFGTVYLMWAKFKATYDRNNDSFRIEFLVIPSMILALLINHEFIFMEVMW TFSIYLEAVAIMPQLFMLSRTGNAETITAHYLFALGSYRFLYILNWVYRYYTESFFDPIS VVAGIVQTVLYADFFYLYITRVIQSNRQFEMSA >ERD2_DROME_Metazoa MNIFRFAGDLSHVFAIIILLLKIWKTRSCAGISGKSQILFAVVYLTRYLDLFTTYVSLYN

SVMKVLFLATSGATVYLMYVKFKATYDHNHDSFRIEFLLVPCALLSLVINHEFTVMEVLW TFSIYLESVAILPQLFLVSRTGEAESITSHYLFALGSYRALYLLNWVYRYMVESHYDLIA IFAGVVQTVLYCDFFYLYITKVLKGKKLQLPA >ERD2_ENTHI_Amoebozoa MVFNLFRISADLVHLLSIYFLLTKIISHKNCIGISLRSQILFFIVWVTRYLDIFYNFYSL YNTILKIVYLTTSAYTIYLISKRFRATYDKIHDTLNVWYLIVPCIVLAFIFTEDYSITEI CWTFSIFLEAVAILPQILLLRSTGEVENLNSQYIFCLGLYRALYIINWIYRYATEQSYWS PLTWICGSIQTLLYVEYFYYYIKSRVEGTKFVLPY >ERD2_KLULA_Fungi MLNVFRIAGDFSHLASIIILIQSITTSNSVDGISLKTQLLYTLVFITRYLNLFTKWTSLY NFLMKIVFISSSVYVIVLMRQQKFKNPVAYQDMITRDQFKIKFLIVPCILLGLIFNYRFS FIQICWSFSLWLESVAILPQLFMLTKTGKAKQLTSHYIFALGLYRALYIPNWIWRYYTEE RFDKLSVFTGVIQTLVYSDFFYIYYQKVIKLGGDLELPQ >ERD2_PETHY_Viridiplantae MNIFRLAGDMTHLASVLVLLLKIHTIKSCAGVSLKTQELYALVFVTRYLDIFTDFISLYN TTMKLVFLGSSLSIVWYMRHHKIVRRSYDKDQDTFRHLFLVLPCLLLALVINEKFTFKEV MWTFSIYLEAVAILPQLVLLQRTRNIDNLTGQYIFLLGAYRSFYILNWVYRYFTEPHFVH WITWIAGLIQTLLYADFFYYYFQSWKNNTKLELPA >ERD2_PLAF7_Apicomplexa MNIFRLIGDILHLVSMYILIMKLKKSKNCIGISCRMQELYLIVFLCRYIDLFFVFVSFYN TVMKITFILTIAYTIYLIRLKLPISQTYNRKVDNFKSEKYLIPPCLVLSLLTCKTYNLYN ILWSFSIWLESVAILPQLVLLEKQREVENITSHYVITMGLYRAFYILNWIYRYFFDDKPY INVVGWIGGLIQTLLYIDFFYYFALAKWYGKKLVLPFNGEV >ERD2_PLAFA_Apicomplexa MNIFRLIGDILHLVSMYILIMKLKKSKNCIGISCRMQELYLIVFLCRYIDLFFVFVSFYN TVMKITFILTIAYTIYLIRLKLPISQTYNRKVDNFKSEKYLIPPCLVLSLLTCKTYNLYN ILWSFSIWLESVAILPQLVLLEKQREVENITSHYVITMGLYRAFYILNWIYRYFFDDKPY INVVGWIGGLIQTLLYIDFFYYFALAKWYGKKLVLPFNGEV >ERD2_SCHPO_Fungi MTFFSALGDMAHLAAIFLLLHRMKKSKTCSGLSLKSHLLFLLVYVTRYLNLFWRYKSLYY FLMRIVFIASESYICYLMLMTLRPTYDKRLDTFRTEYILGGCAVLALIYPTSYTISNILW TFSIWLESVAILPQLFMLQRSGETESLTAHYLFAMCLYRGLYIPHWIYRIAVHKKVIGVA ILAGIIQTVLYGDFAVVYRRTVLQGKKFRLPA >ERD2_YEAST_Fungi MNPFRILGDLSHLTSILILIHNIKTTRYIEGISFKTQTLYALVFITRYLDLLTFHWVSLY NALMKIFFIVSTAYIVVLLQGSKRTNTIAYNEMLMHDTFKIQHLLIGSALMSVFFHHKFT FLELAWSFSVWLESVAILPQLYMLSKGGKTRSLTVHYIFAMGLYRALYIPNWIWRYSTED KKLDKIAFFAGLLQTLLYSDFFYIYYTKVIRGKGFKLPK Spørgsmål b: Jeg gik til MAFFT serveren på EBI og lavede et multiple alignment af den rettede FASTA fil. Som output format valgte jeg FASTA. Derefter downloadede jeg resultatet ved at højreklikke på Download Alignment File i fanen Alignments. Dette resultat uploadede jeg til TreeHugger og klikkede på Submit query. Så højreklikkede jeg på Download data in Newick/Phylip format og gemte filen på min computer. Så startede jeg FigTree og åbnede den gemte fil. Jeg blev bedt om at bruge slægten slægten Plasmodium som outgroup. Der er to Plasmodium sekvenser i mit datasæt, ERD2_PLAFA og ERD2_PLAF7. Jeg klikker på den gren, der fører til disse to og klikker på Reroot øverst i vinduet. Endelig klikker jeg på Tip Labels til venstre i vinduet og sætter Font Size til 15. Så ser mit træ således ud (efter at det er blevet eksporteret som.png fil): 8

9

Spørgsmål c: Dyr (24 sekvenser), planter (2 sekvenser) og svampe (3 sekvenser) er hver især repræsenteret som systematiske grupper. Der er én fejl: ERD2_ENTHI (Entamoeba histolytica) og ERD2_DICDI (Dictyostelium discoideum) burde høre sammen i en systematisk gruppe (Amoebozoa), men det gør de ikke. NB: i 2014 var der en fejl mere, idet svampe ikke var repræsenteret som en systematisk gruppe. Det eneste, der er sket siden dengang, er at MAFFT er blevet opdateret til version 7.215. Det viser hvor meget alignment-metoden kan betyde for den fylogenetiske analyse! Spørgsmål d: Mulighed 2 er den rigtige: Opdelingen i ER lumen protein retaining receptor 1, 2 og 3 er sket tidligt i hvirveldyrenes (Vertebrata) udvikling, før de forskellige klasser (såsom benfisk, padder og pattedyr) spaltede ud. Det kan man se af at ERD21-, ERD22- og ERD23- sekvenserne falder i tre adskilte grupper, der hver især indeholder flere klasser af hvirveldyr. Alle tre grupper indeholder både pattedyr (f.eks. HUMAN) og padder (Xenopus), mens to af grupperne (ERD22 og ERD23) også indeholder fisk (Danio rerio). 10

Opgave 4 - Forudsigelse af ER lumen proteiner Spørgsmål a: Det positive testsæt indeholder 107 linjer, og de første 10 linjer ser således ud: DMEEDDDQKAVKDEL 1 DMEEDDDQKAVKDEL 1 DMEEDDDQKAVKDEL 1 DMEEDDDQKAVKDEL 1 DMEEDDDQKAVKDEL 1 DLEEDDDQKAVRDEL 1 DMEEDDDQKAVKDEL 1 PEPPANSTMGSKEEL 1 PEAQANSTLGPKEEL 1 PEPPANSTMGSKEEL 1 Spørgsmål b: I position 13 (den fremhævede position) er der syv D er, to N er og ét G. Det giver: f D = 0.7 f N = 0.2 f G = 0.1 g D = f D *q(d D) + f N *q(d N) + f G *q(d G) = 0.7*0.40 + 0.2*0.08 + 0.1*0.03 = 0.299 g E = f D *q(e D) + f N *q(e N) + f G *q(e G) = 0.7*0.09 + 0.2*0.05 + 0.1*0.03 = 0.076 p D = (α*f D + β*g D ) / (α+β) = (9*0.7 + 10*0.299) / (9+10) = 0.489 p E = (α*f E + β*g E ) / (α+β) = (9*0 + 10*0.076) / (9+10) = 0.040 w D = 2*log(p D /q D )/log(2) = 2*log(0.489/0.054)/log(2) = 6.358 w E = 2*log(p E /q E )/log(2) = 2*log(0.040/0.054)/log(2) = -0.866 Hvis man bruger EasyPred til at kontrollere w-værdierne, får man: w D = 6.355 w E = -0.850 Hvilket er tæt nok på, givet at værdierne i tabellen i handoutet er afrundede. Spørgsmål c: 914134 sekvenser, Søgestreng: taxonomy:metazoa annotation:(type:signal) fragment:no NOT locations:(location:"endoplasmic reticulum") 914147 sekvenser, Søgestreng: taxonomy:metazoa annotation:(type:signal) fragment:no NOT locations:(location:"endoplasmic reticulum [SL- 0095]") Spørgsmål d: 333 linjer (107 positive og 226 negative) NB: det negative testsæt er lavet i 2014, da svaret på spørgsmål c var 22649 sekvenser! 11

Spørgsmål e: Pearson coefficient: 0.64637 Aroc value: 0.85163 Hvis vores metode var perfekt, ville begge værdier være 1. Hvis vores metode gættede tilfældigt, ville Pearson være 0 og Aroc være 0.5. 12