Datenmassen richtig fassen - Praktischer Schnelleinstieg in Bioinformatik
Diese Seite begleitet mein Buch Wiley-Schnellkurs Bioinformatik für Anwender", dass im April 2016 beim Verlag Wiley/VCH erschienen ist. Es bietet eine Einführung in das Spielen mit sequenzbasierten Daten unter Linux und deren Analyse mit R und MySQL. Publiziert wird dann mit LaTeX...
Preis: |
Das Buch
Durch den Einzug von Hochtechnologie und Hochdurchsatzverfahren in den Laboralltag nimmt die digitale Datenverarbeitung einen immensen Stellenwert ein. Es ist heute selbstverständlich, dass ein Naturwissenschaftler seine Forschungsdaten selbstständig graphisch aufarbeitet und präsentiert. Ein Großteil der Zeit wird dabei am Computer mit der Formatierung der Daten verbracht: Kommata in Punkte, Tabulatoren in Semikolons, Leerzeichen in Unterstriche, Spalten in Zeilen, Vereinigung der Information aus zwei Dateien in eine Datei, etc. Hier setzt dieser Schnellkurs an. Ich erkläre Ihnen, …
∇ Klicken um mehr zu lesen ∇
Rezensionen
- Was andere über das Buch sagen …
- Aus der Zeitschrift Chemie-Leben-Biotechnik: [download]
- Aus der Zeitschrift BIO Spektrum: [download]
- Aus der Zeitschrift Nachrichten aus der Chemie: [download]
-
Aus der Zeitschrift Trillium Diagnostik: [download]
- Interview mit dem Autor: [read]
Vorwörter
- Vorwort des Autoren …
∇ Klicken um mehr zu lesen ∇
- Vorwort von Professor Diethard Tautz, Direktor des Max-Planck Instituts für Evolutionsbiologie, Plön …
∇ Klicken um mehr zu lesen ∇
- Vorwort von Professor Michael Bölker, Professor für Genetik, Marburg …
∇ Klicken um mehr zu lesen ∇
Abbildungen
- Einige Abbildungen aus dem Buch …
Bildergallerie: Klickst Du – Guckst Du ;-)
- Alle Abbildungen und Tabellen können Sie hier als Powerpoint- oder PDF-Dokument herunterladen:
Errata
-
Der letzte Absatz in Abschnitt 2.1.2 auf Seite 39 muss lauten: Die Qualität in den Zeilen 3 und 7 in Datei 2.3 ... [Dank an Theresa Pietschmann]
-
Der Installationsbefehl für Vim in Abschnitt 3.5.1 auf Seite 60 muss lauten: sudo apt-get install vim [Dank an Ella Reiter]
-
In der vierten Zeile in Abschnitt 3.5.2 auf Seite 63 muss es lauten: ... dem Befehl vim ~/.bashrc ... [Dank an Theresa Pietschmann]
-
Im Terminal 3.7 auf Seite 64 ist die Ausgabe des Skriptes //pubmed2.sh// in Zeile 10 unvollständig. Der Fehler in dem Skript ist behoben.
-
Im Terminal 3.10 auf Seite 71 müssen die ersten beiden Sed-Befehle korrigiert werden. Zeile 1: sed -r 's/(C.+)(TGA)?\1/-/' und Zeile 3: sed 's/\(C.\+\)\(TGA\)\?\1/-/' [Dank an Timothy William Elias]
-
Das Programm 4.1 (//get-protein.sh//) von Seite 84 hat zwischen den Zeilen 13 und 14 eine Insertions erhalten. Damit wird der Fehler korrigiert, dass Nonsense geladen wird, wenn mehr Sequenzen angefordert werden als es Treffer gibt. Es kann unten heruntergeladen werden.
-
Die Abbildungsunterschrift 5.3 auf Seite 101 muss lauten: Prozessierung der Datei //h4vsh7.txt// mit AWK, um aus dem BLAST-Ergebnis alle //E. coli// O104:H4 Sequenzbeschreibungen zu extrahieren, die in O157:H7 keinen Treffer ergaben.
Dateien aus dem Buch
Einleitung
- Bioinformatik ist ein dehnbarer Begriff. Er spannt einen Bogen von der Entwicklung von Algorithmen - was nicht Thema dieses Schnellkurses ist - bis hin zur reinen Anwendung von Software zur Datenanalyse - was Thema dieses Schnellkurses ist.
- pubmed2.sh (850 B) [download]
- get-proteins.sh (900 B) [download]
- id-exprA-exprB-len-gc.tab (400 B) [download]
Teil I - Vorbereiten
Lebenswissenschaften und Daten
- Kurze Einführung in FastA, FastQ, PDB, mmCIF ...
- Keine Daten
Daten und Linux
- Im Zentrum dieses Buches steht der Linux-Terminal. Mit verschiedenen Programmen werden dort experimentelle Daten prozessiert und visualisiert. Unabhängig davon, mit welchem Betriebssystem Sie gewöhnlich arbeiten, können Sie mit der VirtualBox-Software von Oracle ein komplettes Linuxsystem als virtuelle Maschine laufen lassen. Nach der Bearbeitung des ersten Teils haben Sie also Ihr eigenes Linuxsystem am Start und beherrschen das Linux-Basiswerkzeug für die Verarbeitung von großen Datenmengen.
- Ubuntu 15.04 32-bit (1.2 GB) [download]
- Virtuelle Maschine (2.3 GB) [download]
- PuTTY für Windows[download]
- WinSCP für Windows [download]
Programmierung
- Es gibt eine unüberschaubare Anzahl an Programmen für diesen und jenen Zweck -- und entsprechend viele Dateiformate. Allein für die Beschreibung von Protein- und Nukleinsäuresequenzen gibt es zahlreiche Dateiformate. In der Zukunft wird es immer wichtiger, in der Lage zu sein, Daten so zu formatieren, dass sie den Analyseprogrammen zugänglich sind. Die dafür notwendige Datenprozessierung erfordert in der Regel relativ unkomplizierte Programmiersprachen, sogenannte Skriptsprachen. Ich stelle hier AWK vor.
- Keine Daten
Teil II - Arbeiten
Forensische Mikrobiologie - EHEC
- In diesem Projekt werden die Proteome zweier pathogener Escherichia coli-Stämme verglichen. Damit soll herausgefunden werden, ob der eine Stamm virulenter ist als der andere.
- E. coli K12 Proteom (1,2 MB/2,5 MB) [download]
- E. coli O157:H7 Proteom (1,2 MB/2,5 MB) [download]
- E. coli O104:H4 Proteom (1,2 MB/2,5 MB) [download]
RNASeq und Biogas
- In diesem Projekt werden DNA-Sequenzfragmente (sequence reads) im FastQ-Format der NGS-Analyse (Next Generation Sequencing) von RNA aus einem Biogasfermenter verarbeitet. Es wird der Frage nachgegangen, welche Mikroorganismen an der Methanproduktion beteiligt sind.
- Biogas Metatranskriptom (9 MB/24 MB) [download]
- 16S rRNA Archaean (5 MB/29 MB) [download]
- 16S rRNA Bakterien (139 MB/755 MB) [download]
- 16S rRNA alle (194 MB/902 MB) [download]
Vom Gen zum Methan
- Im vorhergehenden Projekt wurde untersucht, welche Mikroorganismen Biogas produzieren. Hier wird auf Basis von Metatranskriptomdaten untersucht, welche Enzyme an der Methansynthese beteiligt sind.
- Biogas Metatranskriptom im FastA-Format nach QC (819 KB/3.6 MB) [download]
Bio(t)error - H1N1
- In diesem Projekt werden Aminosäureaustausche der Neuraminidase von Grippeviren (Influenzaviren) Typ A in der 3D-Struktur visualisiert. Hierbei sind vor allem Unterschiede zum Virus, das die Spanische Grippe verursacht hat, und diejenigen Aminosäuren, die eine Resistenz gegen den Wirkstoff Oseltamivir in dem Medikament Tamiflu bewirken, von Interesse.
- H1N1-Neuraminidasen von 1918-2015 (6 KB/91 KB) [download]
- projection.sh (752 B) [download]
Ebola - Resequenzierung
- In diesem Projekt werden die Rohdaten der Genom-Sequenzierung eines Ebolavirus aus dem Jahre 2014 untersucht. Diese werden gegen eine Referenzsequenz aus dem Jahre 1976 gemappt (aligniert). Da das Referenzgenom verwendet werden kann, um die Sequenzfragmente (Reads) der Genomsequenzierung zu einem gesamten Genom zusammenzufügen, handelt es sich um eine Resequenzierung\index{Resequenzierung}, im Gegensatz zu einer de novo Sequenzierung. Der Fokus liegt auf der Detektion und Visualisierung von SNPs.
- Bowtie2 (32Bit) (15 MB/47 MB) [download]
- Ebola-Genom (15 KB/43 KB) [download]
- Ebola-Genom resequenziert (132 KB/690 KB) [download]
- Ebola Proben (264 KB/1,4 MB) [download]
- Genome Savant (11 MB/13 MB) [download]
Teil III - Veröffentlichen
Daten in die Datenbank - MariaDB/MySQL
- Datenbanken - das ist so ein Dinosaurierbegriff der elektronischen Datenverarbeitung wie Textverarbeitung. Und irgendwie verkennt er, wie unendlich wichtig Datenbanken sind. Klar, dass die gewaltigen Datenmengen in einfachen Text-, Tab-, Word- oder Exceldateien schlecht zugänglich sind. Datenbanksysteme konvertieren diese Daten in ein binäres Format, auf das viel schneller zugegriffen werden kann. Ich führe hier in MariaDB/MySQL ein.
- ecoli-id-1-2-3-4.csv.gz (5 KB/12 KB) [download]
- ecoli-eid-id-gi-name-type-funct-4xec.csv.gz (94 KB/330 KB) [download]
- fieldsizes.awk (250 B) [download]
Daten Beschreiben und Darstellen - R
- In diesem Kapitel stelle ich die Datenanalyse und Visualisierungssoftware R vor. R ist unglaublich mächtig und in der Bioinformatik sehr verbreitet -- es gibt hunderte Zusatzpakete für die Bearbeitung und Visualisierung von biologischen Daten. Das Großartige an R ist, dass es zugleich eine Arbeitsumgebung und eine Programmiersprache ist. Daher sind sehr komplexe Analysen und Visualisierungen möglich.
- ecoli-id-1-2-3-4.csv.gz (5 KB/12 KB) [download]
- ecoli-eid-id-gi-name-type-funct-4xec.csv.gz (94 KB/330 KB) [download]
- E. coli K12 GC-Gehalt (13 KB/40 KB) [download]
- E. coli O157:H7 GC-Gehalt 17 KB/50 KB) [download]
- Anscombe's Quartet (450 B) [download]
- anscombe.r (650 B) [download]
- bioinfo-eanno-etime.sql.gz (110 KB/450 KB) [download]
- R Paket grofit [download]
- R Paket ape [download]
- R Paket seqRFLP [download]
- R Paket HardyWeinberg [download]
- R Paket BioConductor [download]
- R Paket seqinr [download]
- R Paket rentrez [download]
- R Paket RMySQL [download]
- R Paket gplots [download]
Es allen zeigen - Latex / HTML
- In diesem Kapitel stelle ich in aller Knappheit ein sehr wichtiges Thema vor: die Veröffentlichung der Daten. Mit LaTeX stelle ich eine mächtige Alternative zu Word et al. vor. Die meisten wissenschaftliche Journals arbeiten mit LaTeX. Dann zeige ich Ihnen, wie Sie einen eigenen Webserver betreiben und wie Sie Analyseergebnisse auf einer eigenen Webseite zum Download zur Verfügung stellen?. Mehr noch: Besucher Ihrer Webseite sollen sogar in der Lage sein, eigene Daten hochzuladen, eine Analyse anzuwerfen und das Ergebnis einzusehen.
- paper.tar.gz (50 KB/ 60 KB) [download]
- paper.zip (50 KB/ 60 KB) [download]<(wie oben, aber als Zip-Archiv)
- myweb-1.sh (200 B) [download]
- ppos-len-ev-stit-qid.mg00680.tab.gz (3 KB/30 KB) [download]
- pubmed.sh (680 B) [download]
- cys.sh (740 B) [download]
- wget.sh (750 B) [download]
- blast2.sh (520 B) [download]
- blastout.sh (570 B) [download]