Experimental and Computational Biology

Datenmassen richtig fassen - Praktischer Schnelleinstieg in Bioinformatik

Diese Seite begleitet mein Buch Wiley-Schnellkurs Bioinformatik für Anwender", dass im April 2016 beim Verlag Wiley/VCH erschienen ist. Es bietet eine Einführung in das Spielen mit sequenzbasierten Daten unter Linux und deren Analyse mit R und MySQL. Publiziert wird dann mit LaTeX...

Preis: € 16,99 – Versandkostenfreie Bestellung bei Amazon .

Das Buch

Durch den Einzug von Hochtechnologie und Hochdurchsatzverfahren in den Laboralltag nimmt die digitale Datenverarbeitung einen immensen Stellenwert ein. Es ist heute selbstverständlich, dass ein Naturwissenschaftler seine Forschungsdaten selbstständig graphisch aufarbeitet und präsentiert. Ein Großteil der Zeit wird dabei am Computer mit der Formatierung der Daten verbracht: Kommata in Punkte, Tabulatoren in Semikolons, Leerzeichen in Unterstriche, Spalten in Zeilen, Vereinigung der Information aus zwei Dateien in eine Datei, etc. Hier setzt dieser Schnellkurs an. Ich erkläre Ihnen, …

∇ Klicken um mehr zu lesen ∇

Rezensionen

Was andere über das Buch sagen …
- Aus der Zeitschrift Chemie-Leben-Biotechnik: [download]
- Aus der Zeitschrift BIO Spektrum: [download]
- Aus der Zeitschrift Nachrichten aus der Chemie: [download]
- Aus der Zeitschrift Trillium Diagnostik: [download]
- Interview mit dem Autor: [read]

Vorwörter

Vorwort des Autoren …

∇ Klicken um mehr zu lesen ∇

Vorwort von Professor Diethard Tautz, Direktor des Max-Planck Instituts für Evolutionsbiologie, Plön …

∇ Klicken um mehr zu lesen ∇

Big Data ist heute in aller Munde, spätestens seit wir realisieren, wie Google uns ausspäht und Amazon immer am Besten weiß, was wir als nächstes kaufen sollten. Aber die größte Big Data Explosion fand im letzten Jahrzehnt im Genomik-Bereich statt. Weniger in Bezug auf das Gesamtvolumen, als vielmehr in Bezug auf die Geschwindigkeit des Wachstums. Das erste Humangenomprojekt hat noch viele Jahre gedauert und viele Millionen Dollar gekostet. Heute gibt es Maschinen, die hundert Genome pro Tag sequenzieren können, zu Kosten, die eine Individualsequenzierung für Patienten zur Routine machen werden. Für die Biologie tut sich damit ein ganzes Universum an neuen Möglichkeiten auf, da nicht nur Genome sequenziert werden, sondern auch Transkriptome und Epigenome. Inzwischen sind die Methoden bis zur Einzelzellanalyse verfeinert. Gleichzeitig reift die Erkenntnis, dass wir als höhere Organismen in Gemeinschaft mit einer riesigen Zahl von Mikroorganismen leben, dem sogenannten Metabiom. Auch dieses wird erst durch Big Data Projekte erschlossen und experimentell zugänglich. Selbst in der klassischen Taxonomie entsteht mittels Sequenzanalysen ein neues Feld – die Taxonomics.

Kein Bereich der Biologie kommt mehr an diesen Entwicklungen vorbei. Studenten der Biologie müssen zu "Big Data Natives" ausgebildet werden. Tatsächlich hat die Geschwindigkeit des Wachstums der Daten sogar die Geschwindigkeit der Computerentwicklung hinter sich gelassen. Und das gilt insbesondere für unsere vertrauten Alltagsprogramme, mit denen wir das Computerzeitalter versuchen zu meistern. Tabellenoperationen sind in Word auf 4.000 und in Excel auf 100.000 Zeilen begrenzt. Aber ein Genomikdatensatz hat Millionen von Zeilen. Das ist ein Umfang, den wir auch mit guter Intuition nicht mehr wirklich fassen können – aber genau dafür haben wir ja heutzutage Computer: Ein paar Befehlszeilen reichen, um aus solchen Datenmengen Information heraus zu filtern. Aber für den typischen Microsoft Nutzer sehen diese aus wie chinesische Schriftzeichen. Wunderschön, aber rätselhaft.

Das vorliegende Buch führt uns in diese Welt des "Computer-Chinesisch" ein. Wer bereit ist, sich wieder ein Stück zu den Anfängen des Computers zurück zu bewegen, wird man verblüfft feststellen, dass diese viel mehr können als man ihnen im Alltag abverlangt. Mit Big Data zu arbeiten wird da selbst auf einem Heimcomputer möglich.

Das Buch nimmt den Leser an die Hand und führt ihn durch die ersten Schritte, bis hin zu realen Beispielen der Genomdatenanalyse. Der Schlüssel ist der Umgang mit dem Linux-Betriebssystem, das nahe am Kern des Computers arbeitet. Hinzu kommt der Einstieg in eine einfache Programmiersprache und der Umgang mit Datenbanken. Das ist das Rüstzeug, mit dem sich eigentlich jeder Student der Naturwissenschaften vertraut machen sollte – insbesondere auch die Biologen. Das Buch führt aber auch in das Programmpaket R ein. Dieses entwickelt sich derzeit rasend schnell zum Wunderwerkzeugkasten der Datenanalyse, Statistik und Visualisierung. Da es eine Open Source Software ist, wurde es zum Sammelbecken für die Entwicklung und Bereitstellung von neuen Algorithmen zur Datenanalyse an der vordersten Forschungsfront. Das Buch kann da natürlich nur einen Einstieg vermitteln, aber der ist geeignet, jedem zu zeigen, was für eine großartige Landschaft von Werkzeugen sich dahinter verbirgt.

Wer das alles beherrscht ist eigentlich schon hervorragend gerüstet. Aber das Buch hat auch noch eine Kür zu bieten. Es führt in die bei Bioinformatikern beliebte dynamische Textverarbeitung LaTeX ein und befasst sich mit der Visualisierung komplexer Daten, sowie der Veröffentlichung auf Web-Servern.

Das Buch ist als Schnellkurs gedacht – und tatsächlich kann man die einzelnen Kapitel vergleichsweise schnell abarbeiten, zumal die lockere Erzählweise des Textes einen dazu geradezu auffordert. Gleichzeitig lernt man einiges über die Historie der Entwicklung des "Computer-Chinesisch" und kann damit die Vielfalt besser einordnen. Mit diesem Rüstzeug kann man auch gleich die ersten eigenen wissenschaftlichen Datenanalysen durchführen. Die Genomforscher stellen ja fast alle Daten frei zur Verfügung – und darin gibt es viel zu entdecken!

Vorwort von Professor Michael Bölker, Professor für Genetik, Marburg …

∇ Klicken um mehr zu lesen ∇

Nie war es einfacher als heute, Bioinformatik zu betreiben. Im Internet gibt es jede Menge Webseiten, auf denen man Gene finden, Sequenzen vergleichen oder Proteinstrukturen vorhersagen lassen kann. Meist sind diese Seiten sehr einfach zu bedienen und liefern auch in kürzester Zeit die gewünschte Antwort. Und trotzdem kann es manchmal sehr schwer sein, Bioinformatik zu betreiben, dann nämlich, wenn es für mein Problem oder meine Frage eben keine Seite im Internet gibt oder aber, falls es eine solche gibt, diese offensichtlich keine vernünftige Antwort geben kann. Dann steht man da mit seiner Frage und wünscht sich, dass man sie einfach selber lösen könnte. Nur ist das dann nicht ganz leicht, besonders wenn man dafür große Mengen Daten hat oder benötigt.

Einen kleinen Beitrag aus diesem Dilemma mag dieses Buch leisten. Es soll diejenigen, die zwar täglich vor dem Computer sitzen, aber sich noch nie getraut haben, diesen selber zu "programmieren", Mut machen und dabei helfen, es einfach mal zu probieren, es geht einfacher als man denkt. Wahrscheinlich ginge es noch leichter, wenn man einen Bioinformatiker kennt, der einem das Problem auf seine Art mal ganz schnell löst. Aber Bioinfomatiker gibt es nicht so viele, vor allem nicht viele, die Zeit für einen haben.

Also vielleicht doch selber machen? Wie spannend und gleichzeitig erhellend das sein kann, habe ich selber erfahren, als ich ein Problem lösen wollte (ich bin nicht der Krebsforscher aus der Einleitung, sondern der Genetiker mit seinen Ribosomen), von dem ich annahm, dass es ganz simpel zu lösen sein sollte. Nach einigen Tagen vergeblicher Mühe vor dem Bildschirm gab ich auf, ich fand einfach kein Programm im Internet, das ich zur Lösung meines Problems hätte direkt einsetzen können. Jedoch dank einer kurzen und intensiven Einführung des Verfassers, bei der er mir die Vorzüge von Zeilen-Editoren und die Stärke regulärer Ausdrücke nahegebracht hatte, konnte ich innerhalb kurzer Zeit meine Daten auf meinem Laptop genau so auswerten, wie ich es mir gewünscht hatte. Als dann auch noch ein sehr spannendes Ergebnis dabei herauskam, hatte ich ein Erfolgserlebnis, wie schon lange nicht mehr. Solche Erfolgserlebnisse wünsche ich allen geneigten Lesern dieses Schnellkurses Bioinformatik. Er will Ihnen Mut machen, sich einfach mal zu trauen und selber zu programmieren. Und wenn Sie dafür schon ein paar Vorkenntnisse mitbringen oder vielleicht sogar schon eine Programmiersprache beherrschen, um so besser! Mit Hilfe des Bestimmungsschlüssels am Anfang dieses Buches können Sie sich gleich selbst einordnen, um zu erfahren, auf welche Weise dieses Buch Ihnen am nützlichsten sein kann. Allen Lesern und vor allem denjenigen, die diesen Schnellkurs dafür nutzen, endlich mal wieder selber ihre Datenmassen zu beherrschen, wünsche ich viel Vergnügen, wenn Sie die "Tasten tanzen lassen".

Abbildungen

Einige Abbildungen aus dem Buch …

Bildergallerie: Klickst Du – Guckst Du ;-)

Alle Abbildungen und Tabellen können Sie hier als Powerpoint- oder PDF-Dokument herunterladen:
- Powerpoint (47 MB) [download]
- PDF (28 MB) [download]

Errata

Der letzte Absatz in Abschnitt 2.1.2 auf Seite 39 muss lauten: Die Qualität in den Zeilen 3 und 7 in Datei 2.3 ... [Dank an Theresa Pietschmann]
Der Installationsbefehl für Vim in Abschnitt 3.5.1 auf Seite 60 muss lauten: sudo apt-get install vim [Dank an Ella Reiter]
In der vierten Zeile in Abschnitt 3.5.2 auf Seite 63 muss es lauten: ... dem Befehl vim ~/.bashrc ... [Dank an Theresa Pietschmann]
Im Terminal 3.7 auf Seite 64 ist die Ausgabe des Skriptes //pubmed2.sh// in Zeile 10 unvollständig. Der Fehler in dem Skript ist behoben.
Im Terminal 3.10 auf Seite 71 müssen die ersten beiden Sed-Befehle korrigiert werden. Zeile 1: sed -r 's/(C.+)(TGA)?\1/-/' und Zeile 3: sed 's/\(C.\+\)\(TGA\)\?\1/-/' [Dank an Timothy William Elias]
Das Programm 4.1 (//get-protein.sh//) von Seite 84 hat zwischen den Zeilen 13 und 14 eine Insertions erhalten. Damit wird der Fehler korrigiert, dass Nonsense geladen wird, wenn mehr Sequenzen angefordert werden als es Treffer gibt. Es kann unten heruntergeladen werden.
Die Abbildungsunterschrift 5.3 auf Seite 101 muss lauten: Prozessierung der Datei //h4vsh7.txt// mit AWK, um aus dem BLAST-Ergebnis alle //E. coli// O104:H4 Sequenzbeschreibungen zu extrahieren, die in O157:H7 keinen Treffer ergaben.

Dateien aus dem Buch

Einleitung

Bioinformatik ist ein dehnbarer Begriff. Er spannt einen Bogen von der Entwicklung von Algorithmen - was nicht Thema dieses Schnellkurses ist - bis hin zur reinen Anwendung von Software zur Datenanalyse - was Thema dieses Schnellkurses ist.

pubmed2.sh (850 B) [download]
get-proteins.sh (900 B) [download]
id-exprA-exprB-len-gc.tab (400 B) [download]

Teil I - Vorbereiten

Lebenswissenschaften und Daten

Kurze Einführung in FastA, FastQ, PDB, mmCIF ...

Keine Daten

Daten und Linux

Im Zentrum dieses Buches steht der Linux-Terminal. Mit verschiedenen Programmen werden dort experimentelle Daten prozessiert und visualisiert. Unabhängig davon, mit welchem Betriebssystem Sie gewöhnlich arbeiten, können Sie mit der VirtualBox-Software von Oracle ein komplettes Linuxsystem als virtuelle Maschine laufen lassen. Nach der Bearbeitung des ersten Teils haben Sie also Ihr eigenes Linuxsystem am Start und beherrschen das Linux-Basiswerkzeug für die Verarbeitung von großen Datenmengen.

Ubuntu 15.04 32-bit (1.2 GB) [download]
Virtuelle Maschine (2.3 GB) [download]
PuTTY für Windows[download]
WinSCP für Windows [download]

Programmierung

Es gibt eine unüberschaubare Anzahl an Programmen für diesen und jenen Zweck -- und entsprechend viele Dateiformate. Allein für die Beschreibung von Protein- und Nukleinsäuresequenzen gibt es zahlreiche Dateiformate. In der Zukunft wird es immer wichtiger, in der Lage zu sein, Daten so zu formatieren, dass sie den Analyseprogrammen zugänglich sind. Die dafür notwendige Datenprozessierung erfordert in der Regel relativ unkomplizierte Programmiersprachen, sogenannte Skriptsprachen. Ich stelle hier AWK vor.

Keine Daten

Teil II - Arbeiten

Forensische Mikrobiologie - EHEC

In diesem Projekt werden die Proteome zweier pathogener Escherichia coli-Stämme verglichen. Damit soll herausgefunden werden, ob der eine Stamm virulenter ist als der andere.

E. coli K12 Proteom (1,2 MB/2,5 MB) [download]
E. coli O157:H7 Proteom (1,2 MB/2,5 MB) [download]
E. coli O104:H4 Proteom (1,2 MB/2,5 MB) [download]

RNASeq und Biogas

In diesem Projekt werden DNA-Sequenzfragmente (sequence reads) im FastQ-Format der NGS-Analyse (Next Generation Sequencing) von RNA aus einem Biogasfermenter verarbeitet. Es wird der Frage nachgegangen, welche Mikroorganismen an der Methanproduktion beteiligt sind.

Biogas Metatranskriptom (9 MB/24 MB) [download]
16S rRNA Archaean (5 MB/29 MB) [download]
16S rRNA Bakterien (139 MB/755 MB) [download]
16S rRNA alle (194 MB/902 MB) [download]

Vom Gen zum Methan

Im vorhergehenden Projekt wurde untersucht, welche Mikroorganismen Biogas produzieren. Hier wird auf Basis von Metatranskriptomdaten untersucht, welche Enzyme an der Methansynthese beteiligt sind.

Biogas Metatranskriptom im FastA-Format nach QC (819 KB/3.6 MB) [download]

Bio(t)error - H1N1

In diesem Projekt werden Aminosäureaustausche der Neuraminidase von Grippeviren (Influenzaviren) Typ A in der 3D-Struktur visualisiert. Hierbei sind vor allem Unterschiede zum Virus, das die Spanische Grippe verursacht hat, und diejenigen Aminosäuren, die eine Resistenz gegen den Wirkstoff Oseltamivir in dem Medikament Tamiflu bewirken, von Interesse.

H1N1-Neuraminidasen von 1918-2015 (6 KB/91 KB) [download]
projection.sh (752 B) [download]

Ebola - Resequenzierung

In diesem Projekt werden die Rohdaten der Genom-Sequenzierung eines Ebolavirus aus dem Jahre 2014 untersucht. Diese werden gegen eine Referenzsequenz aus dem Jahre 1976 gemappt (aligniert). Da das Referenzgenom verwendet werden kann, um die Sequenzfragmente (Reads) der Genomsequenzierung zu einem gesamten Genom zusammenzufügen, handelt es sich um eine Resequenzierung\index{Resequenzierung}, im Gegensatz zu einer de novo Sequenzierung. Der Fokus liegt auf der Detektion und Visualisierung von SNPs.

Bowtie2 (32Bit) (15 MB/47 MB) [download]
Ebola-Genom (15 KB/43 KB) [download]
Ebola-Genom resequenziert (132 KB/690 KB) [download]
Ebola Proben (264 KB/1,4 MB) [download]
Genome Savant (11 MB/13 MB) [download]

Teil III - Veröffentlichen

Daten in die Datenbank - MariaDB/MySQL

Datenbanken - das ist so ein Dinosaurierbegriff der elektronischen Datenverarbeitung wie Textverarbeitung. Und irgendwie verkennt er, wie unendlich wichtig Datenbanken sind. Klar, dass die gewaltigen Datenmengen in einfachen Text-, Tab-, Word- oder Exceldateien schlecht zugänglich sind. Datenbanksysteme konvertieren diese Daten in ein binäres Format, auf das viel schneller zugegriffen werden kann. Ich führe hier in MariaDB/MySQL ein.

ecoli-id-1-2-3-4.csv.gz (5 KB/12 KB) [download]
ecoli-eid-id-gi-name-type-funct-4xec.csv.gz (94 KB/330 KB) [download]
fieldsizes.awk (250 B) [download]

Daten Beschreiben und Darstellen - R

In diesem Kapitel stelle ich die Datenanalyse und Visualisierungssoftware R vor. R ist unglaublich mächtig und in der Bioinformatik sehr verbreitet -- es gibt hunderte Zusatzpakete für die Bearbeitung und Visualisierung von biologischen Daten. Das Großartige an R ist, dass es zugleich eine Arbeitsumgebung und eine Programmiersprache ist. Daher sind sehr komplexe Analysen und Visualisierungen möglich.

ecoli-id-1-2-3-4.csv.gz (5 KB/12 KB) [download]
ecoli-eid-id-gi-name-type-funct-4xec.csv.gz (94 KB/330 KB) [download]
E. coli K12 GC-Gehalt (13 KB/40 KB) [download]
E. coli O157:H7 GC-Gehalt 17 KB/50 KB) [download]
Anscombe's Quartet (450 B) [download]
anscombe.r (650 B) [download]
bioinfo-eanno-etime.sql.gz (110 KB/450 KB) [download]

R Paket grofit [download]
R Paket ape [download]
R Paket seqRFLP [download]
R Paket HardyWeinberg [download]
R Paket BioConductor [download]
R Paket seqinr [download]
R Paket rentrez [download]
R Paket RMySQL [download]
R Paket gplots [download]

Es allen zeigen - Latex / HTML

In diesem Kapitel stelle ich in aller Knappheit ein sehr wichtiges Thema vor: die Veröffentlichung der Daten. Mit LaTeX stelle ich eine mächtige Alternative zu Word et al. vor. Die meisten wissenschaftliche Journals arbeiten mit LaTeX. Dann zeige ich Ihnen, wie Sie einen eigenen Webserver betreiben und wie Sie Analyseergebnisse auf einer eigenen Webseite zum Download zur Verfügung stellen?. Mehr noch: Besucher Ihrer Webseite sollen sogar in der Lage sein, eigene Daten hochzuladen, eine Analyse anzuwerfen und das Ergebnis einzusehen.

paper.tar.gz (50 KB/ 60 KB) [download]
paper.zip (50 KB/ 60 KB) [download]<(wie oben, aber als Zip-Archiv)
myweb-1.sh (200 B) [download]
ppos-len-ev-stit-qid.mg00680.tab.gz (3 KB/30 KB) [download]
pubmed.sh (680 B) [download]
cys.sh (740 B) [download]
wget.sh (750 B) [download]
blast2.sh (520 B) [download]
blastout.sh (570 B) [download]

Experimental and Computational Biology

Prof. Dr. Röbbe Wünschiers

Datenmassen richtig fassen - Praktischer Schnelleinstieg in Bioinformatik

Das Buch

Rezensionen

Vorwörter

Abbildungen

Errata

Dateien aus dem Buch

Einleitung

Teil I - Vorbereiten

Lebenswissenschaften und Daten

Daten und Linux

Programmierung

Teil II - Arbeiten

Forensische Mikrobiologie - EHEC

RNASeq und Biogas

Vom Gen zum Methan

Bio(t)error - H1N1

Ebola - Resequenzierung

Teil III - Veröffentlichen

Daten in die Datenbank - MariaDB/MySQL

Daten Beschreiben und Darstellen - R

Es allen zeigen - Latex / HTML