SSR-GBAS WF-Projekt: Waldfonds-Projekt: Genotypisierung durch Amplikon Sequenzierung als Anwendung für standardisiertes genetisches Monitoring von forstlichen Ressourcen am Beispiel Fichte und Eiche

Projektleitung

Harald Meimberg

Forschungseinrichtung

BOKU

Projektnummer

101660

Projektlaufzeit

-

Finanzierungspartner

Bundesministerium für Landwirtschaft, Regionen und Tourismus| Universität für Bodenkultur, Institut für Integrative Naturschutzforschung

Allgemeine Projektinformationen

Schlagwörter (deutsch)

SSR-GBAS, Genetisches Monitoring, Stieleiche, Fichte

Titel, Abstract, Schlagwörter (englisch)

Titel (englisch)

Genotyping by amplicon sequencing for standardized genetic monitoring of forestry resources using oak and norway spruce as example

Abstract (englisch)

Genetic monitoring of forest resources (FGM) is very important to understand the effect of disturbances and forestry practice on genetic composition and adaptation patterns of forest trees, in particular in the light of climate change. Genotyping, based mostly on microsatellites or SNPs, is therefore part of management, seed production and the provenance principle. However, methods are difficult to standardize, and wide application is impeded by high costs and elaborate protocols. Methods developed with the upcoming of the second generation sequencing techniques (NGS), for example genomic resequencing approaches, are not yet widely used outside specific research. However, sequence-based approaches to genotyping are available and are highly informative also for routine screening. Especially important is a method that bridges traditional and new possibilities, with high throughput and statistical power, but easy to use and to implement. A method that is able to complement existing approaches until the genome wide approaches can be widely applied.
The main problem to use sequence information for genotyping, is the bioinformatic processing. Sequencing of amplicons, e.g. with the Illumina chemistry, is standard. It is difficult to unambiguously determine alleles in heterozygotes which is necessary for genotyping. A number of pipelines had been suggested, however, most are elaborate or not able to use the whole sequences of a marker but rather single SNPs or length information. Contrary, whole sequence information would promise a clear definition of the alleles and full reproducibility, not to mention the ability discrimination between the maximal number of alleles within the amplified region, without homoplasies.
The project introduces genotype by amplicon sequencing for genetic monitoring in forestry (SSR-GBAS). Scripts developed in earlier work will form the base for software with wide applicability. A database for web-based collection of alleles called by whole sequences will be developed and reproducible genotypes on Oak and Spruce on up to 200 markers will be provided. The project will improve laboratory methods and investigate the inclusion of candidate genes as well as neutral markers. The approach allows a flexible genotyping of forest genetic resources that can also incorporate already established loci by covering them with an SSR-GBAS marker. This provides a transition to high through put approaches of the second generation sequencing platforms.

Projektziele

Das Projekt hat das Ziel neue Technologien zur Genotypisierung vorzuschlagen, einsetzbar im Bereich der Herkunftsforschung sowie bei Identifikations- und Kontrollverfahren, und als vergleichendes und standardisiertes Verfahren der Abschätzung bzw. Messung der genetischen Variation bei Waldbaumarten. Wir bieten eine Alternative zu derzeitigen Methoden unter besonderer Berücksichtigung des Einsatzes der neuen Sequenzierungs-Technologien und erhöhter Reproduzierbarkeit und Standardisierbarkeit von Datenaufnahmen im Vergleich zu herkömmlichen Methoden. Auch wenn der Markertyp als Variation in einem durch PCR Amplifikation erhaltenen DNA Abschnitt der gleiche ist, wird der Durchsatz von Proben sowie Markern erhöht, was vor allem durch eine verbesserte Automatisierung des Allel Calls und der Datenauswertung erreicht wird. Die Methode ist eine Weiterentwicklung des \"genotyping by the thousands\" Ansatzes (Campbell, 2014), die eine Genotypisierung duch Illumina Sequenzierung erlaubt, die aber mit unserer Auswertungsmethode die vollständige Information eines 500 bp Seqeunzabschnittes für den „Allel Call“ verwendet. Dies wird durch spezifische Skripten erreicht (in Curto et al., 2019 dargestellt) und erlaubt eine sehr hohe Reproduzierbarkeit und eindeutige Definition der Allele.
Unsere Ziele können in drei wesentliche Bereiche eingeteilt werden:
1. Bereitstellung von neuen Lösungen zur routinemäßigen Genotypisierung von Waldbaumarten
2. Die Entwicklung von Datenmanagement-Möglichkeiten für die Verwaltung von Genotypisierungsdaten, und
3. Erstellung von Fallbeispielen zur Demonstration der Vorgehensweise und Verbreitung des Forschungsansatzes in den Forstwissenschaften. In diesem Zusammenhang soll die Methode weiter optimiert werden.
Diese Bereiche sollen zusammen nicht nur zu einer Verbesserung der derzeitigen Lösungen führen. Sie sollen vor allem einen Übergang von den derzeit meist angewendeten Methoden einer begrenzten Anzahl Marker und Informationsgehalt zu einem breiten genetischen Monitoring von forstlichen Ressourcen führen, verbesserte Möglichkeiten einer zentralisierten Datenverwaltung aufzeigen und dies für einige Beispiele auch implementieren.
Objektive 1: Bereitstellung von neuen Lösungen zur routinemäßigen Genotypisierung von Waldbaumarten
Wie oben ausgeführt verspricht die Anwendung von SSR – GBAS eine verbesserte Auswertbarkeit. Eine bessere Standardisierung wird durch Bereitstellung von Software erreicht, die Datenanalyse vereinfacht. Da die Allele Definition auf der Sequenz beruht, können im Endeffekt alle Methoden, die solche Sequenzen produzieren, verwendet werden. Die Skripten, auf denen die zu entwickelnde Software beruhen wird, und die derzeit schon bestehen, vermitteln die Transformation von Illumina amplicon sequencing output zu einer Genotyp Datenmatrix. Welche Labormethoden zur Vorbereitung des Illimina Laufs verwendet werden, spielt eigentlich keine Rolle. Das erlaubt eine starke Vereinfachung einer automatisierten Datensammlung, bzw. ermöglicht sie erst. Da der Genotyp als Sequenz dargestellt ist, ist eine eindeutige Zuordnung möglich und es lässt sich auch eine Verbindung zu Sequenzdeposiories wie NCBI Genbank realisieren.
Objektive 2: Die Entwicklung von Datenmanagement-Möglichkeiten für die Verwaltung von Genotypisierungsdaten
Eine Implementierung einer Datenbank erlaubt eine Verbindung der im Rahmen der Zielsetzung Nummer 1 erreichten Automatisierung mit einer Verbesserung der Datenverfügbarkeit. Dies erhöht darüber hinaus die Anwendungsmöglichkeiten und macht den Ansatz für die Anwendung attraktiver. Das Ziel ist hier eine Verbindung unabhängiger Untersuchungen zu vereinfachen: die Skripten erlauben die Berücksichtigung von vorhergehenden Analysen bei der Erstellung der Datenmatrizen. Allele, die bereits bekannt sind, werden mit der gleichen Kennung versehen und nur neue Allele zusätzlich aufgenommen und in eine neue Liste angelegt. Eine Implementierung einer zentralisierten Datenbank erlaubt daher den Vergleich von Ergebnissen zwischen Arbeitsgruppen. Es erleichtert außerdem die Überprüfung von Einzelproben sowie deren Integration in bestehende Untersuchungen. Als wesentliche Neuerung erlaubt die Datenbanklösung eine Integration von neuen Allelen, die für die Marker festgestellt werden, sowie auch die Einbeziehung neuer Marker. Durch die Automatisierung des Allel Calls und Integration in eine Datenmatrize kann so ein System erreicht werden, welches eine kontinuierliche Begleitung der Genotypisierungen in der Zukunft erlaubt. Im Rahmen unseres Projektes werden auch schon verwendete Marker einbezogen, die bisher erarbeiteten Informationen gehen dadurch nicht verloren.
Objektive 3: Erstellung von Fallbeispielen
Die Methoden als Software und darauf aufbauend als Datenbank Ressource können nur erfolgreich vorgestellt werden, wenn sie mit Fallbeispielen gekoppelt werden und so auch in die Anwendung kommen. Wir schlagen vor, dies mit Eiche und Fichte als Modelle durchzuführen, die Auswahl der Arten kann aber an Bedürfnisse angepasst werden. Durch unsere Kooperation haben wir umfangreiche Aufsammlungen zur Verfügung, die sowohl für Quercus robur und nah verwandten Eichenarten und für Picea abies mit jeweils bis zu 2500 Proben bestehen. Ein starkes Interesse besteht derzeit in der Untersuchung von Anpassungen bei Areal Verschiebung und zwischen verschiedenen Generationen, was durch Verschiebung von Allel Frequenzen zwischen Populationen oder Kohorten nachweisbar sein könnte. Mit Fichte besteht ein solches Modell bei der durch den Klimawandel postulierten Höhen-Verlagerung des Areals, bei der Eiche im Zusammenhang mit der Naturverjüngung oder deren Ausbleiben in derzeitigen Beständen. Wir planen daher zukünftige Arbeiten mit diesen Arten.
Die Fallbeispiele werden nicht nur zur Darstellung von Software und Datenbank verwendet, sondern auch um die Methode weiter zu optimieren. Ziel der Optimierung ist z. B. die Erhöhung der Anzahl der Marker, die in einem der Multiplex-Ansätze der ersten PCR verwendet werden können. Bisher sind maximal 12 Marker eingesetzt, möglich sollten aber bis zu 100 Marker sein, dies ist jedenfalls die Zahl die bei Campbell et al. (2014) eingesetzt wurde. Optimierung wird die Anzahl Marker in einer Reaktion ermitteln und Auswirkung auf Frequenz innerhalb des Illumina runs. Eine Variable hierbei ist z. B. die Abhängigkeit der Sequenzierung von der Länge des Inserts bei Illumina.
Die Vorgehensweise stellt zum einen die Ressourcen zur erleichterten standardisierten Genotyp-Datenverwaltung bereit, zeigt zum anderen an Beispielen auf, wie dies implementierbar ist und welches Potential eine Anwendung hat. Dies ist wichtig, um im Rahmen von Publikationen und anderen Kanälen wissenschaftlicher Kommunikation die Möglichkeiten überzeugend darzustellen. Unser Ansatz kann zu einem wichtigen Baustein des genetischen Monitorings werden und vor allem für die wichtigen Waldbaumarten eine große Rolle spielen.

Praxisrelevanz

Allgemein schätzen wir die Bedeutung einer Anwendung unseres Ansatzes für viele Bereiche als sehr hoch ein. Das wesentliche Element ist die von uns vorgeschlagene Entwicklung von bedienungsfreundlicher Software die zur Verfügung gestellt werden kann um die Auswertung von Genotypisierungsdatensätzen aus Hochdurchsatz Methoden zu erleichtern, bzw. aus Ermangelung von allgemein verfügbaren Methoden erst zu ermöglichen. Daher kann sie überall wo Codominante Datensätze zur Genotyp-Bestimmung regelmäßig eingesetzt werden, angewendet werden und die bisherige Vorgehensweise vereinfachen. In der Landwirtschaft sind dies beispielsweise die Bestimmung von Varianten oder Sorten. Prinzipiell, überall dort wo die Markeranzahl unterhalb der genomischen Schwelle bleiben kann, ist die Methode besonders geeignet. Die Kosten bleiben Pro Probe sehr niedrig und das Verfahren ist nach der Bereitstellung unserer Ressourcen sehr einfach zu standardisieren.
Wie im Abschnitt „Ergänzende Arbeiten“ ausgeführt, verwenden wir SSR-GBAS zur Untersuchung der Populationsstruktur von Nil Tilapia, eine für die Aquakultur besonders wichtige Fischart. Durch die häufige Verbringung der Art ist sie heute weltweit in tropischen und subtropischen Gewässern invasiv und gezielte Translokation ist häufig. Unser Datensatz der derzeit aus ca. 2000 Proben und 47 Markern besteht wird in Einzelprojekten verwendet um die genetische Struktur der Art in ihrem Ursprungsareal zu definieren, Hybridisierung mit nativen Arten zu bestimmen und die Auswirkung von Translokation durch Aquakultur, bzw die Zusammensetzung der in Aquakultur verwendeten Varianten zu bestimmen. Wir zeigen hier ein Beispiel wie eine standardisierte Methode eine kontinuierliche Kontrolle zusätzlich zu einer „Baseline“ bereitstellen kann die zum Management einer natürlichen, fischereiwirtschaftlichen Resource eingestzt werden kann.
Ultimativ ist unser langfristiges Ziel allgemeine Möglichkeiten für ein genetisches Monitoring zu erarbeiten, welches erlaubt, 1., Zustand der genetischen Diversität und Verteilung von Adaptionen von natürlichen Populationen zu definieren 2. Änderungen der Diversität und Verteilung von Adaptionen zu vermerken und in Bezug zur Populationsentwicklung zu setzten und 3. langfristige Weiterentwicklungen von Genotypisierungsmethoden berücksichtigen kann.
Unsere Mehtode kann dies leisten und das vorliegende Projekt ist in der Lage dies zu demonstrieren.