Forschungsdaten: ARAMOB | Semantische Anreicherung und Mobilisierung von Daten netzbasierter Repositorien für Taxonomie und Ökologie von Spinnen

Forschungsdaten sind (digitale) Daten, die während wissenschaftlicher Tätigkeit (z. B. durch Messungen, Befragungen, Quellenarbeit) entstehen. Sie bilden eine Grundlage wissenschaftlicher Arbeit und dokumentieren deren Ergebnisse (s. Forschungsdaten.info).

Ungeachtet enormer Unterschiede in spezifischen Merkmalen, Formaten und Mengen, können Forschungsdaten drei grundlegenden Kategorien zugeordnet werden:

Rohdaten (raw data): noch nicht prozessierte Ausgangsdaten wie Probeninhalte, Messdaten oder Fotos.
Primärdaten (primary data): prozessierte Daten, z.B. durch Konvertierung oder Korrektur veränderte Rohdaten, zusammengestellte und erläuterte Daten.
Sekundärdaten (secondary data): Daten die zu einem unterschiedlichen Zweck gesammelt wurden und in einem neuen Zusammenhang genutzt werden.

Häufig werden davon noch Metadaten unterschieden, dies sind an sich unabhängige Daten, die strukturierte Informationen über andere Daten bzw. Ressourcen und deren Merkmale enthalten. Sie werden unabhängig von oder zusammen mit den Daten, die sie näher beschreiben, abgespeichert. Eine genaue Definition von Metadaten ist schwierig, weil der Begriff zum einen in unterschiedlichen Kontexten verwendet wird, und zum anderen die Unterscheidung zwischen Daten und Metadaten je nach Blickwinkel unterschiedlich ausfällt (s. Forschungsdaten.info).

Im arachnologischen Kontext dieser Datenbank verstehen wir unter Forschungsdaten Daten aus systematischen und mit standardisierten Methoden durchgeführte Aufsammlungen - Studien zur Ökologie von Spinnen, die im Forschungsdatenrepositorium ARAMOB in einer DWB-Datenbank gemanagt werden. Daten von mehr oder weniger zufälligen Aufsammlungen von Spinnen, die für die Faunistik und Kenntnis der Verbreitung der Arten interessant sind, werden dagegen im Atlas der Spinnentiere Mitteleuropas gesammelt werden.

Im GFBio Projekt werden in der Beschreibung der Services der individuellen Collection Data Center fünf Haupttypen biologischer Daten differenziert:

Typ 1 Daten sind Biodiversitäts- und Nachweisdaten, die unter die ABCD und DwC Standards und Erweiterungen fallen, also Sammlungsdaten (mit Belegobjekt) und Beobachtungsdaten (ohne Sammlungsobjekt) mit dem biologischen (digitalen) Objekt als Primärinformation sowie einer Georeferenz und Zeitangaben als wichtigste Sekundärinformationen (s. Data exchange standards, protocols and formats relevant for the collection data domain within the GFBio network and Technical documentation of GFBio publication of type 1 data).
Typ 2 Daten sind taxonomische (Checklist) Daten, die unter ABCD und DwC Standards fallen, mit dem Taxonnamen (in Übereinstimmung mit den drei International Codes of Biological Nomenclature) als Primär-Identifier.
Typ 3 Daten sind biologische und ökologische Umweltdaten, die in ein hochstrukturiertes Format auf der Ebene der Einzeldaten (Einzelmessung) transferiert werden und mit EML (Ecological Metadata Language) oder ISO 19139 Metadaten verknüpft sind. Dieser Typ umfasst funktionelle und phylogenetische Merkmale (trait data). Letztere unterliegen DELTA oder SDD Standards. Primärinformation ist entweder das Biologische Konzept (z.B. Operational Taxonomic Unit OTU) mit den Umweltdaten der Messungen und Analysen alswichtigste Sekundärinformationen, oder umgekehrt das Umweltereignis als Primär-Identifier mit den Biologischen Daten als sekundäre Informationen.
Typ 4 Daten sind Daten nicht-molekularer Analysen (Datensätze und/oder Datenpakete) im originalen Dateiformat (oft im RAW Format). Solche Daten werden akzeptiert, wenn sie gut dokumentiert sind, einen Kernsatz an Standard erfüllende Metadaten enthalten und ohne weiteres Datenmanagement für Langzeitarchivierung geeignet sind.
Typ 5 Daten sind molekulare Sequenzdaten inkl. MIxS erfüllende Metadaten. Primäridentifier sind hier die Sequenzen, Georeferenz und Zeitangaben sekundäre Information.

Quelle: GFBio Datentypen

Was sind eigentlich Forschungsdaten?