"Der moderne Entwicklungsansatz von SIDESTREAM hat mich neugierig gemacht. Nachhaltig überzeugt haben mich die souveräne Kommunikation mit den vielen Stakeholdern im Forschungszentrum und der flexible Umgang mit variierenden Anforderungen im Projektverlauf. Die Software von SIDESTREAM erfüllt unsere wissenschaftlichen Standards und erleichtert unseren Forschungsalltag sehr."
Hintergrund
Die Digitalisierung hält auch in der Forschung Einzug. Unser Kunde, das ZEA-3, ist eine Einrichtung des Forschungszentrum Jülich mit dem Schwerpunkt auf Analyse-Dienstleistungen im Bereich der Zusammensetzungsanalyse.
Durch den Einsatz verschiedener Methoden, Verfahren und Technologien analysiert das ZEA-3 physische Proben aus der ganzen Welt. Die Ergebnisse der Laborprozesse dienen als Grundlage wissenschaftlicher Studien und bilden so einen wichtigen Teil der Forschung. Auch für externe Kunden sind die Daten essentiell, um an neuen Innovationen und Produkten zu arbeiten.
Die Herausforderung: Komplexe Prozesse und viele Daten
Diese wissenschaftlichen Laborprozesse sind aufwendig und komplex. Damit die Proben analysiert werden können, müssen diese zunächst für die angewandten Verfahren aufbereitet werden. Außerdem haben die Hersteller der einzelnen Laborgeräte spezifische Formatierungen von Datensätzen. Das bringt eine hohe Anzahl an Ergebnissen und Formaten mit sich.
Zur einheitlichen Strukturierung werden die Daten daher in Excel-Tabellen übertragen. Diese Darstellung der Daten ist umso bedeutender, da verschiedene Forschungsbereiche Zugriff auf die Ergebnisse brauchen.
Deshalb ist eine fehlerfreie Zuordnung der spezifischen Ergebnisse entscheidend. Das ist mit einer klaren Strukturierung verbunden, da oftmals mehrere hundert Proben parallel untersucht werden. Diese einzelnen Verfahren und Ergebnisse bauen aufeinander auf und bilden einen zusammenhängenden Laborprozess.
Die Anforderung: Schritt für Schritt zum vollautonomen Labor
Die aufwendige Verarbeitung und Aufbereitung der Messergebnisse ist zeitintensiv und fehleranfällig. Daher hat sich das ZEA-3 an SIDESTREAM gewandt, um eine automatisierte Lösung zu entwickeln. Das Ziel war eine umfassende Software zu entwickeln, die es langfristig ermöglicht, den gesamten Untersuchungsablauf vollautonom durchzuführen. Dabei ist es von besonderer Relevanz, dass keine Fehler auftreten. Da die Messergebnisse wissenschaftlichen Standards entsprechen und die Kunden des Instituts auf die Richtigkeit der Daten vertrauen. Die Effizienz und Benutzerfreundlichkeit der Software darf dementsprechend nicht auf Kosten der Data Governance erfolgen.
Komplexe Prozesse, einfache Lösung
Unser Ansatz war es dabei den Gesamtprozess zu analysieren und wichtige grundlegende Prozessschritte zu identifizieren. Dazu war eine enge Kommunikation mit den Wissenschaftlern und eine hohe Testabdeckung des Endprodukts von großer Bedeutung.
Der Fokus unserer Arbeit lag dabei auf der Datenqualität und den FAIR-Prinzipien . Dabei steht das Akronym FAIR für Findable (Auffindbar), Accessible (Zugänglich), Interoperable (Interoperabel) und Reusable (Wiederverwendbar).
Es galt:
- die einzelnen Formate der Analyse-Technologien und Verfahren fehlerfrei auszugeben,
- Messwerte korrekt zu berechnen,
- und wissenschaftliche Standards einzuhalten.
Uns ist es gelungen die verschiedenen Formate und Ergebnisse übersichtlich in einer Webanwendung aufzubereiten. Grundlage dafür bildeten die verschiedenen Ergebnisdateien der Einzelprozesse. Anhand dieser haben wir Reverse-Engineering betrieben und Input, Output und die Prozessfunktion abgeleitet. Anhand unserer Erkenntnisse haben wir eine erste Version für ein Analyseverfahren programmiert. Ein wichtiger Aspekt dieses Projekts waren die Testdurchläufe mit den Wissenschaftlern. Neben der automatisierten Datenverarbeitung stellt die Anwendung die Ergebnisse und Formate übersichtlich und strukturiert dar, sodass die Mitarbeiter des Instituts die Daten effizient nutzen können. In Zukunft soll der gesamte Analysevorgang vollautomatisch ablaufen, damit die Wissenschaftler sich auf die Interpretation der Daten konzentrieren können.
Technologie Deep Dive
Neben der Vielzahl von Schritten und Datensätzen machen auch Wiederholungsschleifen den gesamten Analysevorgang sehr komplex. Die Prozessschritte laufen nämlich nicht streng geradlinig ab. Bestimmte Messergebnisse der Laborinstrumente können zu Wiederholungen der jeweiligen Analyse führen. Diese Überprüfungsschleifen müssen in der Software abgedeckt sein, um die Richtigkeit der Ergebnisse zu garantieren. Dazu haben wir den gesamten Prozess als Finite State Machine (FSM) modelliert. Das ermöglicht die absolute Kontrolle über den Prozess. Denn FSMs lassen sich nicht umgehen. Der Ablauf wird erst fortgesetzt, wenn die richtigen Bedingungen vollständig erfüllt wurden. Insbesondere in datenzentrischen Prozessen ist dieser Ansatz essenziell für den Erfolg.
Diese FSM-basierte Lösung ist ein perfektes Beispiel für einen Human-in-the-loop Prozess. Die Wissenschaftler führen nur noch wenige Expertenschritte aus und spielen die Endergebnisse wieder in das System ein. Das System besteht aus mehreren Docker Microservices. Diese wurden lokal im Forschungszentrum deployed. Die Daten werden in einer PostgreSQL Datenbank verwaltet. Der Großteil des Codes bildet ein Python Backend, während es sich bei der Benutzeranwendung um eine moderne VueJS Webanwendung handelt. Der gesamte Code ist dabei von einer hohen Testabdeckung geprüft. Mindestens 90 Prozent müssen an jeder Stelle des Codes erreicht werden. Ansonsten erlaubt der automatische Test- und Mergeprozess keine Einführung neuer Features (“merge in Master”). Das eliminiert frühzeitig potenzielle Fehler und ermöglicht eine Anwendung, welche wissenschaftlichen Standards gerecht wird.