Die Herausforderung
CROZ AI unterstützte die Implementierung einer zuverlässigen Anonymisierungslösung, die der DATEV eG helfen wird, ihre Daten zur Schaffung neuer Geschäftswerte zu nutzen. ‘Dank dieser hochwirksamen Lösung von CROZ AI haben wir den ersten Schritt gemacht, um Erkenntnisse aus unseren Daten zu gewinnen, ohne die wichtigen Datenschutzaspekte zu gefährden. Gleichzeitig stellen wir sicher, dass unsere Nutzer zufrieden und sicher bleiben, während wir ihnen den bestmöglichen Service bieten. Und nicht zuletzt war es wunderbar, mit einem so engagierten, reaktionsschnellen und professionellen Team zusammenzuarbeiten!
-Dr. Jonas Rende, Lead UX/CX Technologies
Die DATEV eG gehört zu den größten Anbietern von Softwarelösungen in Deutschland. Das Unternehmen mit Sitz in Nürnberg beschäftigt über 8000 Mitarbeiter, hat mehr als 450.000 Kunden in ganz Europa und erzielt einen Jahresumsatz von über einer Milliarde Euro. Die DATEV eG bietet Softwarelösungen, die speziell auf die Bedürfnisse von Steuerberatern, Anwälten, Wirtschaftsprüfern, kleinen und mittelständischen Unternehmen, Kommunen und Gründern zugeschnitten sind. Diese Lösungen sind für ihre Zuverlässigkeit, Aktualität, den hohen Datenschutz sowie die Datensicherheit bekannt und daher bei Fachleuten in diesen Bereichen besonders beliebt.
Aufgrund der Verarbeitung sensibler Daten legt die DATEV eG höchsten Wert auf die Einhaltung der GDPR- und DSGVO-Richtlinien. In bestimmten Anwendungsfällen ist eine Anonymisierung der Daten erforderlich, da die Rohdaten sensible Informationen enthalten, die vor einer weiteren Verarbeitung entfernt werden müssen. Dafür ist eine robuste, zuverlässige und insbesondere revisionssichere Anonymisierungslösung unverzichtbar.
Die Anonymisierung ist ein vielschichtiger Prozess, der mehrere Schritte umfasst. Dazu gehören die Identifikation sensibler Informationen, deren Zuordnung zu passenden Labels und die Ersetzung durch Begriffe, die den Kontext und den Informationsgehalt der Daten bewahren.
Die Lösung
Um diese Herausforderung zu bewältigen, haben wir ein transformerbasiertes Named-Entity-Recognition-Modell entwickelt, das mithilfe von Werkzeugen in der AWS-Cloud und mit datenschutzunbedenklichen Informationen trainiert wurde. Dieser Modelltyp ist hochgradig konfigurierbar und liefert mit vergleichsweise geringem Trainingsaufwand Ergebnisse auf dem neuesten Stand der Technik. Es lässt sich leicht an eine Vielzahl von Anwendungsfällen anpassen und eröffnet damit Möglichkeiten für nachgelagerte Aufgaben wie Sentiment-Analyse und Themenextraktion. Wir haben verschiedene Open-Source-Bibliotheken und Plattformen wie Pandas, PyTorch, Huggingface und MLflow genutzt, um eine Lösung zu entwickeln, die optimal auf die Bedürfnisse unseres Kunden zugeschnitten ist.
Für ein zuverlässiges und benutzerfreundliches KI-Anonymisierungssystem halten wir mehrere wesentliche Merkmale für entscheidend: ein konfigurierbares und austauschbares Machine-Learning-Modell, Widerstandsfähigkeit gegenüber Datenabweichungen (Data Drift), ein klar strukturierter und reproduzierbarer Trainings- und Evaluierungsprozess, die Möglichkeit menschlicher Intervention, gut integrierte Annotation-Workflows, die vollständige Implementierung in der Databricks- und AWS-Umgebung sowie die Einhaltung von Best Practices im Bereich Machine-Learning-Engineering und -Operations.
Unsere Anonymisierungslösung für die DATEV eG diente als umfangreicher Proof-of-Concept für eine robuste, skalierbare und zuverlässige Anonymisierungspipeline. Wir konnten erfolgreich zeigen, dass eine cloudbasierte Anonymisierungslösung großes Potenzial hat und als ernstzunehmender Kandidat für den Einsatz in einem produktiven System in Betracht gezogen werden sollte. Darüber hinaus hat unser Team eine Codebasis sowie eine Sammlung von Best Practices entwickelt, die in zukünftigen Machine-Learning-Projekten anwendbar und wiederverwendbar sind.
Tags
Industry
Falls Sie Fragen haben, sind wir nur einen Klick entfernt.