Über das Projekt
Wir haben theBlue.ai GmbH mit der Aufgabe betraut, relevante Informationen aus E-Mails zu extrahieren, um uns bei der Automatisierung unserer täglichen Prozesse zu helfen. Die Lösung sollte sowohl mit Texten in deutscher als auch englischer Sprache arbeiten und die von uns festgelegten relevanten Informationen extrahieren und in einem strukturierten Format für die weitere Verarbeitung aufbereiten.
Zunächst führte theBlue.ai einen Proof of Concept durch, um die Machbarkeit der Automatisierung der Informationsextraktion mit Generativer KI zu demonstrieren. Nach unserem Feedback und der Akzeptanz der Ergebnisse gingen sie zur Entwicklung einer Produktionsversion der Lösung über, um unseren spezifischen Anforderungen gerecht zu werden.
Herausforderungen
Die Hauptherausforderung für theBlue.ai bestand darin, mit unstrukturiertem Text umzugehen, der keine vordefinierte Formatierung aufwies, was die genaue Erkennung der angegebenen Informationen erschwerte. Aufgrund unserer globalen Geschäftstätigkeit war eine weitere Herausforderung mit verschiedenen Formaten und Sprachen der Texte verbunden, die mit vielen lokalen Standards für Länder auf der ganzen Welt verknüpft waren. Außerdem waren nicht immer alle festgelegten Informationen in den bereitgestellten Texten vorhanden. All diese Herausforderungen führten dazu, dass herkömmliche Ansätze nicht ausreichend waren. Eine hohe Genauigkeit und Effizienz im Extraktionsprozess zu gewährleisten, war entscheidend, um die Ziele des Projekts zu erreichen.
Lösung
Um die Herausforderungen zu bewältigen, nutzt theBlue.ai die Leistungsfähigkeit der GPT-3.5- und GPT-4-Modelle für die Informationsextraktion. Eine sorgfältige Gestaltung der Eingabeaufforderung (Prompt Engineering) und Tests mit verschiedenen Modellen verbesserten die Genauigkeit erheblich. Sie integrierten die Lösung mithilfe von FastAPI und kapselten den Code in einen Docker-Container, was eine reibungslose Bereitstellung auf unseren Servern ermöglichte. Jetzt können wir problemlos Anfragen an die API senden und die benötigten Informationen im festgelegten Format erhalten.