GPT4All - Erweiterung des Models

GPT4All bringt ja einige Models mit. Die meisten, insbesondere die OpenSource-Models sind noch etwas fehlerbehaftet und bedürfen ein wenig Fine-Tuning. 

Ein LLM (Large Language Model) ist das Fundament von KIs wie ChatGPT. Je besser das Model, desto akkurater, viel kreativer und viel ausführlicher antwortet der Bot. 

Das Model durchläuft, primitiv gesprochen, zwei Phasen. Die erste ist das Pre-Training. Das dauert lange und benötigt viel Rechenkapazität. Das von OpenAI zum Beispiel geht in die Millionen Dollar, und ist deshalb nicht für OpenSource. Metas LLahma Model wurde allerdings bei einem Hackerangriff geraubt, und daraufhin von Meta selbst freigegeben. Somit steht ein Pretrained Modell zur Verfügung. Der zweite Schritt, das so genannte Fine-Tuning ist wesentlich billiger und daher auch von OpenSource-Enthusiasten möglich. Für Bilder steht mit Stable Diffusion ebenso ein passendes Model zur Verfügung. 

Inzwischen gibt es Modelle mit über 65000 Tokens (Wörtern), mehr als ChatGPT. Und trotzdem ist der Wunsch groß, ein Modell mit eigenen Daten anzureichern. Bislang musste man dazu Python bemühen und mehrere Python-Bibliotheken installieren. 

In GPT4All ist ein Plugin integriert, welches es ohne Programmierung möglich macht: LocalDocs. Aktiviert wird es in zwei Schritten: 

Mit Klick auf das Zahnrad kommt man in die Einstellungen.

Mit "Browse" sucht man ein Verzeichnis, in welchem man seine Dokumente für GPT4ALL lädt.

Das Plugin verarbeitet folgende Dokumente: ["txt", "doc", "docx", "pdf", "rtf", "odt", "html", "htm", "xls", "xlsx", "csv", "ods", "ppt", "pptx", "odp", "xml", "json", "log", "md", "tex", "asc", "wks", "wpd", "wps", "wri", "xhtml", "xht", "xslt", "yaml", "yml", "dtd", "sgml", "tsv", "strings", "resx", "plist", "properties", "ini", "config", "bat", "sh", "ps1", "cmd", "awk", "sed", "vbs", "ics", "mht", "mhtml", "epub", "djvu", "azw", "azw3", "mobi", "fb2", "prc", "lit", "lrf", "tcr", "pdb", "oxps", "xps", "pages", "numbers", "key", "keynote", "abw", "zabw", "123", "wk1", "wk3", "wk4", "wk5", "wq1", "wq2", "xlw", "xlr", "dif", "slk", "sylk", "wb1", "wb2", "wb3", "qpw", "wdb", "wks", "wku", "wr1", "wrk", "xlk", "xlt", "xltm", "xltx", "xlsm", "xla", "xlam", "xll", "xld", "xlv", "xlw", "xlc", "xlm", "xlt", "xln"]

Es dauert eine kurze Weile, bis GPT4All die Daten analysiert hat. 

Im zweiten Schritt klicken sie auf den Festplattenstapel rechts neben dem Zahnrad. Folgendes Fenster erscheint:

Hier aktivieren Sie Ihre Daten. Sie können so viele Verzeichnisse, wie sie wünschen eingeben. Allerdings sinkt natürlich die Verarbeitungsgeschwindigkeit. Von nun an können Sie alle Dokumente, mit denen Sie ihr Model verbessern wollen, in dieses Verzeichnis packen und bei jedem Neustart werden diese Dokumente gelesen. 

Ausserdem kommt mit jeder neuen Version von GPT4All einige neue Modelle dazu, die entweder alte Modelle ablösen oder neue Modelle zum Download.