#15 - Künstliche Intelligenz mit Johannes Hoffart

Shownotes

Johannes Hoffart beschäftigt sich als Forscher, Softwareentwickler und Gründer seit knapp 15 Jahren mit dem Thema Künstliche Intelligenz. Aktuell ist Johannes Chief Technology Officer der AI Unit bei SAP. Heute sprechen wir darüber, welche Innovationsleistung OpenAi mit ChatGPT erbracht hat und welche Anwendungsmöglichkeiten daraus für Unternehmen entstehen.

Shownotes

Transkript anzeigen

#15 KI mit Johannes Hoffart

00:00:05: Die Revolution der Interaktion zwischen Mensch und Maschine ist mit ChatGPT jetzt für jeden sichtbar.

00:00:12: Johannes Hoffart beschäftigt sich als Forscher, Softwareentwickler und Gründer seit knapp 15 Jahren mit dem Thema Künstliche Intelligenz. Aktuell ist Johannes Chief Technology Officer der AI Unit bei SAP. Johannes, herzlich willkommen! Alle Welt redet über ChatGPT. Was ist es denn? Und vor allem, was ist das Besondere daran?

00:00:35: Ja, in der Tat, alle reden drüber. Nicht nur die Forscher, die schon die ganze Zeit begeistert sind von den großen Sprachmodellen, die hinten dran stehen, sondern wirklich alle Welt. Also man hat ja gesehen, dass es unglaublich viele Nutzer jetzt schon gewonnen hat. Unglaublich viele, ja, Szenarien, die man damit durchgehen kann. Was ist es eigentlich? Es ist eine Anwendung, die auf großen Sprachmodellen aufbaut. Was sind große Sprachmodelle? Vielleicht erstmal als kleiner Hintergrund dazu. Das sind große KI-Modelle, Machine Learning Modelle, die trainiert wurden, indem sie ganz viel Text sozusagen lesen. Und Lesen im Sinne von, wenn in einem Satz das nächste Wort vorhergesagt werden soll, dieses Wort aus dem Kontext vorhersagen. Das heißt, man kann auch tatsächlich diese Großmodelle auf beliebig viele Daten trainieren, dem ganzen Web, Wikipedia, Bücher usw. Man sagt eigentlich, man versucht nur ein Modell zu generieren, dass das nächste Wort besonders gut vorhersagen kann, gegeben den 10, 15, 20, 100 Wörtern vorher. Und eigentlich steckt fast, ich würde sagen, fast alles von dem, was man an ChatGPT so besonders findet, schon in diesem großen Sprachmodell, das hintendran steckt. Also dass Wörter im Kontext verstanden werden. Jedes Wort ist ja abhängig vom Kontext, kann unterschiedliche Sachen bedeuten. Und diese Bedeutung ist eben für eine Maschine sehr schwer zuzuordnen. Da kommen die großen Sprachmodelle dazu. Und ChatGPT ist jetzt eine Anwendung, die obendrauf gebaut wurde und mit zusätzlichem Lernmaterial noch gefüttert wurde, dass es Code besser versteht, dass es auch Anweisungen besser versteht und noch ein bisschen mehr mit Feedback trainiert wurde, damit man sagt, welche Antworten sind denn besonders gut und wann sollte man vielleicht lieber nicht antworten? Ja, das ist dann das, was man als Chatprogramm sozusagen sieht.

00:02:31: Das heißt, ich kann mir das eigentlich vorstellen wie eine riesige Bibliothek, in die ich unglaublich viel Text / Sprache erstmal reinpumpe und der Software beibringe. Oder bringe ich der Software das bei? Entdeckt die Software das selber? Du sagtest gerade, den Kontext von einzelnen Wörtern, also das Schloss, ja, ist es jetzt das Türschloss, das Haustürschloss, das Autoschloss, die Burg, in der ich gerne wohnen würde. Lernt die Software das selber oder muss ich ihr das beibringen?

00:03:05: Na, das ist ein bisschen die Frage, was man unter Beibringen und Selbstlernen versteht. Aber ich würde in dem Fall sagen, es ist schon so, dass sie sich das selbst beibringt. Also das ist sozusagen das Prinzip, das dahinter steht, das Self Supervision oder das selbstüberwachte Trainieren, dass man im Endeffekt nicht bestimmte Ziele vorgibt. Da bei der KI, sagen wir mal vor den Foundation Models, die großen Sprachmodelle, die trainiert wurden, war es ja eigentlich immer eine spezielle KI für eine einzelne Aufgabe. Du hast ja gesagt, so ein klassisches Beispiel Spam. Ich trainiere meinen eigenen Spamfilter, indem ich sag, diese Mail ist Ham oder Spam. Und dann habe ich ein einzelnes Machine Learning Modell, das für ein einzelnes Problem funktioniert. Das muss ich aber selber trainieren, da muss ich selber Feedback geben, was ist denn jetzt gut und was ist schlecht? Und das muss ich bei Sprachmodellen eben nicht mehr machen. Aber natürlich brauche ich den Text, auf dem das trainiert wurde. Also ich muss irgendwo... Ohne das Web, ohne dass wir jetzt Terabytes, Petabytes an Text hätten oder an unstrukturierten Daten hätten. Mit Bildern hat man ja auch die Multi Model Modelle jetzt gesehen, die mit Text und Bild das zusammenbringen. Wenn man diese Daten nicht hätte, dann könnte man natürlich auch nicht trainieren. Also die digitalen Daten, die sind natürlich eine Grundvoraussetzung dafür, dass man solche Modelle trainieren kann. Aber dann muss man eigentlich als Mensch nicht mehr viel Aufwand treiben. Man muss einfach nur den Text rein füttern und dann lernt das Modell die Bedeutung von Wörtern sozusagen selbst.

00:04:33: Okay, wie kam jetzt im konkreten Fall, Du sagtest jetzt ja mehrfach Sprachmodelle, also, was ist so ein bisschen die Entwicklungsgeschichte auch? Ich glaube der hat ja 2015 oder so angefangen damit. Das ist ja eine wahnsinnig lange Zeit. Hat es so lange gebraucht, das Internet aufzusaugen mit all seinen Texten und Informationen oder was dauert so lange daran und was steckt hinter dem Begriff eines Sprachmodells?

00:04:57: Also Sprachmodelle gibt es eigentlich schon viel, viel länger. Was man eigentlich darunter versteht, ist einfach nur eine statistische Verteilung über Worthäufigkeiten, kann man sagen. Also, wenn ich einen Text sehe, was ist das Sprachmodell dahinter ist einfach nur, wie häufig kommt das eine Wort in dem Text vor oder wie häufig kommen zwei Wörter zusammen im Text vor? Also wie häufig kommt Schloss in unserem Podcast jetzt vor oder wie häufig kommt "ein Schloss an der Tür" als Vier-Wort-Folge sozusagen vor? Und die kann man einmal sozusagen als Häufigkeitsverteilung sehen, andererseits aber auch als sozusagen konditionierte Wahrscheinlichkeit. Ich bin jetzt gar nicht sicher, Conditional Probability... Die deutschen Begrifflichkeiten immer. Dass man sagt gegeben von "das Schloss an der", welches Wort ist das nächste? Das vorherzusagen ist dann sozusagen die Sprachmodelle, die man dann jetzt nutzt, um darauf zu trainieren. Also, und das ist auch wirklich das Ziel der Sprachmodelle. Das gibt es aber schon, wie gesagt, schon vor 2000 gab es das auch schon. Was jetzt sozusagen eigentlich dazu geführt hat, dass wir jetzt so große Modelle haben, ist nicht die neue Idee, dass man Sprache so modellieren kann, sondern da sind die Gamer daran schuld, die die Grafikkarten immer mehr gepusht haben und die Grafikkarten jetzt mittlerweile so leistungsfähig geworden sind, dass KI Methoden die neuronalen Netze, die ja schon auch wieder vor den 2000ern schon entwickelt wurden, 80er 90er schon, dass man plötzlich genug Leistung hatte, um so große Modelle zu trainieren. Also einmal die Hardwareleistung und andererseits auch die verfügbaren Texte in einem Format, das ja leicht lesbar ist, also Webdaten.

00:06:48: Und die Algorithmen hintendran sind natürlich auch noch mal ein wichtiger Kernbereich. Nachdem man gesehen hat, so 2010er, gab es ja dann die Deep Learning Welle. Hauptsächlich erstmal bei Computer Vision, also wie kann ich Objekte erkennen? Das autonome Fahren hat wahrscheinlich auch jeder schon mal drüber gelesen. Aber warum funktioniert das besser? Weil man jetzt mit Rechnern Bilder besser verarbeiten kann und Objekte, also Personen, Begrenzungsschilder besser erkennen kann. Und da wurden eben auch ganz viele Algorithmen entwickelt, die das Lernen effizienter machen. Das heißt, man hat so drei Komponenten, viele Daten, gute Hardware, mit der man die Daten verarbeiten kann und die Algorithmen, die immer besser geworden sind. Und gerade wenn es an den Algorithmus geht, da gab es eben 2017 das Transformer Paper, also das "Attention is all you need" Paper von Google, die dann diese Architektur, die Transformer Architektur, publiziert haben. Und dann haben ganz viele gemerkt, hoppla hier, das ist es nicht unbedingt naheliegend, dass man ein neuronales Netz so modelliert, aber es funktioniert wunderbar gut. Und hat man das dann auf großen, großen Textmengen ausprobiert. Und ich weiß nicht, ob das vielleicht auch schon mal gehört wurde, große Sprachmodelle gibt es auch schon ein bisschen länger. Google verwendet auch in der eigenen Suche schon große Sprachmodelle, BERT, schon seit Jahren, um ein besseres Ranking zu machen. Was jetzt sozusagen nochmal neu dazugekommen ist, ist eben diese "ich gebe nur den Text ein und der generiert mir den Text raus."

00:08:18: Ist das auch die eigentliche, ich will das jetzt nicht schmälern, ChatGPT, aber wenn man Dich so reden hört, könnte man sagen, naja, Sprachmodelle gab es schon. Jetzt natürlich hat sich die Rechnerleistung verändert, Google mit seinem Transformer Modell hatte auch anscheinend einen maßgeblichen Einfluss. Was ist denn die wirkliche echte Innovationsleistung, die ChatGPT nichtsdestotrotz noch vollbracht hat? Also wo macht es wirklich so klick, wo man sagt, wow, da ist vorher einfach niemand drauf gekommen?

00:08:51: Man sucht immer nach dem Heureka-Moment. Ich glaube, das ist tatsächlich in Forschung und Entwicklung nicht unbedingt so üblich. Also auch bei Google. Ich möchte noch mal ganz kurz ausholen. Bei Google am Anfang war ja auch PageRank. Das war das Ding und deswegen ist Google groß geworden. Das ist eine schöne Geschichte. Aber natürlich ist es auch dadurch, dass die Google Gründer Page und Brin einfach auch unglaublich viel Energie investiert haben, um das dann umzusetzen. Und das braucht es halt. Und ich glaube, das ist von OpenAI wirklich der unglaubliche Beitrag, dass man sagt, sie haben so viel Energie verwendet, das nach vorne zu treiben. Weil also der eigentliche Wendepunkt ist nicht ChatGPT, sondern eigentlich GPT-3, das vor Sommer 2020, Frühjahr 2020 veröffentlicht wurde. Und das hat man, wenn man GPT 1, 2, 3 mal anschaut, sozusagen wirklich qualitativ. Wir haben alle im Endeffekt das gleiche gemacht. Ich gehe im Text ein und ich kriege weitere Wörter raus. Aber wie gut es bei GPT eins und zwei funktioniert hat, dann denkt man, ah, das brauche ich vielleicht gar nicht weiter verfolgen. Das gibt mir irgendwelche Wörter zurück, die sehen auch irgendwie sinnvoll aus, aber es hat eigentlich kein Hand und Fuß. Und GPT-3 war dann so, wo du gesagt hast, wow, also wirklich, ich seh Sätze, ganze Absätze, ganze Dokumentlängen mit kohärentem Text, wo man wirklich nicht nachvollziehen kann, ob das jetzt ein Mensch geschrieben hat oder eine Maschine versteht, welchen Kontext ich rein gebe, und zwar auch viel von dem Kontext. Wenn dann bestimmte Nuancen drinstehen, wie "Formuliere diesen Text fröhlicher", "Formuliere diesen Text formaler", dass diese Bedeutung wahrgenommen wird und dann auch im entsprechenden Text wiedergegeben wird. Das war schon was, was glaube ich, wenige so erwartet hatten. Also das sind diese emergenten Phänomene, von denen dann oft auch gesprochen wird, wo man sagt, ist nur ein Sprachmodell. Damit hätte keiner gerechnet, dass das dann irgendwann so gut funktioniert.

00:10:48: Und diese Energie, das weiterzutreiben, das Team aufzustellen, das dann auch natürlich technisch extreme Kompetenz mitbringt, das zu bauen und es Schritt für Schritt weiterzutreiben. Also ich meine, das wäre ohne OpenAI wahrscheinlich nicht passiert. Und ich denke jetzt, wenn man nochmal von ChatGPT... Also der Sprung von GPT-3 auf ChatGPT ist natürlich auch noch mal dadurch groß, dass man das Ganze nicht nur sozusagen als "Ich gebe hier einen Text rein und krieg eine Vervollständigung von dem Text", sondern wirklich im Dialog das einbettet und dadurch auch glaube ich für jeden noch mal der Wow Effekt nochmal viel, viel größer ist, weil man sagt man spricht über das was vorher schon war und sieht dann nochmal viel besser, wie das im Kontext funktioniert. Also ich weiß nicht, ob jetzt viele Programmierer zuhören, aber wenn Programmierer dabei sind, die mal ChatGPT ausprobiert haben und damit mal eine kleine Testanwendung geschrieben haben. Also ich saß wirklich letzten November, Dezember vor meinem Rechner und dachte, das kann überhaupt nicht sein. Also solche, die Anweisung, die ich da reingepackt habe, die würde nicht mal ein Mensch verstehen, weil ich habe das wirklich absichtlich so knapp den Kontext, was ich sozusagen in meinem Programm geändert haben wollte. Also ganz einfaches Beispiel. Schreib mir eine Webanwendung, in der ich irgendwie drei Knöpfe drücken kann und, weiß ich nicht, Tic Tac Toe spielen kann oder sowas und dann über die Anwendung, die ChatGPT generiert, dann sprechen. Nee, mach mal die Farbe anders.

00:12:10: Ich möchte keine Kreuze und Kreise, sondern mach Kreuze und Vierecke. Dieser Sprung nochmal zwischen GPT-3 und ChatGPT kommt auch daher, dass auch noch mal auf viel Code trainiert wurde und dass auch explizit der Code kommentiert wurde. Dass sozusagen wirklich Programmierer sich hingesetzt haben und im Endeffekt die Programmiersprache noch mal in Bedeutung übersetzt haben. Und ich glaube, das könnte eigentlich, da kann man nur mutmaßen, weil das ist natürlich auch nicht alles bekannt, was OpenAI da gemacht hat. Aber dadurch, dass man sozusagen natürliche Sprache, wie man als Mensch Programmiercode beschreiben würde, dass das das zusammenbringt, also Sprache, die Menschen sprechen und Sprachen, die Maschinen verstehen. Dadurch hat die Maschine selber auch nochmal mehr Struktur Verständnis bekommen, weil natürlich Programme auch extrem strukturiert ablaufen und nach einer gewissen Sequenz ablaufen. Und dadurch also ist auch so die Hypothese, dass dadurch das Sprachverstehen auch nochmal viel besser geworden ist und gesagt, okay, man kann viel besser strukturiert damit sprechen. Man kann ja auch ChatGTP jetzt irgendwie Listen und Rezepte rausgeben lassen. Es sind immer auch strukturierte Elemente dabei und das ist wirklich, also, es ist immer noch faszinierend, wenn man damit arbeitet. Sorry, ich red die ganze Zeit, weil ich so begeistert davon bin, immernoch. (lacht)

00:13:34: Du redest Dich in Begeisterung. (lacht)

00:13:36: Ja.

00:13:36: Könnte man denn sagen, wenn man es stark vereinfacht, dass eigentlich vielleicht ChatGPT im Speziellen, aber auch vielleicht eine solche KI im Allgemeinen. Also, erstmal brauche ich ja viele Daten, also ich brauche ja irgendwie Input. Das denkt sich ja nicht eine Maschine aus, was die dir zurückgibt. Dann, zweiter Bestandteil, brauche ich irgendwie eine Art der Interaktion. Und das ist ja, wenn ich Dich richtig verstehe, sagst Du, das ist schon ein Highlight bei ChatGPT, weil das so prägnant und kontextbezogen ist. Also ich kann auf so ein kleines Level runter gehen, also so eine Art der Genauigkeit, die vielleicht sonst nur Menschen haben. Das wäre ja so ein zweiter Bestandteil und ein dritter wäre in meinem Verständnis jetzt, naja, offensichtlich muss ja dann auch ein Lernprozess einsetzen, sonst wäre es nur künstlich, aber keine Intelligenz. Kann man das so sagen? Also kann man ChatGPT wirklich so in diese drei Bestandteile zerlegen?

00:14:32: Das ist eine gute Frage. Der Lernprozess in dem Fall, also das ist das was, was jetzt auch OpenAI gesagt hat, was bei ChatGPT nochmal dazukommt, das ist Reinforcement Learning. Also das Feedback, das von anderen Nutzern, die sozusagen das System als Chatsystem genutzt haben und gesagt haben, diese Antwort ist gut, diese Antwort ist schlecht, dieses Feedback, das reingeflossen ist, daraus wird dann nochmal was abgeleitet, was das System auch nochmal steuert. Und das ist, wie vieles in dem Bereich Foundation Models, große Basismodelle, Sprachmodelle nicht so hundertprozentig verstanden, wie das alles zusammenspielt. Aber ich wäre trotzdem vorsichtig zu sagen, dass die Systeme lernen. Ich meine, jetzt hatten wir ja vor einer Woche nochmal den großen Launch mit Bing und dem Chat sozusagen, der ja ein bisschen an ChatGPT natürlich angelehnt ist, aber im Gegensatz zu ChatGPT eben die Quellen als Referenzen angibt. Das war ja so ein bisschen das große Manko bei ChatGPT, dass man nicht wusste, wo das herkommt. Aber selbst da sieht man, das lernt nicht von selbst. Das fängt immer wieder neu an und wenn irgendwas richtig schiefgeht, dann sitzen immer noch die Nutzer da und schreiben eine Mail an Microsoft und sagen, hier, guck mal, was habt ihr da für furchtbare Sachen gemacht? Und dann einen Tag später ist es weg. Nicht, weil das System selber das gelernt hat, dass es da was falsch gesagt hat, sondern weil ein Mensch hintendran es immer noch kontrolliert. Und ich glaube, da muss man schon auch ganz, ganz gut aufpassen, dass man nicht wie einige Software Engineers bei Google mal so Personifizierungen in Chatbots reingepackt haben. Oh, es hat ein Bewusstsein! Das ist nicht der Fall.

00:16:21: Okay, so intelligent ohne Menschen ist auch eine künstliche Intelligenz demnach nicht. Kann man das so sagen? Das heißt, es passieren nicht irgendwelche magischen Prozesse, sondern neben diesen drei Bestandteilen, die ich eben genannt habe, ist nicht nur der User gibt was rein, um damit die Maschinen zu füttern, sondern er gibt dann auch noch ein Feedback, damit überhaupt das Lernen der Maschine der künstlichen Intelligenz angetreten werden kann.

00:16:45: Ganz genau. Ganz genau. Also, auch bei ChatGPT vielleicht noch ganz kurz, ist eben nicht nur die Vorhersage von dem nächsten Wort als Training drin, sondern es ist auch nochmal so ein Instruction Tuning drin. Was das heißt, ist im Endeffekt, dass ich beliebige Aufgaben wie "Klassifiziere mir mal diese Support Tickets in wichtig oder nicht so wichtig" auch als Text ausformuliert drin ist und sozusagen auch diese Instruktionen dann nochmal als Trainingsdaten reingefüttert wurden.

00:17:14: Kommen wir vielleicht mal auf eine Anwendungsebene. Jetzt kann man ja sagen, da freuen sich die Copywriter da drüber oder auch der eine oder andere Entwickler, weil er seine Funktion nicht mehr selber schreiben muss, sondern ChatGPT das übernehmen kann. Aber was sagst Du in so einem unternehmerischen Kontext? Wo siehst du da Anwendungspunkte von einer solchen Technologie?

00:17:36: Also ich würde fast sagen, dass das ähnlich wie bei KI selbst eigentlich in fast alle Bereiche reingeht. Also, das ist ja auch in Anführungsstrichen nichts anderes als KI, was man bisher darunter verstanden hat. Und der große Paradigmenwechsel bei KI im Vergleich zu Programmieren ist, dass man sozusagen mit Beispielen aus Beispielen lernt und nicht mehr die Regeln sozusagen selbst reinschreibt. Und ich meine, da Unternehmen natürlich mittlerweile immer mehr digitalisiert werden, spielt es natürlich in jedem einzelnen Digitalisierungsschritt eine Rolle, ob ich diesen Schritt jetzt sozusagen als Entwickler in einem Geschäftsprozess ablege und mit einer Datenbank hinterlege und sage okay, ich programmiere das sozusagen alles zusammen, wie das dann ablaufen soll, oder aber, dass ich das mit Beispielen fütter und trainiere. Und deswegen also eine ganz, ganz einfache Antwort. Es wird überall natürlich einen Effekt haben. Aber ich denke, das Spannende an ChatGPT und sagen wir mal den großen Modellen, also das, was hinter ChatGPT steht, GPT-3 und co, die sind natürlich vielfältiger einsetzbar. Das heißt, ich muss nicht mehr für jede Aufgabe, die ich im Unternehmen habe, das explizit trainieren. Und deswegen kann ich natürlich noch viel schneller gewisse Prozesse automatisieren. Also, so Low Code / No Code Geschichten, wo man sagt, ja, ich beschreibe nur noch, was ich automatisieren will, und das System schreibt mir dann sozusagen die Automatisierungsroutinen. Informationssuche ist natürlich auch in jedem Unternehmen immer ein großes Problem. Wo finde ich jetzt meine Hilfe Dokumente, um bestimmte Produkte zu benutzen? Also, Lernen an sich ist glaube ich auch etwas, was... ich meine, man muss ja auch heutzutage in jedem Unternehmen sich einfach ständig weiterbilden, weil sich alles ständig ändert.

00:19:35: Und ich denke, das sieht man an ChatGPT glaube ich auch ganz gut, dass man damit viel schneller gewisse Bereiche neu erlernen kann. Also gerade wenn man wieder an einen Programmierer denkt. Ein neues Framework lernen, eine neue Programmiersprache lernen. Das ist nochmal sehr, sehr aufwendig, weil man sich erst die Sachen zusammensuchen muss. Mit ChatGPT, ich frag einfach nur, es schreibt mir Beispiele. Ich kann über die Beispiele reden. Ich kann fragen, warum ist das so und so? Ich krieg Antworten. Also das Lernen an sich wird auch nochmal ganz neu möglich. Und so als ein, sagen wir mal, auch noch großer Bestandteil ist natürlich auch, dass ich jetzt mit Maschinen nochmal anders interagieren kann. Also, ich kann eben mit natürlicher Sprache auf viel, viel weitere Daten zugreifen. Ich kann mir die zusammenfassen lassen, ich kann mir Texte generieren lassen aus strukturierten Daten. Ich gebe nur ein paar Bulletpoints an oder ich habe irgendwie eine Datenbank, in der Daten drinstehen und sage, beschreibe mal die Daten, die in der Datenbank stehen. Das funktioniert auch alles schon einigermaßen gut. Oder die irgendeinen Service ansprechen. Also, es gibt viele sozusagen High Level Möglichkeiten. Im Detail muss man sich das noch genauer anschauen. Ich glaube, das weiß noch keiner so ganz genau, wo es denn jetzt am meisten für die Unternehmen jetzt relevant ist.

00:20:58: Ja, Du hast ja eben gesagt, Lernen könnte ein großer Bereich sein. Oder auch, wie trage ich überhaupt Informationen zusammen? Ich vergleich das jetzt mal mit meinem Blog. Wenn jetzt jemand in meinen Blog kommt und den liest, dann lernt er. Da habe ich ja nichts dagegen, dafür mach ich das. Wenn aber jemand kommt und sagt, das hat er toll geschrieben, der Diehl, das übernehme ich mal. Da würde ich sagen, naja, da haben wir ein kleines Copyright Thema. Aber wie ist das denn? Also, wenn ich jetzt nach ChatGPT gehe, mir irgendeinen Text, mir irgendeine Programmzeile... Ich meine, wenn ich irgendwo ein Freelancer bin, der irgendwo ein bisschen was für sich macht, ist es ja das Eine. Aber, wenn ich als Unternehmen ernsthaft auf solche Ressourcen zurückgreife, wie ist es denn? Wem gehört das? Also gehört das eigentlich ChatGPT?

00:21:40: Ja, da sind wir, glaube ich, noch nicht fertig als Gesellschaft und politische Gemeinschaft sozusagen, mit den neuen technischen Gegebenheiten umzugehen. Also da gibt es jetzt einige, ich würde sagen, einige Unternehmen, die da versuchen, schon mal Standards zu setzen. Also, das war ja schon vorher im Sommer mit den generativen Bildmodellen, dass ich aus Texten Bilder generieren kann und wer hat da dann die Rechte? Das ist natürlich auch gerade da glaube ich noch einleuchtender gewesen, zu sagen, hier, guck mal, das Bild, mach das in dem Stil von Maler oder Designer XYZ. Und dann sah das Bild so aus. Ich meine, das ist natürlich dann schon sehr klar, dass dann irgendwie eine Copyrightfrage mit ins Spiel kommen muss. Und ich glaube, einige sind da dann auch vorangegangen und haben gesagt, ja, wir beziehen die Künstler da mit ein und beteiligen sie sozusagen an den Gewinnen, die dadurch erwirtschaftet werden. Aber das ist natürlich in der Breite noch nicht angekommen und deswegen ist das auch im Unternehmenskontext, glaube ich, da wird es sicherlich kein Unternehmen geben, das sagt, oh ja, alles kein Problem, nutzt einfach ChatGPT und baut damit den Code und alles. Da gibt es ja in den USA jetzt auch Gerichtsverfahren dazu. Wem gehört das eigentlich? Darf Microsoft das eigentlich auf GitHub trainieren usw.

00:23:01: Also da muss man schon auch vorsichtig sein. Aber ich denke, vielleicht kann man das ein bisschen vergleichen wie die Anfänge von... Ich erinnere mich auch immer gern so an YouTube am Anfang zurück. Wenn man am Anfang gesehen hat, da war in YouTube auch so viel Content drin, der copyrighted war und da hat man auch... Also ich habe mir damals ganz am Anfang 2004, 2005 gefragt, das kann sich ja nicht durchsetzen. Ich meine, das ist ja alles illegal hier, das ist ja schön, dass es das gibt, aber das funktioniert ja nicht. Und mittlerweile ist das ja alles kein Problem mehr. Die KI dran, also kein Problem, ist übertrieben, aber die KI erkennt, welches Musikstück kommt in dem Video vor. Der Rechteverwerter wird automatisch benachrichtigt, Videos werden irgendwo rausgeschnitten, es wird automatisch erkannt. Die Rechteinhaber stellen sogar selber ihre Videos zur Verfügung, werden entsprechend beteiligt. Und ich glaube, eine ähnliche Entwicklung muss man da eben auch durchmachen. Ich hoffe natürlich nicht, dass wir jetzt ähnlich zentralistisch das Ganze am Ende bekommen, wie wir das jetzt bei den großen Medienplattformen im Netz sehen. Dass sozusagen einige wenige da die Regeln vorgeben und die Gesellschaft sozusagen nebendran steht und zuschaut und sagt, ja, haben wir ein bisschen zu lange gewartet. Das wäre schade, wenn das passiert.

00:24:16: Ja, Gesellschaft, gutes Stichwort und vielleicht ein bisschen philosophische Frage. Aber ist ChatGPT und solche Services nicht eine Einladung, noch ein bisschen denkfauler zu werden? Oder muss ich noch mehr denken, um in einen guten Dialog zu treten?

00:24:34: Ich glaube fast... Ich meine, wenn man sich die vergangenen zehn, 20 Jahre anschaut mit der Digitalisierung, da war ja am Anfang auch das große Problem in Anführungsstrichen, dass alle Arbeitsplätze beeinträchtigt werden. Und man braucht viel, viel weniger Zeit, um gewisse Aufgaben zu erledigen. Aber schlussendlich ist ja vielleicht eher so passiert, dass man noch sozusagen als Einzelperson mehr machen kann. Man wird sozusagen unterstützt von so vielen Dingen. Also jetzt kann ich hier im Podcast, ich muss nicht mehr vor Ort anreisen, wir müssen nicht mehr sprechen, wir können das ganz einfach über eine Webanwendung machen. Viel weniger Aufwand für uns. Aber das heißt ja nicht, dass wir dann weniger machen, sondern ich glaube, das heißt eher, dass man vielleicht sogar Gefahr läuft, noch mehr sich aufzuhalsen und zu schauen, was kann man denn noch alles machen. Also, da muss man schon, glaube ich, gut, gut aufpassen. Also ich glaube nicht, dass man dadurch irgendwie eine große Entlastung erfährt. Also gut, kommt natürlich auf den Typ an. Ich spreche jetzt vielleicht auch ein bisschen aus meiner Perspektive. (lacht)

00:25:43: Du bist ja Forscher auch. Dich interessiert dieses Thema. (lacht)

00:25:45: Richtig, richtig, richtig.

00:25:46: Da ist ja jeder neue Release und jede Veröffentlichung ein Grund, noch mehr darüber nachzudenken.

00:25:51: Das stimmt.

00:25:52: Gut. Vielleicht zum Abschluss nochmal. Wir hatten ja eben über unternehmerische Anwendungsfälle, also grobe Gebiete gesprochen. Aber was mache ich denn jetzt so als Unternehmen, wenn ich sage, hm, naja, okay, den Legal Guide, den frag ich besser nicht, weil der sagt ohnehin im Zweifel nein, können wir nicht nutzen. Aber was mache ich denn ganz konkret? Also, hast Du wirklich so ganz konkrete praktische Anwendungsfälle, wo man sagen kann, ab morgen jeder Mittelständler in Deutschland können XY machen?

00:26:21: Also, ich denke, da kann man mit den Modellen hintendran, hinter ChatGPT, die sind ja, beispielsweise, nicht nur von OpenAI verfügbar, die sind ja auch Open Source verfügbar, die sind von anderen kommerziellen Anbietern verfügbar. Und da würde ich auf jeden Fall sagen, dass man die auch sofort nutzen kann. Also jeder, der beispielsweise die Azure Cloud verwendet, kann jetzt auch OpenAI die GPT-3 Services verwenden. Zwar nicht ChatGPT, aber das Sprachverstehen. Und dann muss man einfach nur seine eigenen Datenschutzregeln anschauen und aufpassen, dass man da die Datenschutzgrundverordnung ordentlich einhält. Aber dann kann man als Unternehmen ja selber entscheiden, was man mit seinen internen Dokumenten macht, ob einem das IP Netz wichtig genug ist, ob man das in die Cloud schickt oder ob der Wert überwiegt, den man sich davon erhofft, wenn man das in so ein Modell reinpackt. Und ich denke, da gibt es unglaublich viele naheliegende Anwendungen, wie ich lass mir irgendwie einen längeren Report zusammenfassen. Oder - das ist das Gegenbeispiel - ich lasse mir aus ein paar Stichpunkten eine Mail schreiben, die ich dann nur noch gegenlesen muss, anstatt dass ich mir sozusagen die Mühe mach, selbst zu formulieren. Also ich meine, die sind relativ offensichtlich und die muss man eben nicht über ChatGPT machen, sondern kann eben auch das selbst steuern über Dienste, die schon wie jeder andere Web Service und KI Service sozusagen verfügbar sind.

00:27:47: Ja, sehr schön. Dann möchte ich mal versuchen, ein kurzes Schleifchen dran zu machen und du ergänzt, sofern ich was wichtiges vergessen habe. Also die große Innovationsleistung von ChatGPT ist eigentlich im Kern, diese Energie aufzubringen, das über jetzt in Summe sieben Jahre voranzutreiben, basiert im Kern auf schon bekannten Sprachmodellen, natürlich einer sehr reifen Entwicklung der entsprechenden Hardware, Algorithmen und einer ganzen Menge Daten. Das ist auch in meinem Verständnis Daten, also dieser ganze Input, der erste wichtige Baustein, damit sowas überhaupt funktionieren kann. Dann brauche ich als Nutzer irgendeine Form der Interaktion. Die hat ChatGPT sehr, sehr schön gelöst. Ganz wichtig, das habe ich gelernt heute. Das war vorher nicht so wichtig. Also das hat noch nicht so richtig Klick gemacht bei mir, dass es natürlich das Feedback des Nutzers braucht als drittes, damit die Maschine überhaupt anfangen kann zu lernen. Das ist auch eine kleine Beruhigung für alle die, die meinen, die Maschinen und die künstlichen Intelligenzen würden die Welt übernehmen. Also ohne Feedback passiert auch kein Lernen auf der Maschinenseite. Und vier, habe ich mir jetzt mal so notiert, große Anwendungsgebiete für Unternehmen sind Prozessautomation, so Low Code / No Code heißt ja auch nichts weiter als "Ich gehe mal in so eine Anwendung und lass mir mal vielleicht ein einfaches Script zurückgeben, was ich vielleicht in meiner Low / No Code Umgebung irgendwie auch mal einsetzen kann." Ich kann natürlich eine Menge Informationssuche und Lernen dadurch noch flankieren, unterstützen und vielleicht sogar auch mit anderen Maschinen über künstliche Intelligenzen in Interaktion treten. Habe ich was vergessen an dem schönen Schleifchen?

00:29:30: Nichts vergessen, aber ich glaube, ich würde würde die Leistung von OpenAI nicht ganz so als nur Energieleistung sehen. Es ist vielleicht ein bisschen sehr extrem rübergekommen von dem, was ich gerade gesagt habe. Ich meine die Generative Pre-trained Transformer Modelle, also dass man sozusagen Wortvorhersagen aus dem Kontext macht. Die sind natürlich originär auch von OpenAI. Und der Transformer war vorher schon da, aber OpenAI hat natürlich schon extrem viel Innovation und auch wirklich signifikante Innovation in dem Bereich Sprachmodelle vorangetrieben, also auch Instruction Tuning. Dass ist das, was ich vorhin gesagt habe mit dem Code und Code auf Sprache. Da würde ich schon sagen, dass da auch sehr sehr viel wirklich starke Innovation drin ist. Aber was ich ein bisschen vermeiden wollte, ist so dieser Eindruck, ja, da ist dann irgendwann mal einer aufgewacht und hat gesagt, jetzt baue ich mal so ein ChatGPT und sozusagen hat das dann alles im stillen Kämmerlein entworfen, was ja manchmal in den großen Medien so ein bisschen so dargestellt wird. Also deswegen, da ist auch schon extrem viel Innovationsleistung von OpenAI auch passiert. Das auf jeden Fall. Ja, aber ansonsten, ja.

00:30:37: Das ist ja bei vielen Innovationen so, dass es gar nicht unbedingt die technische Erfindung von irgendwas ist, sondern vielleicht einfach nur im richtigen Moment mit der richtigen Ansprache die richtigen Dinge auch zusammenzuführen. Und über den Erfolg der Innovation entscheidet dann der Markt und der gibt ChatGPT, egal wie groß oder klein wir das Reden unbedingt Recht. Weil das ist, wenn man mal so in die letzten Jahre schaut, schon wirklich bahnbrechend, kann man ja fast sagen, was es alles auch an öffentlicher Aufmerksamkeit erfährt. Und ich habe schon lange kein Unternehmen mehr erlebt, wo ich mir ernsthaft vorstellen kann, dass sich selbst Unternehmen wie Google ernsthaft Gedanken machen, wie sie darauf antworten.

00:31:22: Das stimmt, das stimmt.

00:31:24: Das ist dann vielleicht aber auch Thema - wer weiß, was Google da noch alles sich einfallen lässt - für den nächsten Podcast. Vielen Dank, Johannes.

00:31:33: Ja, danke auch.

00:31:35: Bis bald.

00:31:36: Bis bald.

Neuer Kommentar

Dein Name oder Pseudonym (wird öffentlich angezeigt)
Mindestens 10 Zeichen
Durch das Abschicken des Formulars stimmst du zu, dass der Wert unter "Name oder Pseudonym" gespeichert wird und öffentlich angezeigt werden kann. Wir speichern keine IP-Adressen oder andere personenbezogene Daten. Die Nutzung deines echten Namens ist freiwillig.