Zum Hauptinhalt springenAWS Startups

Der Natur den Vortritt lassen: Wie Sakana AI die Modellbildung verÀndert

Wie war dieser Inhalt?

Die rasante Entwicklung im Bereich der generativen kĂŒnstlichen Intelligenz (KI) hat zu einem astronomischen Tempo der VerĂ€nderungen gefĂŒhrt. Unternehmen konzentrieren sich nun darauf, immer leistungsfĂ€higere Modelle zum Leben zu erwecken. Jeden Tag entsteht eine große Anzahl neuer und verbesserter großer Sprachmodelle (large language models, LLMs). Das bewĂ€hrte Transformer-Modell ist das HerzstĂŒck des Booms der generativen KI und ermöglicht es GrĂŒndern, neue LLMs schnell zu skalieren und zu veröffentlichen.

Diese Upgrades sind jedoch oft mit Kosten verbunden, da sie mit jeder neuen Version mehr Rechenleistung und Ressourcen erfordern. Ältere LLM-Versionen können unterdessen schnell von grĂ¶ĂŸeren, rechenintensiven Modellen in den Schatten gestellt werden. Angesichts der weltweiten GPU-Knappheit, die der praktischen Skalierung des Modelltrainings Grenzen setzte, waren die MitbegrĂŒnder David Ha und Llion Jones neugierig, einen effizienteren Weg zu finden, um die Grenzen der KI zu erweitern. Sie begaben sich auf eine Forschungsreise, um kreative Techniken fĂŒr die Entwicklung von Basismodellen (FM) zu erforschen, die von einer anderen Leistungsquelle inspiriert sind – der Kraft der Natur.

Ihr in Tokio ansĂ€ssiges Startup Sakana AI steht nun an der Spitze eines neuen Trends beim KI-Modelltraining, indem es hochmoderne LLMs entwickelt, die aus bereits existierenden Modellen hervorgehen. Seit der GrĂŒndung des Unternehmens im Jahr 2023 bahnt sich ihre Forschung bereits ihren Weg durch die Maximierung von Ressourcen, die oft ĂŒbersehen werden. Mithilfe von uralten Ideen wie der Evolution und der natĂŒrlichen Auslese macht das Unternehmen SprĂŒnge in Richtung einer Zukunft, in der FMs automatisch die stĂ€rksten Eigenschaften ihrer Vorfahren erben. Die Vision? Eine Trainingsmethode, bei der sich die Modelle stĂ€ndig weiterentwickeln und an verĂ€nderte Umgebungen anpassen.

Die neuen Generationen der KI nutzen

Ganz im Sinne des Unternehmertums wartet das Startup nicht einfach nur auf die nĂ€chste VerĂ€nderung in der generativen KI – es macht sich das Unbekannte zu eigen, um das NĂ€chste zu finden. Jones, Chief Technology Officer bei Sakana AI, erklĂ€rt, warum sie ihre Positionen bei großen Technologieunternehmen aufgegeben haben, um Sakana AI zu grĂŒnden: „David und ich hatten nicht die Möglichkeit, die langfristige spekulative Forschung zu betreiben, die wir betreiben wollten, also wussten wir, dass wir uns selbstĂ€ndig machen mussten. Die MitbegrĂŒnder erkannten historische Muster in der Technologieentwicklung und sahen darin eine Chance, sinnvolle Entdeckungen zu machen.  

Jones sagt dazu: „Ich denke, dass die KI-Forschung Phasen der Erforschung und Nutzung durchlĂ€uft. Man testet verschiedene AnsĂ€tze, bis man etwas findet, das gut funktioniert, und dann konzentriert man sich darauf, diese Technologie zu nutzen. Es gibt zwar einen großen Hype darum, wie das Transformer-Modell die generative KI trainiert, aber das bedeutet, dass wir nicht viel darĂŒber hinaus erforschen."

Das Transformer-Modell war im Jahr 2017 ein Durchbruch in der Deep Learning-Architektur und hat seitdem die Welt im Sturm erobert. GegenĂŒber den VorgĂ€ngermodellen kann das Transformer-Modell auf viel grĂ¶ĂŸeren DatensĂ€tzen trainiert werden, fĂŒr eine Vielzahl von Aufgaben verwendet werden und ein genaueres VerstĂ€ndnis der Texte haben, die sie lesen und schreiben. Allerdings geht mit der grĂ¶ĂŸeren Skalierbarkeit auch ein höherer Rechenbedarf einher, sodass die Hardwarehersteller nicht in der Lage waren, KI-Chips schnell genug zu entwickeln, um die Nachfrage zu befriedigen.

Sakana AI erforscht alternative, nachhaltigere Trainingsmethoden fĂŒr Modelle. Takuya Akiba, Research Scientist bei Sakana AI, erklĂ€rt: "Beim Modelltraining nĂ€hern sich alle den gleichen Zielen an. Wir sehen daher keine großen Unterschiede bei den Ergebnissen. Bei Sakana AI schaffen wir ein neues, von der Natur inspiriertes Paradigma. Dadurch können wir neue Anwendungen finden, die durch einfache Skalierung nicht möglich wĂ€ren.“

Die Weisheit der Natur nutzen

Benannt nach dem japanischen Wort fĂŒr Fisch, spielt ‚Sakana‘ auf die von der Natur inspirierten Techniken und den evolutionĂ€ren Einfluss an. Auch das Logo steht fĂŒr ihre bahnbrechenden Methoden. Es zeigt einen Fischschwarm, der in eine Richtung schwimmt, wĂ€hrend ein roter Fisch trotzig in die andere Richtung schwimmt. Die Grafik fĂ€ngt auch die Idee der kollektiven Intelligenz ein, die ihr Denken inspiriert – nĂ€mlich die Vorstellung, dass kleinere Modelle mit weniger Informationen und Ressourcen effizienter interagieren können als große, dichte Modelle, die viele Informationen weitergeben.

Die Technologie ist an einem Wendepunkt angelangt, und Sakana AI stellt die Idee der evolutionĂ€ren Berechnung bei FMs auf die Probe. Die etablierte Technik zum Trainieren und Optimieren von Modellen ist als Gradientenabstieg bekannt – aber wie das Transformer-Modell ist dies mit hohen Rechenkosten verbunden. Es wĂ€re jedoch falsch anzunehmen, dass die Ressourceneffizienz lediglich eine Notwendigkeit ist, um auf dem Weg zum Startup voranzukommen. Das Sakana AI-Team sieht darin einen strategischen Vorteil, der es ihnen ermöglicht, ĂŒber den Tellerrand hinauszuschauen, die verfĂŒgbaren Ressourcen zu maximieren und Innovationen zu fördern. Wie Jones sagt: „Ich denke, dass diese EinschrĂ€nkung dazu fĂŒhrt, dass wir noch interessantere Dinge entwickeln können.

"Unsere Philosophie lautet ‚Das Lernen gewinnt immer‘. Und um Dinge zu lernen, kann man nicht einfach den beliebtesten Algorithmus verwenden. Man muss verschiedene Techniken wie die evolutionĂ€re Berechnung verwenden, um diese RĂ€ume zu durchsuchen“, fĂŒgt er hinzu. Mit strategischer technischer UnterstĂŒtzung von AWS hat Sakana AI seither Ideen aus der Natur in den Technologiebereich gepflanzt und sieht bereits die FrĂŒchte seiner Arbeit.

Wellen schlagen mit der evolutionĂ€ren ModellzusammenfĂŒhrung

Ein entscheidender Durchbruch ist der neuartige Ansatz von Sakana AI zur ZusammenfĂŒhrung von Modellen. Das Team hat festgestellt, dass aktuelle Modelle einen enormen Wert haben, aber Hunderttausende von ihnen ungenutzt bleiben oder verworfen werden, wenn sie von neuen Versionen abgelöst werden. „Es gibt bereits einen sehr großen Ozean einzigartiger, quelloffener LLMs“, sagt Akiba.

Durch die ZusammenfĂŒhrung verschiedener Modelle, anstatt sie von Grund auf neu zu trainieren, können sie die besten Eigenschaften jedes Modells nutzen, um ein neues, leistungsfĂ€higeres zu erstellen. Die Verschmelzung von Modellen ist an sich nichts Neues - andere haben mit der Kunst des „Hackens“ von Modellen experimentiert, um spezialisierte LLMs zu erstellen – aber neu ist, dass Sakana AI einen von der Natur inspirierten Algorithmus anwendet, um den Prozess zu automatisieren.

Denken Sie nur an den Prozess der natĂŒrlichen Selektion. Im Laufe der Zeit haben sich die Arten so entwickelt, dass sie Gene weitergeben, die ihnen helfen, sich anzupassen und in ihrer Umgebung zu gedeihen. Merkmale, die das Überleben der Arten bedrohen, werden schließlich ausgerottet. Ebenso können die evolutionĂ€ren Algorithmen von Sakana AI die optimalen Kombinationen verschiedener Teile von FMs finden, um neue FMs zu erzeugen, die von Natur aus so ausgewĂ€hlt sind, dass sie in einer bestimmten Anwendung gut funktionieren. Das neue Modell erbt die erfolgreichen Eigenschaften der vorherigen Modelle auf der Grundlage der Angaben des Benutzers. Das ist weit entfernt von einem Frankenstein-Ă€hnlichen Ansatz, bei dem verschiedene Modellelemente zusammengefĂŒgt werden.

Bei frĂŒheren Techniken zur ZusammenfĂŒhrung von Modellen war man auf menschliche Erfahrung, Fachwissen und Intuition angewiesen – und all das hat seine Grenzen. „Durch die Entwicklung verschiedener Möglichkeiten, die Algorithmen zusammenzufĂŒhren, erhalten wir ein besseres Modell, als ein Mensch von Hand entwerfen könnte“, erklĂ€rt Llion. "Jedes Mal, wenn man einen Computer dazu bringen kann, eine Reihe von Lösungen fĂŒr einen zu durchsuchen, hat man gewonnen. Das ist besser als ein Mensch, der es manuell versucht, denn ein Computer ist schneller, probiert mehr Dinge aus als Sie und hat auch mehr Geduld als Sie."

Nur die stĂ€rksten FMs ĂŒberleben

Da die Vielfalt offener Modelle und generativer KI-Aufgaben weiter zunimmt, wird der systematischere Ansatz von Sakana AI fĂŒr die ZusammenfĂŒhrung von Modellen immer wichtiger werden. Wie Akiba sagt: „Es gibt fast unendlich viele Möglichkeiten, verschiedene Modelle zu kombinieren - daher brauchen wir diese heuristischen Optimierungsmodelle.“  In ihren Experimenten ließ Sakana AI den Evolutionsprozess einige hundert Generationen lang ablaufen, bis die Modelle mit der höchsten Punktzahl ĂŒberlebten und die nĂ€chste Generation neu bevölkerten.

Es hat sich bereits bewĂ€hrt, dass der Ansatz der EvolutionĂ€ren ModellzusammenfĂŒhrung FMs auf oft unintuitive, aber höchst effektive Weise weiterentwickelt. So gibt es in Japan zwar eine FĂŒlle von Open-Source-Modellen, aber keines von ihnen konnte bisher mit Mathematik umgehen, weil es keinen Datensatz fĂŒr japanische Mathematik gibt. Anstatt bei Null anzufangen und ein neues Modell zu trainieren, fĂŒgte Sakana AI ein Modell mit japanischen Sprachkenntnissen mit einem englischen Modell zusammen, das gut in Mathematik ist, aber kein Japanisch spricht.

Das Endergebnis war ein hochmodernes LLM, das sowohl ĂŒber ein verbessertes japanisches Denkvermögen als auch ĂŒber starke mathematische FĂ€higkeiten verfĂŒgt - und in beiden Bereichen hat es bei Benchmarks außergewöhnlich gut abgeschnitten. Diese Modelle manuell zu kombinieren, wĂ€re unglaublich schwierig gewesen, vor allem wenn es um so unterschiedliche Bereiche geht. Mit der Automatisierung des Prozesses kann das Startup bestehende FMs schnell umwandeln und ihre einzigartigen QualitĂ€ten in verschiedene Kulturen einbringen.

Sakana AI fand heraus, dass evolutionĂ€re Algorithmen nicht nur Text-LLMs unterstĂŒtzen, denn sie haben LLMs auch erfolgreich mit japanischen Bildsprachmodellen zusammengefĂŒhrt. Das daraus resultierende Modell verbesserte die Genauigkeit bei bildbezogenen Fragen und war sogar in der Lage, Nuancen und kulturspezifisches Wissen ĂŒber Japan zu lernen. Auch die Anwendung der gleichen Methode auf verschiedene Diffusionsmodelle zur Bilderzeugung hat vielversprechende Ergebnisse gebracht.

Die FĂ€higkeit, sich anzupassen und zu lernen

Neue Wege in der generativen KI zu beschreiten, erfordert spezielles Fachwissen in Kombination mit einer robusten technischen Grundlage, die aus flexiblen und kostengĂŒnstigen Lösungen besteht. Diese Lösungen stellt AWS Sakana AI zur VerfĂŒgung, zusĂ€tzlich zu strategischer Beratung und Krediten ĂŒber das AWS Activate-Programm. Durch den Zugang zu Finanzmitteln konnten sie mit ihrem von der Natur inspirierten Ansatz in der AWS-Cloud experimentieren, ohne dass Vorlaufkosten anfielen. Die persönliche technische UnterstĂŒtzung durch das AWS Startups-Team hat es ihnen außerdem ermöglicht, schnell Fortschritte zu machen und Ergebnisse zu veröffentlichen.

Die Entscheidung fĂŒr die richtigen Amazon-EC2-Instances ist nur eine der Möglichkeiten, wie sie ihre Forschung vorantreiben - das Mieten von Instanzen mit On-Demand- oder KapazitĂ€tsblöcken bedeutet, dass sie agil bleiben und jederzeit die besten Instanzen auswĂ€hlen können. Dieser Ansatz fĂŒr die Rechenleistung hat auch zu geringeren Kosten und einem viel kleineren Speicherbedarf beigetragen, als er fĂŒr Gradientenabstiegsmethoden erforderlich gewesen wĂ€re. Akiba kommentierte: „AWS versteht unseren Workload und das, was wir zu erreichen versuchen, sehr gut. Sie haben uns geholfen, Herausforderungen wie KapazitĂ€tsprobleme schnell zu ĂŒberwinden.“

Von ihrem Ehrgeiz und ihrer Intelligenz inspiriert, hat AWS Sakana AI vom ersten Tag an unterstĂŒtzt. Hierzu Yoshitaka Haribara, Solution Architect bei AWS: „Es ist ein VergnĂŒgen, mit einem so talentierten Team zusammenzuarbeiten, das an der Spitze seines Spiels steht. Wir sind begeistert von den aufregenden Ergebnissen ihrer Forschung und hoffen, dass AWS ihre BemĂŒhungen weiterhin unterstĂŒtzen kann, indem wir Ressourcen, Fachwissen und kreatives Denken anbieten.“

Akiba betonte, wie die Partnerschaft und die Services von AWS es dem Unternehmen ermöglichten, sofort loszulegen: „Wir sind ein recht kleines Team, daher hatten wir keinen Plattform-Ingenieur, um einen Cluster einzurichten. Die Nutzung der AWS-Dienste ist wirklich einfach und hat uns die Erforschung unserer Forschung erleichtert.“

Erkundung neuer KI-Grenzen

Im Bereich der generativen KI herrscht ein harter Wettbewerb, und die Forschung von Sakana AI verspricht, den Fortschritt noch weiter zu beschleunigen. „Derzeit konkurrieren proprietĂ€re Modelle und Open-Source-Modelle miteinander, und viele glauben, dass die proprietĂ€ren Modelle die Nase vorn haben. Ich glaube jedoch, dass unsere Forschung die Entwicklung von Open-Source-Modellen beschleunigen und neue FĂ€higkeiten in der Community freisetzen kann“, sagt Akiba.

Sakana AI arbeitet weiterhin eifrig an der Erforschung neuartiger Techniken, die schnellere Innovationszyklen ermöglichen. Aber, wie Jones betont, geht es ihnen nicht um den schnellen Erfolg: „Unser langfristiger, forschender Ansatz macht es viel schwieriger, die Zukunft zu erkennen. Aber ich bin mit diesem Risiko sehr zufrieden, denn es ist extrem spannend, faszinierende Themen zu erforschen.“

Da Sakana AI ĂŒber mehrere Projekte hinweg an Dynamik gewinnt, untersucht das Unternehmen, wie andere AWS-Services den Nachweis von Konzepten unterstĂŒtzen können, z. B. die Verwendung von Amazon Bedrock fĂŒr die Skalierung der Verwendung von Basismodellen wie Claude von Anthropic. Das Unternehmen erforscht nicht nur Techniken zur ModellzusammenfĂŒhrung, sondern auch die Entwicklung agentenbasierter intelligenter Systeme, und AWS unterstĂŒtzt seine Vision in diesem spannenden Bereich.

Ausgehend vom derzeitigen Tempo des technologischen Fortschritts hat Jones große Hoffnungen: „Da sich die zum Trainieren von Modellen verwendete Rechenleistung weiterhin alle sechs Monate verdoppelt, könnten wir Intelligenz auf menschlichem Niveau erreichen, wenn wir die Trainingsalgorithmen weiter verbessern und optimieren, wie wir sie in einen Agenten einsetzen. Wenn wir dann in der Lage sind, 10.000 KI-Agenten auf die Beine zu stellen, um ein Problem zu lösen, könnte es möglich sein, wissenschaftliche Forschung im Wert von ein paar Jahren in einer Woche zu betreiben.“ Von der Automatisierung der Medikamentenentwicklung bis zur Verbesserung der Kernprozesse in der Informatik könnte diese Forschung einige der schwierigsten Probleme der Welt lösen.

FĂŒr Sakana AI war die Zusammenarbeit mit Partnern wie AWS von entscheidender Bedeutung – und das ist erst der Anfang des langfristigen Wertes, den sie noch freisetzen werden. Was raten sie anderen Startups, die das Potenzial der generativen KI ausbauen wollen? Jones wĂŒrde es gerne sehen, wenn andere GrĂŒnder ihre Freiheit nutzen wĂŒrden, um tiefer in die Technologie einzusteigen: „Seien Sie ehrgeizig mit Ihren Ideen. StĂŒrzen Sie sich nicht auf den Goldrausch oder bringen Sie die erste Version einer App heraus, nur um die erste zu sein - nehmen Sie sich die Zeit zu forschen.“

Kan Kato

Kan Kato

Kan Kato ist Startup Business Development Manager bei AWS und zeigt sein Engagement fĂŒr die Förderung des Erfolgs und der Innovation von Startups durch strategische Partnerschaften mit Risikokapitalgebern, Beschleunigern und Initiativen zur GeschĂ€ftsentwicklung. Neben seiner Arbeit fĂŒr Startups spielt er auch gerne Fußball und trainiert fĂŒr Triathlons.

Arata Yanase

Arata Yanase

Arata Yanase ist Startup Account Manager bei AWS Japan. Nach einer frĂŒheren Karriere als Vertriebs- und GeschĂ€ftsentwickler in einem Fintech-Startup leitete er Maßnahmen zur HĂ€ndlerentwicklung und zum Servicewachstum, um Nutzer zu gewinnen.

Yoshitaka Haribara

Yoshitaka Haribara

Yoshitaka Haribara ist Senior Startup ML Solutions Architect bei AWS Japan. In dieser Rolle hilft Yoshitaka Startup-Kunden bei Innovationen im Bereich generativer KI auf AWS. In seiner Freizeit spielt Yoshitaka gerne Schlagzeug.

Wie war dieser Inhalt?