Čínsky start-up DeepSeek vyvíja efektívnejšie modely AI s univerzitou v Pekingu

Čínska spoločnosť DeepSeek spolupracuje s prestížnou univerzitou Čching-chua v Pekingu na znižovaní potreby trénovania svojich modelov umelej inteligencie (AI). Chce si tak znížiť prevádzkové náklady, uviedla dnes agentúra Bloomberg. Čínsky start-up rozvíril trhy svojím nízkonákladovým modelom AI, ktorý sa objavil v januári.

Firma sa rozhodla k spolupráci s výskumníkmi z pekinskej univerzity a v odbornom článku opisuje nový prístup k posilňovaniu učenia, ktorého cieľom je zvýšiť efektivitu modelov. Teda aby boli schopní sa učiť rovnako dobre alebo lepšie, ale rýchlejšie a s využitím menej dát a výpočtového výkonu, čo zníži náklady.

Mohlo by vás zaujímať:
Reklama

Cieľom novej metódy je pomôcť modelom AI lepšie dodržiavať ľudské preferencie ponukou odmien za presnejšie a zrozumiteľnejšie odpovede, napísali výskumníci. Toto posilnené učenie sa ukázalo byť efektívne pri zrýchľovaní úloh AI v úzko zameraných aplikáciách a sférach. Rozšírenie na všeobecnejšie aplikácie sa však ukázalo náročné, a to je problém, ktorý sa tím DeepSeek snaží vyriešiť niečím, čo nazýva ladenie pomocou sebakritického princípu. To je metóda, pri ktorej model sám kriticky hodnotí svoje výstupy podľa vlastných princípov. Táto stratégia podľa článku prekonala existujúce metódy a modely v rôznych porovnávacích testoch a dosiahla lepšie výsledky s menšími nárokmi na výpočtové zdroje.

DeepSeek tieto nové modely nazýva DeepSeek-GRM, čo je skratka pre generalist reward modeling, teda všeobecné modelovanie odmien. Modely plánuje zverejniť na báze open source, čo znamená, že budú dostupné zadarmo pre všetkých a vývojári si ich budú môcť upraviť a prispôsobiť pre svoju potrebu. Termín však zatiaľ nespresnila.

Ďalší vývojári AI, ako je čínska spoločnosť Alibaba či americká OpenAI, sa tiež snažia preniknúť do novej oblasti zlepšovaním schopnosti uvažovania a sebazdokonaľovania.

Americká internetová spoločnosť Meta Platforms cez víkend predstavila najnovší rad modelov AI Llama 4 a ako prvá použila architektúru Mixture of Experts (MoE). Tento model je zložený z viacerých špecializovaných podmodelov a keď dostane nejakú úlohu, vyberie si, ktorý z týchto podmodelov je najlepšie schopný danú úlohu spracovať. Tento prístup môže byť efektívnejší, pretože model nevyužíva pre každú úlohu všetky svoje zdroje, ale sústredí sa len na tie, ktoré sú skutočne relevantné. Modely DeepSeek sa významne spoliehajú na MoE, aby efektívnejšie využívali zdroje.

Viac o téme: Čína , DeepSeek , umelá inteligencia AI , univerzita

Súvisiace články

Aktuálne správy