Ugens AI Recap: Nyheder fra Worldcoin, Perplexity og mere

Ugens AI Recap: Efterårsferiens største nyheder!

Efter en rolig efterårsferie er vi tilbage med en række spændende AI-nyheder. Denne uge bød på store annonceringer fra både velkendte spillere som OpenAI og Adobe, samt ny forskning fra Apple og nye benchmarks fra Nvidia. Her er en dybdegående gennemgang af de vigtigste historier. Tag dig god tid, for det har ikke stået stille mens vi andre har været på ferie.

Lyt til dagens episode af Nerdic Download på Spotify

Dagens oversigt:

👁️ Worldcoin lancerer næste generation af øjenscannere
🌍 Perplexity introducerer: Spaces
🔮 Anthropic CEO spår AI-utopi
🐝 OpenAI præsenterer Swarm: Et multi-agent framework
🤔 Apple afslører LLM-begrænsninger
🚀 AMD afslører næste generation af AI-chips
🤖 OpenAI introducerer AI-agent benchmark MLE-bench
🎬 Adobe afslører Firefly Video Model ved MAX-konferencen
🗞️ New York Times sagsøger Perplexity
💽 Nvidia afslører Nemotron
💼 Sierra’s værdi stiger til $4 milliarder
🎮 AI simulerer Counter-Strike ved hjælp af neurale netværk
🧠 Meta-forskere udvikler ‘tænkende’ sprogmodeller
🤖 Boston Dynamics og Toyota indgår partnerskab om humanoide robotter
⚛️ Newton AI lærer fysik fra bunden
📓 NotebookLM opdaterer med lydfunktioner
⚡ Hurtige nyheder

👁️ Worldcoin (World) lancerer næste generation af øjenscannere

Worldcoin, kendt for sin kontroversielle "proof of personhood"-teknologi, er blevet rebrandet til World. Dette markerer en ny æra for virksomheden, som også har introduceret en forbedret version af deres iris-scannende Orb-teknologi. Den nye Orb lover at være fem gange hurtigere end sin forgænger, hvilket gør onboardingprocessen nemmere og hurtigere i lande over hele verden.

Virksomheden har også introduceret World ID 3.0-protokollen, som inkluderer nye funktioner som World ID Credentials og Deep Face, der er designet til at bekæmpe AI-genererede deepfakes. Ydermere er der blevet lanceret en opdateret version af deres World App, som nu muliggør anonym integration med tredjeparts applikationer. Dette giver brugerne større fleksibilitet og privatliv i en tid, hvor verificering af identitet bliver stadig vigtigere i en digital verden fyldt med AI-genereret indhold.

På trods af de teknologiske fremskridt står virksomheden stadig over for stor modstand på grund af bekymringer omkring privatliv, hvilket har ført til, at nogle lande har forbudt brugen af teknologien. Spørgsmålet er, om de kan overvinde disse udfordringer og vinde offentlighedens tillid.

🌍 Perplexity introducerer: Spaces

Perplexity AI har gjort det endnu nemmere for brugerne at organisere deres research og filer med lanceringen af Spaces. Den nye funktion giver ikke kun en intuitiv måde at samle sine Threads på, men for Pro-brugere tilbyder Spaces også muligheden for at uploade og søge i egne dokumenter. Dette gør det muligt at opbevare, søge og få adgang til filer direkte i Spaces uden at skulle gen-uploade materiale.

Med Spaces kan brugerne nu organisere deres research bedre, hvilket er særligt nyttigt til store projekter som eksamensforberedelser, rejseplanlægning eller dybdegående undersøgelser af specifikke emner. Den forbedrede funktionalitet giver også en mere strømlinet brugeroplevelse for dem, der ofte arbejder med store mængder information.

🔮 Anthropic CEO spår AI-utopi

Dario Amodei, CEO for det AI-sikkerhedsfokuserede laboratorium Anthropic, har udgivet en længere essay, hvor han præsenterer en optimistisk vision for, hvordan AI kan revolutionere samfundet inden for de næste 5-10 år. Han forudser, at vi allerede i 2026 vil se AI-systemer, der er klogere end Nobelprisvindere inden for en lang række områder. Med disse AI’s evner vil det være muligt at komprimere 100 års videnskabelige fremskridt til bare 10 år, hvilket kunne føre til opdagelser, der kurerer de fleste sygdomme og fordobler menneskets forventede levetid.

Amodei mener også, at AI kan være en stærk drivkraft for økonomisk vækst og endda styrke demokratiet ved at modvirke misinformation og undergrave autoritære regimer. Dog anerkender han, at der er potentielle faldgruber, såsom massefyringer, men han argumenterer for, at nye økonomiske modeller vil kunne opstå for at afhjælpe disse problemer. Essayet er både et optimistisk fremtidsbillede og en opfordring til handling for at sikre en ansvarlig udvikling af AI-teknologier.

🐝 OpenAI præsenterer Swarm: Et multi-agent framework

OpenAI har netop annonceret Swarm, et nyt open-source framework, der er designet til at gøre det lettere at koordinere og kontrollere flere AI-agenter i komplekse systemer. Swarm tilbyder et letvægtsværktøj til at styre interaktionen mellem forskellige AI-agenter ved hjælp af byggesten som "agents" og "handoffs". Disse gør det muligt for en agent at overdrage kontrol til en anden agent i løbet af en samtale eller opgave, hvilket gør det lettere at automatisere komplekse multi-step opgaver.

Frameworket understøtter desuden funktioner som funktionskald, kontekstvariabler og streaming, og det hele er bygget på OpenAI’s velkendte ChatCompletions API. Selvom Swarm stadig er i en eksperimentel fase, tilbyder det AI-udviklere en spændende mulighed for at udforske, hvordan flere agenter kan arbejde sammen om at løse større og mere komplekse opgaver.

🤔 Apple afslører LLM-begrænsninger

Apple har netop offentliggjort en forskningsrapport, der afslører store begrænsninger i store sprogmodellers (LLM) evne til at udføre formelle ræsonnementer, herunder modeller udviklet af førende AI-laboratorier som OpenAI. I rapporten introducerer Apple et nyt benchmark kaldet GSM-Symbolic, der tester matematiske ræsonnementsevner hos LLM'er.

Rapporten viste, at selv små ændringer i formuleringen af spørgsmål, eller tilføjelse af irrelevant information, dramatisk påvirkede modellernes præcision, med op til 65% fejlmargen i nogle tilfælde. Forskningen peger på, at der ikke er nogen tegn på egentlig formel logik i modellernes adfærd, men snarere sofistikeret mønstergenkendelse. Disse resultater rejser vigtige spørgsmål omkring modellernes pålidelighed og risici ved at bruge dem i stadig mere komplekse applikationer.

🚀 AMD afslører næste generation af AI-chips

Ved Advancing AI 2024-konferencen præsenterede AMD en ny linje af AI-fokuserede processorer, der er designet til at konkurrere med rivaler som Nvidia og Intel. Den nye lineup inkluderer Ryzen AI PRO 300, en processor rettet mod virksomheders AI-PC'er, der leverer 40% bedre ydeevne end Intels Core Ultra-chips. AMD præsenterede også Instinct MI325X, en AI-accelerator med 1,8x højere hukommelseskapacitet og 1,3x større båndbredde end Nvidias H200 GPU.

Udover den imponerende hardware annoncerede AMD, at de vil lancere årlige opdateringer af deres AI-chips. Den næste model, MI350X, er planlagt til lancering i slutningen af 2025, og MI400 forventes i 2026. Dette aggressive skub mod AI-markedet viser, at AMD er klar til at tage kampen op mod sine konkurrenter i et stadig mere konkurrencepræget felt.

🤖 OpenAI introducerer AI-agent benchmark MLE-bench

OpenAI har lanceret MLE-bench, en ny benchmark, der tester, hvor godt AI-agenter klarer sig på reelle maskinlæringsopgaver. MLE-bench inkluderer 75 udvalgte Kaggle-konkurrencer, som spænder over en bred vifte af opgaver, såsom modeltræning, dataforberedelse og eksperimentering.

OpenAI’s bedste setup, o1-preview-modellen med AIDE-scaffolding, formåede at opnå mindst en bronze-medalje i 16,9% af konkurrencerne. Selvom resultaterne viser lovende fremskridt, kæmpede modellerne stadig med opgaver, der kræver tilpasningsevne eller kreativ problemløsning. Denne benchmark repræsenterer et nyt skridt i retning af at evaluere agenters kapacitet til at tackle mere komplekse opgaver end tidligere benchmarks.

🎬 Adobe afslører Firefly Video Model ved MAX-konferencen

Adobe har udvidet deres Firefly AI-model til at inkludere videogenereringsfunktioner, som blev præsenteret ved deres MAX-konference. Med denne nye opdatering kan brugerne nu generere videoer baseret på tekstbeskeder eller billeder, hvilket åbner op for nye kreative muligheder i Adobe Premiere.

Den nye funktionalitet inkluderer bl.a. muligheden for at generere 2D- og 3D-animationer, tekstgrafik og b-roll-klip. Premiere Pro modtager også en ny funktion kaldet Generative Extend, som gør det nemt at forlænge klip og optimere redigering ved hjælp af AI. Adobe har yderligere lanceret over 100 nye AI-drevne funktioner på tværs af deres Creative Cloud-apps, hvilket cementerer deres position som en af de førende aktører inden for AI-drevet kreativ software.

🗞️ New York Times sagsøger Perplexity

New York Times har udstedt en cease-and-desist til AI-søgeplatformen Perplexity, hvori de anklager startup-virksomheden for at bruge deres indhold uden tilladelse. Ifølge NYT krænker Perplexity ophavsretten ved at bruge deres artikler til AI-genererede resuméer.

NYT hævder, at Perplexity tidligere lovede at stoppe med at crawle deres indhold, men at resultaterne stadig dukker op på platformen. Perplexity har meldt ud, at de er åbne for at samarbejde med udgivere og vil svare på anmodningen inden den 30. oktober. Denne sag er endnu et eksempel på de stigende spændinger mellem medievirksomheder og AI-platforme, som risikerer at stjæle trafik og annonceindtægter fra traditionelle nyhedsmedier.

💽 Nvidia afslører Nemotron

Nvidia har netop lanceret Llama-3.1-Nemotron-70B-Instruct, en ny LLM-model, der overgår industriledere som GPT-4 og Claude 3.5 i flere benchmarks. Modellen er baseret på Metas Llama 3.1 70B-model, men er blevet finjusteret af Nvidia ved hjælp af avancerede maskinlæringsmetoder som RLHF.

Nemotron har opnået topplaceringer på en række alignment-benchmarks, og Nvidia har open-sourcet modellen sammen med den tilhørende træningsdata. Dette er endnu et skridt i retning af, at mindre og mere effektive open-source-modeller kan konkurrere med de store spillere i AI-verdenen.

💼 Sierras værdi stiger til $4 milliarder i takt med investorinteressen for AI startups

Sierras værdiansættelse er ved at skyde i vejret, efterhånden som AI-markedet tiltrækker stadigt flere investorer. OpenAI’s bestyrelsesformand Bret Taylor, sammen med tidligere Google-direktør Clay Bavor, har med deres startup, Sierra, skabt et AI-agent platform, der automatiserer kundeserviceopgaver for virksomheder. Sierra står nu over for en ny finansieringsrunde, der kan øge virksomhedens værdi til over 4 milliarder dollars — en markant stigning fra de 1 milliard dollars, virksomheden var vurderet til i januar 2024.

Virksomhedens teknologi har fanget investorernes opmærksomhed, især i et marked, der er præget af stigende konkurrence mellem AI-startups. Sierra er blevet et nøgleeksempel på, hvordan AI-drevne løsninger til virksomheder kan skabe enorme markedsværdier. Som konkurrencen intensiveres, bliver Sierra en af de startups, der sætter sig i spidsen for en ny bølge af AI-drevne forretningsløsninger.

🎮 AI simulerer Counter-Strike ved hjælp af neurale netværk

Forskere fra universiteterne i Genève, Edinburgh og Microsoft har skabt et gennembrud inden for AI-simulation med deres DIAMOND-model, der kan generere en spilbar version af Counter-Strike: Global Offensive (CS).

Diffusion for World Modeling: Visual Details Matter in Atari (DIAMOND) 💎

Diffusion for World Modeling: Visual Details Matter in Atari (DIAMOND) 💎 Webpage

Eloi Alonso

DIAMOND bruger en diffusion-baseret tilgang, hvor modellen forudsiger den næste frame baseret på tidligere frames og spillerens handlinger. Den er i stand til at generere spillet ved 10 billeder i sekundet — en imponerende bedrift i betragtning af, at modellen kun blev trænet på 87 timers gameplay-data, en brøkdel af den mængde data, lignende projekter normalt kræver.

Brugerne kan interagere med simulationen ved hjælp af tastatur og mus, og AI-modellen gengiver realistisk våbenmekanik og spillerinteraktioner. DIAMOND overgik desuden menneskelige præstationer på Atari 100k benchmark med 46%, hvilket gør den til en af de mest avancerede AI-modeller, der er trænet på en verdensmodel. Denne teknologi peger mod spændende anvendelser inden for robotik, autonome systemer og udvikling af virtuelle verdener. Videospil kan snart få et stort løft i deres evne til at skabe åbne, interaktive og fysik-baserede miljøer.

🧠 Meta-forskere udvikler ‘tænkende’ sprogmodeller

Meta har introduceret en ny metode kaldet Thought Preference Optimization (TPO), der giver sprogmodeller evnen til at "tænke" internt, før de reagerer på generelle instruktioner. TPO lærer modeller at generere indre tanker, som aldrig vises for brugerne, men hjælper modellen med at optimere sine svar gennem trial-and-error uden direkte overvågning. Dette adskiller sig fra almindelige sprogmodeller, der normalt reagerer direkte på input uden at gennemgå en intern refleksionsproces.

Denne metode overgår standardmodeller på nøgleområder som marketing og kreativ skrivning, men performer lidt dårligere i opgaver relateret til matematik og ræsonnering. TPO bygger på OpenAI’s ‘Strawberry’-forskning og fremhæver potentialet for at anvende ‘tænkende’ AI-modeller til en bredere vifte af opgaver, hvor kreativitet og komplekse beslutningsprocesser er nødvendige.

🤖 Boston Dynamics og Toyota indgår partnerskab om humanoide robotter

Boston Dynamics og Toyota Research Institute (TRI) har offentliggjort et nyt samarbejde, der vil fremme udviklingen af avancerede humanoide robotter. TRI vil integrere deres Large Behavior Models (LBM’er) i Boston Dynamics' Atlas robot, en opdateret elektrisk version af den tidligere hydrauliske Atlas.

Toyota har udviklet LBM'er for at træne robotter i at håndtere komplekse opgaver som multi-tasking, synsfærdigheder og sprogforståelse. Dette partnerskab forener forskningslaboratorier ejet af konkurrenter, Hyundai (som købte Boston Dynamics i 2020) og Toyota. TRI’s Diffusion Policy gør det muligt for robotter at lære mere end 60 færdigheder ved hjælp af menneskelige demonstrationer uden at skulle kodes manuelt.

Konkurrencen om kommercielt levedygtige humanoider bliver intens, og dette samarbejde er et vigtigt træk i kapløbet om at skabe den næste generation af general-purpose robotter. Med konkurrenter som Tesla’s Optimus og Figure’s 01 er feltet åbent for en revolution inden for robotteknologi.

⚛️ Newton AI lærer fysik fra bunden

Archetype AI har netop afsløret Newton, en ny grundlæggende AI-model, der er i stand til at lære komplekse fysiske principper direkte fra rå sensordata uden menneskelig vejledning. Newton bygger en forståelse af fysiske fænomener ved at indtage sensoriske målinger og bruge disse til at forudsige systemers adfærd, selv i tilfælde hvor det ikke er blevet specifikt trænet.

Modellen har vist sig at være i stand til at overgå specialiserede AI’er i opgaver som at forudsige strømforbruget i byområder og opdage fysiske systemer ud fra data i stedet for forudgående træning. Dette skift repræsenterer en ny tilgang til, hvordan AI kan interagere med den fysiske verden, og åbner døren for mere autonome AI-systemer, der kan tilpasse sig forskellige miljøer og opgaver uden menneskelig indgriben.

📓 NotebookLM opdaterer med lydfunktioner

Google har netop frigivet en stor opdatering til deres populære AI-notetagningstjeneste NotebookLM. Brugerne kan nu tilpasse AI-genererede lydresuméer ved at specificere emner, der skal fremhæves, eller justere det faglige niveau. En ny Background Listening-funktion gør det desuden muligt for brugerne at lytte til AI-genererede interview-sammendrag, mens de udfører andre opgaver.

Google annoncerede også en kommende version af NotebookLM rettet mod virksomheder, som vil tilbyde højere brugsgrænser og nye samarbejdsværktøjer til teams. Denne opdatering viser, at NotebookLM hurtigt udvikler sig fra at være et eksperiment til at blive et vigtigt redskab for professionelle, især med de virale Audio Overviews, der allerede er blevet kaldt en 'ChatGPT-moment' for Google.

⚡Hurtige nyheder

🖼️ Google lancerer Imagen 3 til Gemini-brugere
Google har rullet Imagen 3 ud til alle Gemini-brugere, men kun Advanced-abonnenter (til $19,99 pr. måned) kan generere billeder af mennesker.

🛒 Walmart afslører nye AI-platforme
Walmart har afsløret nye AI-drevne platforme, herunder Wallaby LLMs, som er trænet på virksomhedens data, og en Customer Support Assistant, der kan tage handlinger på vegne af brugeren.

🧠 Japansk startup lancerer Aria
Den japanske AI-startup Rhymes har frigivet Aria, den første open-source multimodale native Mixture-of-Experts model, som leverer state-of-the-art præstationer på tværs af forskellige opgaver med en letvægtsmodel på 3,9 milliarder parametre og en kontekstvindue på 64k tokens.

📊 Perplexity introducerer interaktive diagrammer i code interpreter
Perplexity har udvidet deres code interpreter med interaktive diagramfunktioner, hvilket forbedrer mulighederne for datavisualisering.

🌍 USA overvejer at begrænse AI-chip-eksport
Den amerikanske regering overvejer at begrænse eksporten af AI-chips fra virksomheder som Nvidia og AMD til visse lande, herunder lande i Mellemøsten, af hensyn til national sikkerhed.

🎵 Adobe viser Project Super Sonic frem
Adobe præsenterede Project Super Sonic ved deres MAX-konference, et eksperimentelt AI-værktøj, der kan generere brugerdefinerede lydeffekter til videoer ved hjælp af tekstinput, objektgenkendelse og stemmeimitation.

📈 Amazon lancerer AI-drevet kreativ suite for annoncører
Amazon har introduceret en ny AI-kreativ suite, som giver annoncører mulighed for at generere video-, lyd- og animerede billedannoncer ved hjælp af AI.

🛍️ Google afslører AI-drevet shoppingoplevelse
Google har frigivet en ny AI-drevet shoppingoplevelse med personlige anbefalinger, AI-genererede produktbeskrivelser og værktøjer til at finde de bedste tilbud.

👥 Universitetet i Tokyo afslører TANGO
Forskere ved Universitetet i Tokyo har afsløret TANGO, et AI-system, der kan generere realistiske menneskelige bevægelser, gestikulationer og mimik, som matcher lydinput.

Det var de vigtigste AI-nyheder fra denne uge! Sørg for at holde dig opdateret med de seneste nyheder indenfor AI med Nerdic.

World ID, Perplexity Spaces, AI Utopien & Agent Swarms og meget mere i Efterårs AI Recap.