Nel novembre 2022 assistiamo al rilascio di chatGPT e alla sua diffusione fulminea con il raggiungimento dei 100 milioni di utenti nell’arco di soli due mesi. Tecnologie di IA generativa come quella rilasciata da OPENAI si basano su modelli di grandi dimensioni – i cosiddetti Large Language Models (LLMs) – che a loro volta sfruttano architetture caratterizzate da meccanismi di attenzione note come transformer (comparse in letteratura nel 20171). Lo sviluppo dei LLMs si può dire che abbia negli ultimi anni rivoluzionato il mondo dell’elaborazione automatica del linguaggio naturale (Natural Language Processing, NLP) raggiungendo risultati eccellenti su più task dalla comprensione del linguaggio naturale (NLU) a task di IA generativa.
La figura proposta nella survey2 ci mostra l’albero evolutivo dei LLMs ed è molto interessante notare la proliferazione dei modelli negli ultimi mesi e della concorrenza messa in atto da diverse aziende per tenersi al passo con i modelli GPT di OPENAI. E’ interessante poi notare la distinzione tra modelli open e closed-source, come prima del rilascio di GPT-3 tutti i modelli fossero apertamente disponibili e come Meta abbia proseguito su questa strada con 7/7 modelli open-source3.
Viene davvero da chiedersi quanto nell’arco dei prossimi mesi questo albero evolutivo possa ulteriormente ramificarsi.
Nel frattempo Ellysse per stare al passo con le evoluzioni ha integrato nella sua piattaforma tool di IA generativa rivoluzionando e innovando le proprie strategie di addestramento e di sviluppo di agenti conversazionali.
_________________
1 Vaswani A., Shazeer N., Parmar N., et al. (2017), Attention is all you need, in Advances in Neural Information Processing Systems, pp. 5998–6008
2 Yang J., Jin H., Tang R. et al. (2023), Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond, arXiv
3 https://twitter.com/ylecun/status/1651762787373428736