BOSTON – Depois de o lançamento do modelo DeepSeek-R1, no dia 20 de janeiro, ter provocado uma queda gigantesca no preço das ações da empresa fabricante de chips Nvidia e quedas acentuadas nas avaliações de várias outras empresas tecnológicas, houve quem declarasse que se tratava de um “momento Sputnik” na corrida sino-americana pela supremacia da inteligência artificial. Embora a indústria americana de IA precisasse de levar um abanão, o episódio levanta algumas questões difíceis.
Os investimentos da indústria tecnológica dos EUA em IA têm sido vultosos, com a Goldman Sachs a estimar que “as megaempresas de tecnologia, as corporações e os serviços públicos deverão gastar cerca de 1 bilião de dólares em despesas de capital nos próximos anos para apoiar a IA”. No entanto, durante muito tempo, muitos observadores, inclusive eu, questionaram o rumo que o investimento e desenvolvimento da IA nos Estados Unidos estava a tomar.
Com todas as empresas líderes a seguirem essencialmente o mesmo manual (embora a Meta se tenha diferenciado ligeiramente com um modelo parcialmente de código aberto), a indústria parece ter colocado todos os ovos no mesmo cesto. Sem exceção, as empresas tecnológicas americanas estão obcecadas com a escala. Citando as “leis de escala”, ainda por provar, assumem que a introdução de cada vez mais dados e poder de computação nos seus modelos é a chave para desbloquear capacidades cada vez maiores. Alguns até afirmam que “a escala é tudo o que é necessário”.
Antes de 20 de janeiro, as empresas americanas não estavam dispostas a considerar alternativas aos modelos de base pré-treinados em enormes conjuntos de dados para prever a palavra seguinte numa sequência. Tendo em conta as suas prioridades, concentraram-se quase exclusivamente em modelos de difusão e chatbots destinados a realizar tarefas humanas (ou semelhantes às humanas). E, embora a abordagem da empresa DeepSeek seja, em termos gerais, a mesma, parece ter-se apoiado mais na aprendizagem por reforço, em métodos de combinação de especialistas (utilizando muitos modelos mais pequenos e mais eficientes), na destilação e no raciocínio em cadeia de pensamentos aperfeiçoado. Segundo consta, esta estratégia permitiu-lhe produzir um modelo competitivo por uma fração do custo.
Embora haja alguma controvérsia sobre se a DeepSeek contou a história toda, este episódio expôs o “pensamento de grupo” dentro da indústria de IA dos EUA. A sua cegueira em relação a abordagens alternativas, mais baratas e mais promissoras, combinada com a propaganda, é precisamente o que eu e Simon Johnson previmos em Power and Progress, que escrevemos mesmo antes do início da era da IA generativa. A questão agora é saber se a indústria americana tem outros ângulos mortos ainda mais perigosos. Por exemplo, estarão as principais empresas tecnológicas americanas a perder uma oportunidade de levar os seus modelos numa “direção mais pró-humana”? Suspeito que a resposta seja afirmativa, mas só o tempo o dirá.
Depois, há a questão de saber se a China está a ultrapassar os EUA. Em caso afirmativo, isso significa que as estruturas autoritárias, do topo para a base (aquilo a que eu e James A. Robinson chamámos “instituições extrativas”) podem igualar ou mesmo superar os mecanismos da base para o topo na dinamização da inovação?
At a time of escalating global turmoil, there is an urgent need for incisive, informed analysis of the issues and questions driving the news – just what PS has always provided.
Subscribe to Digital or Digital Plus now to secure your discount.
Subscribe Now
A minha tendência é pensar que o controlo do topo para a base prejudica a inovação, como eu e Robinson defendemos em Why Nations Fail. Embora o sucesso da tecnologia da DeepSeek pareça desafiar esta afirmação, está longe de ser uma prova conclusiva de que a inovação sob a liderança de instituições extrativas pode ser tão poderosa ou tão duradoura como a inovação sob instituições inclusivas. Afinal, a DeepSeek está a basear-se em anos de avanços nos EUA (e alguns na Europa). Todos os seus métodos básicos foram desenvolvidos nos EUA. Os modelos de combinação de especialistas e a aprendizagem por reforço foram desenvolvidos em instituições de investigação académica há décadas; e foram as grandes empresas de tecnologia dos EUA que introduziram os modelos de transformação, o raciocínio em cadeia de pensamentos e a destilação.
O que a DeepSeek fez foi demonstrar sucesso na engenharia: combinar os mesmos métodos de forma mais eficaz do que as empresas americanas fizeram. Resta saber se as empresas e instituições de investigação chinesas conseguem dar o próximo passo em criar técnicas, produtos e abordagens próprias que mudem o jogo.
Além disso, a DeepSeek parece ser diferente da maioria das outras empresas chinesas de IA, que geralmente produzem tecnologias para o governo ou com financiamento governamental. Se a empresa (que foi criada a partir de um fundo de cobertura) passou despercebida quando estava a operar, será que a sua criatividade e dinamismo continuarão, agora que está sob os holofotes? Aconteça o que acontecer, o sucesso de uma empresa não pode ser tomado como prova conclusiva de que a China pode vencer as sociedades mais abertas em matéria de inovação.
Outra questão diz respeito à geopolítica. Será que a saga DeepSeek significa que os controlos de exportação dos EUA e outras medidas para travar a investigação chinesa em IA falharam? A resposta a esta questão também não é clara. Embora a DeepSeek tenha treinado os seus modelos mais recentes (V3 e R1) em chips mais antigos e menos potentes, é possível que continue a precisar de chips mais potentes para conseguir novos avanços e aumentar a escala.
No entanto, é evidente que a abordagem americana de soma zero era impraticável e mal aconselhada. Esta estratégia só faz sentido se acreditarmos que estamos a caminhar para uma inteligência artificial geral (AGI, na sigla em inglês), ou seja, modelos capazes de igualar os humanos em qualquer tarefa cognitiva), e que quem chegar primeiro à AGI terá uma enorme vantagem geopolítica. Ao agarrarmo-nos a estes pressupostos – nenhum dos quais é necessariamente garantido – impedimos uma colaboração frutuosa com a China em muitos domínios. Por exemplo, se um dos países fabricar modelos que aumentem a produtividade humana ou nos ajudem a regular melhor a energia, essa inovação será benéfica para ambos os países, principalmente se for amplamente utilizada.
Tal como os seus primos americanos, a DeepSeek aspira desenvolver a AGI e a criação de um modelo que seja significativamente mais barato de treinar poderia ser um fator de mudança. Mas reduzir os custos de desenvolvimento com métodos conhecidos não nos levará milagrosamente à AGI nos próximos anos. Se a AGI é exequível a curto prazo continua a ser uma questão em aberto (e se é desejável é ainda mais discutível).
Mesmo que ainda não saibamos todos os pormenores sobre a forma como a DeepSeek desenvolveu os seus modelos ou o que o seu aparente sucesso significa para o futuro da indústria da IA, uma coisa parece clara: um arrivista chinês afetou a obsessão da indústria tecnológica com a escala e pode mesmo tê-la sacudido da sua complacência.
To have unlimited access to our content including in-depth commentaries, book reviews, exclusive interviews, PS OnPoint and PS The Big Picture, please subscribe
US President Donald Trump’s import tariffs have triggered a wave of retaliatory measures, setting off a trade war with key partners and raising fears of a global downturn. But while Trump’s protectionism and erratic policy shifts could have far-reaching implications, the greatest victim is likely to be the United States itself.
warns that the new administration’s protectionism resembles the strategy many developing countries once tried.
It took a pandemic and the threat of war to get Germany to dispense with the two taboos – against debt and monetary financing of budgets – that have strangled its governments for decades. Now, it must join the rest of Europe in offering a positive vision of self-sufficiency and an “anti-fascist economic policy.”
welcomes the apparent departure from two policy taboos that have strangled the country's investment.
BOSTON – Depois de o lançamento do modelo DeepSeek-R1, no dia 20 de janeiro, ter provocado uma queda gigantesca no preço das ações da empresa fabricante de chips Nvidia e quedas acentuadas nas avaliações de várias outras empresas tecnológicas, houve quem declarasse que se tratava de um “momento Sputnik” na corrida sino-americana pela supremacia da inteligência artificial. Embora a indústria americana de IA precisasse de levar um abanão, o episódio levanta algumas questões difíceis.
Os investimentos da indústria tecnológica dos EUA em IA têm sido vultosos, com a Goldman Sachs a estimar que “as megaempresas de tecnologia, as corporações e os serviços públicos deverão gastar cerca de 1 bilião de dólares em despesas de capital nos próximos anos para apoiar a IA”. No entanto, durante muito tempo, muitos observadores, inclusive eu, questionaram o rumo que o investimento e desenvolvimento da IA nos Estados Unidos estava a tomar.
Com todas as empresas líderes a seguirem essencialmente o mesmo manual (embora a Meta se tenha diferenciado ligeiramente com um modelo parcialmente de código aberto), a indústria parece ter colocado todos os ovos no mesmo cesto. Sem exceção, as empresas tecnológicas americanas estão obcecadas com a escala. Citando as “leis de escala”, ainda por provar, assumem que a introdução de cada vez mais dados e poder de computação nos seus modelos é a chave para desbloquear capacidades cada vez maiores. Alguns até afirmam que “a escala é tudo o que é necessário”.
Antes de 20 de janeiro, as empresas americanas não estavam dispostas a considerar alternativas aos modelos de base pré-treinados em enormes conjuntos de dados para prever a palavra seguinte numa sequência. Tendo em conta as suas prioridades, concentraram-se quase exclusivamente em modelos de difusão e chatbots destinados a realizar tarefas humanas (ou semelhantes às humanas). E, embora a abordagem da empresa DeepSeek seja, em termos gerais, a mesma, parece ter-se apoiado mais na aprendizagem por reforço, em métodos de combinação de especialistas (utilizando muitos modelos mais pequenos e mais eficientes), na destilação e no raciocínio em cadeia de pensamentos aperfeiçoado. Segundo consta, esta estratégia permitiu-lhe produzir um modelo competitivo por uma fração do custo.
Embora haja alguma controvérsia sobre se a DeepSeek contou a história toda, este episódio expôs o “pensamento de grupo” dentro da indústria de IA dos EUA. A sua cegueira em relação a abordagens alternativas, mais baratas e mais promissoras, combinada com a propaganda, é precisamente o que eu e Simon Johnson previmos em Power and Progress, que escrevemos mesmo antes do início da era da IA generativa. A questão agora é saber se a indústria americana tem outros ângulos mortos ainda mais perigosos. Por exemplo, estarão as principais empresas tecnológicas americanas a perder uma oportunidade de levar os seus modelos numa “direção mais pró-humana”? Suspeito que a resposta seja afirmativa, mas só o tempo o dirá.
Depois, há a questão de saber se a China está a ultrapassar os EUA. Em caso afirmativo, isso significa que as estruturas autoritárias, do topo para a base (aquilo a que eu e James A. Robinson chamámos “instituições extrativas”) podem igualar ou mesmo superar os mecanismos da base para o topo na dinamização da inovação?
Winter Sale: Save 40% on a new PS subscription
At a time of escalating global turmoil, there is an urgent need for incisive, informed analysis of the issues and questions driving the news – just what PS has always provided.
Subscribe to Digital or Digital Plus now to secure your discount.
Subscribe Now
A minha tendência é pensar que o controlo do topo para a base prejudica a inovação, como eu e Robinson defendemos em Why Nations Fail. Embora o sucesso da tecnologia da DeepSeek pareça desafiar esta afirmação, está longe de ser uma prova conclusiva de que a inovação sob a liderança de instituições extrativas pode ser tão poderosa ou tão duradoura como a inovação sob instituições inclusivas. Afinal, a DeepSeek está a basear-se em anos de avanços nos EUA (e alguns na Europa). Todos os seus métodos básicos foram desenvolvidos nos EUA. Os modelos de combinação de especialistas e a aprendizagem por reforço foram desenvolvidos em instituições de investigação académica há décadas; e foram as grandes empresas de tecnologia dos EUA que introduziram os modelos de transformação, o raciocínio em cadeia de pensamentos e a destilação.
O que a DeepSeek fez foi demonstrar sucesso na engenharia: combinar os mesmos métodos de forma mais eficaz do que as empresas americanas fizeram. Resta saber se as empresas e instituições de investigação chinesas conseguem dar o próximo passo em criar técnicas, produtos e abordagens próprias que mudem o jogo.
Além disso, a DeepSeek parece ser diferente da maioria das outras empresas chinesas de IA, que geralmente produzem tecnologias para o governo ou com financiamento governamental. Se a empresa (que foi criada a partir de um fundo de cobertura) passou despercebida quando estava a operar, será que a sua criatividade e dinamismo continuarão, agora que está sob os holofotes? Aconteça o que acontecer, o sucesso de uma empresa não pode ser tomado como prova conclusiva de que a China pode vencer as sociedades mais abertas em matéria de inovação.
Outra questão diz respeito à geopolítica. Será que a saga DeepSeek significa que os controlos de exportação dos EUA e outras medidas para travar a investigação chinesa em IA falharam? A resposta a esta questão também não é clara. Embora a DeepSeek tenha treinado os seus modelos mais recentes (V3 e R1) em chips mais antigos e menos potentes, é possível que continue a precisar de chips mais potentes para conseguir novos avanços e aumentar a escala.
No entanto, é evidente que a abordagem americana de soma zero era impraticável e mal aconselhada. Esta estratégia só faz sentido se acreditarmos que estamos a caminhar para uma inteligência artificial geral (AGI, na sigla em inglês), ou seja, modelos capazes de igualar os humanos em qualquer tarefa cognitiva), e que quem chegar primeiro à AGI terá uma enorme vantagem geopolítica. Ao agarrarmo-nos a estes pressupostos – nenhum dos quais é necessariamente garantido – impedimos uma colaboração frutuosa com a China em muitos domínios. Por exemplo, se um dos países fabricar modelos que aumentem a produtividade humana ou nos ajudem a regular melhor a energia, essa inovação será benéfica para ambos os países, principalmente se for amplamente utilizada.
Tal como os seus primos americanos, a DeepSeek aspira desenvolver a AGI e a criação de um modelo que seja significativamente mais barato de treinar poderia ser um fator de mudança. Mas reduzir os custos de desenvolvimento com métodos conhecidos não nos levará milagrosamente à AGI nos próximos anos. Se a AGI é exequível a curto prazo continua a ser uma questão em aberto (e se é desejável é ainda mais discutível).
Mesmo que ainda não saibamos todos os pormenores sobre a forma como a DeepSeek desenvolveu os seus modelos ou o que o seu aparente sucesso significa para o futuro da indústria da IA, uma coisa parece clara: um arrivista chinês afetou a obsessão da indústria tecnológica com a escala e pode mesmo tê-la sacudido da sua complacência.