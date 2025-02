Fenômeno DeepSeek: Como a transparência está revolucionando a Inteligência Artificial Sucesso da startup chinesa no mundo da IA não foi repentino. Desde 2023, a empresa publica trabalhos relevantes para a área de IA... The Conversation|Do R7 04/02/2025 - 06h26 (Atualizado em 04/02/2025 - 06h26 ) twitter

“Não temos um fosso (barreira de defesa contra concorrentes), e nem a OpenAI tem”, afirmou um documento interno da Google, vazado há quase dois anos. A mensagem propagava entre os funcionários da empresa que a tecnologia de Inteligência Artificial em código aberto – com livre acesso a concorrentes – eventualmente superaria aquelas protegidas por segredo comercial.

Naquela época, parecia difícil imaginar que isso aconteceria de fato. Afinal, como pequenas empresas e desenvolvedores independentes poderiam competir com os bilhões de dólares investidos em IA pelas big techs? Bem, a DeepSeek acaba de nos mostrar como.

Como alguém que acompanha de perto o desenvolvimento da área de IA, confesso que fiquei impressionado com a ascensão da DeepSeek, não apenas pelos números - $5,6 milhões para criar um modelo que compete com aqueles que custam dezenas ou até centenas de milhões - mas com o que isso representa para o futuro da tecnologia. O mercado reagiu com pânico, apagando mais de meio trilhão de dólares do valor da Nvidia e derrubando ações de gigantes como Google e Microsoft. Mas, na minha opinião, a maioria de nós pode estar olhando para isso tudo sob uma ótica equivocada.

Para a maioria das pessoas, a DeepSeek parece ter alcançado o topo abruptamente, mas na verdade a história é bem diferente. Desde o lançamento da empresa em 2023, os pesquisadores têm publicado trabalhos extremamente relevantes para a área de IA com uma frequência impressionante, apresentando a cada publicação inovações que serviram para pavimentar o caminho deles até a posição que se encontram hoje.

‌



Mas o que fez de fato a empresa ser conhecida do grande público foi o resultado das suas duas últimas publicações. Primeiro, publicaram em dezembro de 2024 o trabalho que descreve o treinamento do modelo DeepSeek-V3, que tem desempenho similar a modelos como o GPT4o. E, depois de algumas semanas, publicaram o modelo que realmente mudou o jogo, o DeepSeek-R1.

O DeepSeek-R1 é uma versão modificada do V3, com uma característica especial que até o momento nós apenas havíamos visto nos modelos mais recentes da OpenAI – mais especificamente no o1 e o3 –, que é a capacidade de “reasoning”. Isso significa que o modelo é capaz de solucionar questões complexas produzindo uma espécie de “monólogo interno”, passando por uma série de etapas intermediárias antes de dar uma resposta final.

‌



Essa nova abordagem na geração das respostas é mais lenta e exige mais recursos computacionais para funcionar. No entanto, fez com que LLMs conseguissem resolver problemas que antes pareciam quase impossíveis para esse tipo de modelo.

O que mais me fascina nesses modelos da DeepSeek é como foram construídos e disponibilizados. Ambos modelos são acompanhados de publicações muito bem detalhadas de como foram construídos e são open source (com licença comercialmente permissiva). Esse tipo de transparência científica e “altruismo”, não é muito comum nesse universo de LLMs hoje em dia, talvez encontrando paralelo apenas na abordagem dos pesquisadores da Meta AI, que em dezembro de 2024 lançaram o modelo Llama 3.3 de forma open source.

‌



Nas poucas entrevistas que pude encontrar do CEO da DeepSeek, é possível notar que a filosofia da empresa é de fato focada na tecnologia aberta, com falas que ecoam o documento da Google que citei no início dessa matéria: “Em face de tecnologias disruptivas, fossos criados por código fechado são temporários”. Essa é uma visão que a Meta parece compartilhar. Não é à toa que o seu CEO recentemente reforçou que o sucesso da DeepSeek apenas confirmou que eles estão no caminho certo.

No meio de toda essa comoção gerada pela DeepSeek, algumas pessoas levantaram a hipótese de que na verdade os modelos dela foram estrategicamente treinados com as saídas dos modelos da OpenAI. Isso pode até ser verdade, mas é aí que vejo a verdadeira beleza da abordagem aberta na produção de conhecimento científico: não precisamos confiar cegamente, podemos verificar. Pesquisadores ao redor do mundo já estão reproduzindo aspectos do trabalho da DeepSeek em menor escala, e a empresa Hugging Face já anunciou esforços para replicar completamente os modelos da DeepSeek em larga escala. É a ciência funcionando como deveria: aberta, verificável, reproduzível.

O que mais me anima é pensar no que vem pela frente. Como foi anunciado recentemente pela Meta, não demorará muito para termos o Llama 4, e depois disso, outros modelos ainda mais impressionantes surgirão. Cada novo modelo open source servindo de base para o próximo.

O cientista Yann LeCun, um dos pioneiros da Inteligência Artificial, disse recentemente algo que eu penso resumir bem a situação atual: a leitura correta dos eventos recentes não é “China superando os EUA em IA”, mas sim “modelos open source superando os proprietários”. Ou seja, a DeepSeek não criou algo do zero, ela construiu sobre fundamentos abertos, inovou, e agora está compartilhando seu trabalho para que outros possam fazer o mesmo.

A revolução que a DeepSeek representa não é sobre tecnologia superior ou custos menores - embora ambos sejam impressionantes. É sobre mostrar que existe um caminho diferente para o desenvolvimento de modelos de IA. Um caminho que não depende de recursos infinitos ou segredos bem guardados, mas de inovação inteligente e colaboração aberta. E esse, acredito eu, é o caminho que vai realmente levar a humanidade adiante.

Jonatas Grosman não presta consultoria, trabalha, possui ações ou recebe financiamento de qualquer empresa ou organização que poderia se beneficiar com a publicação deste artigo e não revelou nenhum vínculo relevante além de seu cargo acadêmico.