Anúncio

Notícias

Voltamos aos velhos tempos? A diretora tecnológica da OpenAI afirma não saber com quais dados Sora foi treinado

Mira Murati não tem certeza se Sora foi treinada com dados de redes sociais

Voltamos aos velhos tempos? A diretora tecnológica da OpenAI afirma não saber com quais dados Sora foi treinado
Pedro Domínguez

Pedro Domínguez

  • Atualizado:

Toda vez que uma empresa de tecnologia lança uma nova inteligência artificial, a primeira dúvida que surge é “de onde vêm os dados com os quais ela foi treinada?”. Os modelos de IA são treinados usando grandes conjuntos de dados, que ajudam o modelo a aprender a reconhecer padrões, fazer previsões ou entender a linguagem.

ChatGPT Download

E é que não foram poucas as IA que foram treinadas com dados obtidos de forma ilícita ou, pelo menos, duvidosa, incluindo o popular ChatGPT, da empresa OpenAI. Por esse mesmo motivo, é no mínimo surpreendente que a diretora tecnológica desta empresa, Mira Murati, não tenha clareza sobre a fonte dos dados utilizados para treinar Sora, a nova IA da empresa capaz de gerar vídeos.

Durante uma entrevista com The Wall Street Journal publicada em 13 de março, Murati deu respostas vagas, no mínimo, quando questionado sobre a fonte dos dados do modelo Sora da OpenAI, capaz de gerar vídeos a partir de instruções de texto. “Nós utilizamos dados disponíveis publicamente e dados licenciados”, respondeu Murati sobre como a empresa está treinando seu próximo modelo.

Joanna Stern, jornalista do WSJ, perguntou então se Sora tinha sido treinada com dados de plataformas como YouTube, Instagram ou Facebook, ao que Murati respondeu: “Não tenho certeza disso”, acrescentando: “Você sabe, se estavam disponíveis para o público – disponíveis para o público usar. Mas não tenho certeza. Não tenho certeza disso”.

Antes de passar para outro assunto, Stern mencionou a parceria da OpenAI com a empresa de imagens de arquivo Shutterstock, perguntando se seus dados poderiam ser usados para treinar Sora. “Não vou entrar em detalhes sobre os dados que foram usados. Mas eram dados públicos ou licenciados”, acrescentou Murati. Mais tarde, a diretora confirmou ao WSJ que, de fato, foram utilizados dados do Shutterstock para treinar Sora.

ChatGPT Download
Pedro Domínguez

Pedro Domínguez

Os mais recentes de Pedro Domínguez

Diretrizes Editoriais