$\"chatgpt$ <\/a>

IMAGEM: ChatGPT “alucinando”<\/em><\/p><\/div>\n

Cena 1: Adultos perguntam sobre assunto complexo para uma crian\u00e7a pequena e ela responde algo totalmente sem sentido.<\/p>\n

Cena 2: Aluno n\u00e3o estuda a mat\u00e9ria e tenta chutar a resposta de uma prova discursiva, mas erra feio.\u00a0<\/p>\n

As duas cenas acima s\u00e3o corriqueiras e ajudam a ilustrar a raz\u00e3o pela qual ocorre a chamada “alucina\u00e7\u00e3o” do ChatGPT”. O GPT (Generative Pre-Trained Transformer) \u00e9 um LLM (Large Language Model) que processa trilh\u00f5es de par\u00e2metros e utiliza como base de consulta uma infinidade de informa\u00e7\u00f5es dos seguintes datasets (at\u00e9 setembro de 2021): Common Crawl, WebText2, Wikipedia, Books1 e Books2.<\/p>\n

Apesar da gigantesca quantidade de par\u00e2metros e de informa\u00e7\u00f5es a serem processadas e consultadas, o ChatGPT n\u00e3o \u00e9 um or\u00e1culo detentor de toda a sabedoria do universo. Na verdade, trata-se de um sistema de machine learning<\/em> (aprendizado de m\u00e1quina) que evoluiu algumas t\u00e9cnicas a partir da vers\u00e3o GPT-2, resultando no comportamento de dar respostas convincentes para absolutamente tudo o que \u00e9 perguntado.<\/p>\n

Zero-shot learning (ZSL), One-shot learning (OSL) e Few-shot learning (FSL) s\u00e3o configura\u00e7\u00f5es de aprendizado de m\u00e1quina em que os aplicativos “generalizam” a resposta a partir de nenhuma refer\u00eancia (Zero-Shot), apenas uma refer\u00eancia (One-shot) ou poucas refer\u00eancias (Few-shot). O resultado parece m\u00e1gico, pois a Intelig\u00eancia Artificial Generativa cria um texto bem escrito e persuasivo, mas com informa\u00e7\u00f5es totalmente equivocadas, como se estivesse “chutando uma resposta para tentar enganar a professora”, tal qual a cena 1.<\/p>\n

A din\u00e2mica acima \u00e9 diferente de Chatbots tradicionais que pedem para o usu\u00e1rio refazer a pergunta quando n\u00e3o a entendem completamente (Alexa, Siri e Google Assistant) ou transferem a conversa para um atendente humano ao se deparar com uma quest\u00e3o cuja resposta n\u00e3o est\u00e1 em seu banco de dados. Com o ChatGPT \u00e9 diferente e este \u00e9 um ponto que requer aten\u00e7\u00e3o para os que tratam o rob\u00f4 como um “guru”, pois pode causar um consider\u00e1vel processo de desinforma\u00e7\u00e3o, situa\u00e7\u00e3o especialmente perigosa em \u00e1reas como Sa\u00fade e Educa\u00e7\u00e3o.<\/p>\n

Veja o que o ChatGTP 3.5 (a vers\u00e3o Plus utiliza o GPT-4) respondeu sobre o seguinte prompt: “Como o ChatGPT trabalha com Zero-shot, One-Shot e Few-shot?<\/em>“<\/p>\n

\n
O ChatGPT \u00e9 capaz de trabalhar com zero-shot, one-shot e few-shot learning para realizar tarefas espec\u00edficas. Vou explicar como cada um desses m\u00e9todos funciona:<\/p>\n
1. Zero-shot learning: Nesse contexto, “zero-shot” significa que o modelo pode executar uma tarefa sem receber exemplos espec\u00edficos de treinamento para essa tarefa. Em vez disso, ele \u00e9 treinado em um conjunto diversificado de dados e aprende a generalizar para diferentes tarefas. Durante a infer\u00eancia, voc\u00ea pode fornecer uma descri\u00e7\u00e3o textual da tarefa que deseja realizar, juntamente com algum contexto inicial, e o modelo tentar\u00e1 gerar uma resposta adequada com base no conhecimento geral que adquiriu. Por exemplo, voc\u00ea pode pedir ao modelo para traduzir uma frase do ingl\u00eas para o franc\u00eas, mesmo que ele nunca tenha sido explicitamente treinado para essa tarefa.<\/p>\n
2. One-shot learning: Esse m\u00e9todo permite que o modelo execute uma tarefa com apenas um exemplo de treinamento. Em vez de fornecer v\u00e1rios exemplos de treinamento para uma tarefa espec\u00edfica, voc\u00ea apresenta apenas um exemplo e solicita ao modelo que generalize com base nesse \u00fanico exemplo. Por exemplo, voc\u00ea pode fornecer um exemplo de tradu\u00e7\u00e3o do ingl\u00eas para o franc\u00eas e pedir ao modelo para traduzir frases semelhantes com base nesse \u00fanico exemplo.<\/p>\n
3. Few-shot learning: Esse m\u00e9todo \u00e9 semelhante ao one-shot learning, mas permite fornecer alguns exemplos de treinamento adicionais para ajudar o modelo a generalizar melhor para uma determinada tarefa. Em vez de apenas um exemplo, voc\u00ea pode fornecer alguns poucos exemplos relacionados \u00e0 tarefa que deseja executar. Isso ajuda o modelo a capturar melhor a variabilidade e a compreender a tarefa com base nos exemplos fornecidos.<\/p>\n
O ChatGPT, especificamente, foi treinado usando um m\u00e9todo chamado “supervised fine-tuning”. Nesse processo, ele foi treinado em uma ampla variedade de tarefas de linguagem com exemplos espec\u00edficos de treinamento para cada tarefa. Isso permite que o modelo generalize para diferentes tipos de perguntas e comandos. Embora o ChatGPT tenha conhecimento at\u00e9 setembro de 2021, ele pode usar esse conhecimento para ajudar a responder perguntas e fornecer informa\u00e7\u00f5es \u00fateis.<\/p>\n<\/blockquote>\n
A capacidade do GPT para tarefas Zero-shot tamb\u00e9m permite que o LLM atue em tarefas diferentes das quais foi treinado, como c\u00e1lculos e at\u00e9 programa\u00e7\u00e3o. Isto porque o GPT apresenta a configura\u00e7\u00e3o de “Zero-shot task transfer”, em que o modelo \u00e9 capaz de transferir o conhecimento aprendido em uma tarefa para realizar outra relacionada, mesmo que n\u00e3o tenha recebido exemplos ou treinamento direcionado para essa nova tarefa.<\/p>\n
\u00c9 bom lembrar que o GPT passou por um processo de Reinforcement Learning from Human Feedback<\/em> (RLHF), ou seja, seu aprendizado de m\u00e1quina sofreu interven\u00e7\u00e3o humana a partir de feedbacks durante a fase de treinamento. Mesmo com todas as informa\u00e7\u00f5es dispon\u00edveis, o GPT ainda \u00e9 uma “black-box<\/em>“, sendo que seu funcionamento \u00e9 opaco, sem muita “explicabilidade”.<\/p>\n
O fato \u00e9 que as ferramentas de IA Generativa usam a configura\u00e7\u00e3o Zero-shot pois, avan\u00e7ar no treinamento de m\u00e1quina, \u00e9 muito caro e leva tempo. Nesta corrida desenfreada da Intelig\u00eancia Artificial, as Big Techs<\/em> lan\u00e7am produtos ainda com falhas e n\u00e3o se atentam para o “Dever de cuidado”, processo pelo qual devem se responsabilizar pelas consequ\u00eancia dos poss\u00edveis danos causados, como a desinforma\u00e7\u00e3o.<\/p>\n
\u00c9 por isso que alguns estudiosos reivindicam o \u201cPrinc\u00edpio da Precau\u00e7\u00e3o”, muito utilizado na Bio\u00e9tica, em que uma atividade \u00e9 restringida com o objetivo de prevenir poss\u00edveis danos ainda desconhecidos a partir de sua execu\u00e7\u00e3o.<\/p>\n
Em sua defesa, o ChatGPT 3.5 responde que:<\/p>\n
\n
No entanto, \u00e9 importante notar que a transfer\u00eancia “zero shot” tem limita\u00e7\u00f5es. Nem todas as tarefas podem ser realizadas com sucesso por um modelo de linguagem sem treinamento espec\u00edfico. A transfer\u00eancia “zero shot” \u00e9 mais eficaz quando as tarefas est\u00e3o relacionadas e compartilham caracter\u00edsticas sem\u00e2nticas ou estruturais. Al\u00e9m disso, o desempenho na transfer\u00eancia “zero shot” pode variar dependendo da complexidade da tarefa e da qualidade do treinamento pr\u00e9vio do modelo.<\/p>\n<\/blockquote>\n
Outro ponto diz respeito \u00e0 rela\u00e7\u00e3o entre o tempo de processamento do algoritmo e a acur\u00e1cia do modelo de Intelig\u00eancia Artificial. Em geral, quanto mais r\u00e1pido o processamento do algoritmo, pior a acur\u00e1cia (mais erros a IA ter\u00e1). Num chatbot, em que as respostas devem acontecer como numa conversa real, a IA n\u00e3o pode esperar 5 minutos ou 1 dia para processar as informa\u00e7\u00f5es. Neste caso, o ditado “a pressa \u00e9 inimiga da perfei\u00e7\u00e3o” faz todo o sentido e tamb\u00e9m ajuda a entender as alucina\u00e7\u00f5es do ChatGPT.<\/p>\n
REFER\u00caNCIAS:<\/p>\n
\n
Language Models are Few-Shot Learners<\/a> (PDF)<\/a><\/li>\n
GPT-4 Technical Report<\/a><\/li>\n
GPT-3 \u2013 Caracter\u00edsticas e Limita\u00e7\u00f5es<\/a><\/li>\n
The Journey of Open AI GPT models<\/a><\/li>\n
Modelos de Linguagem Como Tarefas N\u00e3o Supervisionadas (GPT-2)<\/a><\/li>\n
OpenAI Research: CLIP<\/a><\/li>\n
OpenAI Reserach: GPT-4<\/a><\/li>\n
O Princ\u00edpio da Precau\u00e7\u00e3o na Regula\u00e7\u00e3o da Intelig\u00eancia Artificial <\/a>(PDF)<\/a><\/li>\n
\u2018N\u00e3o podemos repetir o que fizemos com as redes sociais\u2019, entrevista de Fernanda Bruno sobre IA<\/a><\/li>\n
Entendendo as alucina\u00e7\u00f5es do ChatGPT<\/a><\/li>\n<\/ul>\n
OBS: A imagem que ilustra este texto original foi criada com a ferramenta DALL-E, que tamb\u00e9m utiliza o GPT como sistema de Intelig\u00eancia Artificial Generativa.<\/p>\n\n\n
<\/p>\n","protected":false},"excerpt":{"rendered":"
Zero-shot learning (ZSL), One-shot learning (OSL) e Few-shot learning (FSL) s\u00e3o modelos de aprendizado de m\u00e1quina em que os aplicativos tentam acertar a resposta a partir de nenhuma refer\u00eancia (Zero-Shot), apenas uma refer\u00eancia (One-shot) ou poucas refer\u00eancias (Few-shot). O resultado \u00e9 m\u00e1gico, pois a Intelig\u00eancia Artificial Generativa cria uma texto bem escrito e persuasivo, mas com informa\u00e7\u00f5es totalmente equivocadas, como se estivesse “chutando” uma resposta.<\/p>\n","protected":false},"author":1,"featured_media":1210,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"off","_et_pb_old_content":"","_et_gb_content_width":"","footnotes":""},"categories":[1,122],"tags":[127,131,128,125,126,123,124,130,129],"_links":{"self":[{"href":"https:\/\/arthurwilliam.com.br\/blog\/wp-json\/wp\/v2\/posts\/1200"}],"collection":[{"href":"https:\/\/arthurwilliam.com.br\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/arthurwilliam.com.br\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/arthurwilliam.com.br\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/arthurwilliam.com.br\/blog\/wp-json\/wp\/v2\/comments?post=1200"}],"version-history":[{"count":16,"href":"https:\/\/arthurwilliam.com.br\/blog\/wp-json\/wp\/v2\/posts\/1200\/revisions"}],"predecessor-version":[{"id":1225,"href":"https:\/\/arthurwilliam.com.br\/blog\/wp-json\/wp\/v2\/posts\/1200\/revisions\/1225"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/arthurwilliam.com.br\/blog\/wp-json\/wp\/v2\/media\/1210"}],"wp:attachment":[{"href":"https:\/\/arthurwilliam.com.br\/blog\/wp-json\/wp\/v2\/media?parent=1200"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/arthurwilliam.com.br\/blog\/wp-json\/wp\/v2\/categories?post=1200"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/arthurwilliam.com.br\/blog\/wp-json\/wp\/v2\/tags?post=1200"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}