Inteligência artificial: o que são modelos de linguagem e para que servem

Buscar
Publicidade

ProXXIma

Inteligência artificial: o que são modelos de linguagem e para que servem

Funcionando de maneira preditiva, modelos de linguagem fornecem informações com base no treinamento em bancos de dados da Internet

Preencha o formulário abaixo para enviar uma mensagem:


17 de maio de 2023 - 6h03

A conversa acalorada sobre inteligência artificial (IA) veio acompanhada de termos que a definem e a tornam tão apelativa. Entre eles, estão os modelos de linguagem, ou mais utilizados na língua inglesa a partir da definição Natural Language Processing (NLP), ou processamento de linguagem natural, em tradução livre.

modelos de linguagem

Corrida da IA envolve poder de modelos de linguagem e capacidade de predição das ferramentas (Crédito: Ole CNX/Shutterstock)

A inteligência artificial como se conhece mais amplamente e em seu sentido mais básico, é uma ferramenta baseada em sistemas que são treinados a partir de informações e imagens prévias. Os modelos de linguagem naturais consolidam-se como conjunto de soluções, algoritmos e técnicas que, dentro da IA, tenham relação de linguagem com as máquinas, conforme explica John Paul Hempel Lima, coordenador acadêmico do curso de graduação tecnológica em Inteligência Artificial da Fiap. A tradução de um texto, por exemplo, tem seu processo fundamentado em NLP.

“Uma das mais importantes que agora temos visto é o retrieval, ou seja, devolver informação”, explica o coordenador sobre a tendência de tecnologias como o ChatGPT. “A pesquisa da IA agora é sobre construir modelos de linguagem que consigam dar respostas a partir de um conhecimento prévio”, complementa.

A principal virada de chave da inteligência artificial que chega ao usuário comum parte da sofisticação dos chatbots, que não são novidades na história da tecnologia. Agora, a corrida da IA consiste, em grande parte, na habilidade dos sistemas em dar respostas o mais próximo possível de como um ser humano faria. Lima explica que, desde 2018, têm surgindo insights de pesquisas sobre os modelos transformers, que são redes neurais que fornecem informações a partir de um contexto predeterminado.

Batizados de Large Language Models, os modelos funcionam baseados em processos matemáticos. Tomando o ChatGPT como exemplo: a primeira etapa de seu uso é a chamada tokenização. O sistema transforma o conjunto de letras fornecidas pelo usuário, neste caso, em palavras, em números. A sequência gerada por esse processo faz com que o modelo calcule a probabilidade matemática de realizar uma predição – ou resposta – recomendada de volta ao usuário.

A resposta gerada a partir de uma pergunta ou pedido específico é possível graças aos modelos de linguagem. Atualmente, são altamente eficientes devido a um aprendizado prévio. Além disso, tal aprendizado é feito com base em grandes bibliotecas de dados já existentes em toda a internet. Um dos maiores atualmente é o NeMo Megatron, da Nvidia, que suporta modelos do tipo GPT e Bart.

“A primeira grande evolução nessa linha foi a questão do machine learning. Ele é um domínio de IA em que as máquinas conseguem extrair alguns padrões de um banco de dados e, a partir desses padrões, conseguem funcionar de forma mais independente”, relembra Marcela Vairo, diretora de data & AI da IBM Brasil. Na sequência, o deep learning também foi importante precursor. O sistema aprende a partir de um volume de dados estruturados e não estruturados, como gráficos e imagens, por exemplo. A partir daí, aumenta-se a possibilidade de ter modelos preditivos.

Modelos de linguagem e a corrida da IA

Afinal, o que torna um modelo de linguagem mais poderoso que outro? Os modelos de linguagem são fator determinante do sucesso de uma solução de inteligência artificial. O GPT-3, a versão mais atualizada do ChatGPT, é capaz de aplicar seu aprendizado de máquina em 175 bilhões de parâmetros. Seu treinamento é baseado no dataset Common Crawl, um dataset que reúne 60 milhões de domínios da web e seus adjacentes. Ainda que não tenha sido oficialmente apresentado, o GPT-4, próxima atualização, deve ser dez vezes maior.

“GPT” é a sigla para generative pre-trained transformers, tipo de large language models que garante a evolução do que se conhece por inteligência artificial generativa. Enquanto isso, a versão atual do Bard, inteligência artificial do Google, foi treinada no LaMDA. O acrônimo para “language model for dialogue applications” conta com 137 bilhões de parâmetros. O CEO do Google, Sundar Pichai, afirmou que irá migrar a tecnologia para o PaLM, que abraça cerca de 540 bilhões de parâmetros.

“Nenhuma empresa mais vai ter todo o conhecimento dentro de casa”, afirma Marcela, da IBM Brasil. A executiva refere-se à intensa troca de dados entre empresas que a IA demanda. “Estamos entrando em uma nova era de inteligência em que a tecnologia permite a criação desses modelos para propostas específicas”, diz.

Ademais, longe dos olhos do usuário comum, os modelos de linguagem são usados também para outras finalidades que não o mecanismo de perguntas e respostas. A IBM firmou parceria com a Nasa para aplicar modelos fundacionais de IA aos dados de satélites de observação terrestre. A finalidade é colaborar para as previsões climáticas a partir do MERRA2, um conjunto de dados de observações atmosféricas.

Publicidade

Compartilhe

Veja também

  • Como as redes sociais podem contribuir na conversão do e-commerce?

    Como as redes sociais podem contribuir na conversão do e-commerce?

    Levantamento da Nuvemshop aponta maior interferência das redes sociais na venda direta de produtos online no primeiro semestre

  • Pipeline Capital lança concurso para startups de GenAI Commerce

    Pipeline Capital lança concurso para startups de GenAI Commerce

    Iniciativa visa reconhecer IA como elemento acelerador do crescimento das empresas na área de varejo e e-commerce no Brasil