Contents

LLM4Decompile assume a descompilação binária!

Contents

/images/e03a4c660f62802e53615c930974725431a1105e358c9e7cbf882300d6e37bbe.jpg

@este site — 16 de março de 2024

Visualize um reino utópico onde o conhecimento esotérico oculto nos binários compilados não esteja mais fora do alcance de indivíduos comuns como nós, transcendendo as nossas limitações terrenas e concedendo-nos acesso a um domínio enigmático anteriormente inatingível.

Isso é exatamente o que LLM4Decompile , o primeiro LLM (Large Language Model) de código aberto dedicado à descompilação, promete alcançar. Resultado de um trabalho de investigação inovador realizado por uma equipa de investigadores apaixonados, este modelo revolucionário abre novas perspectivas no campo da engenharia inversa.

Antes do surgimento do LLM4Decompile, a tarefa de engenharia reversa de um programa compilado em seu código-fonte original provou ser uma tarefa árdua. As técnicas convencionais de descompilação muitas vezes resultavam em código-fonte difícil para a compreensão humana devido à quantidade significativa de informações perdidas durante o processo de compilação. No entanto, com o advento do LLM4Decompile, este obstáculo outrora formidável foi conquistado.

Utilizando um vasto corpus que abrange quatro bilhões de instâncias de linguagem de programação C e código assembly x86, este modelo linguístico altamente competente decifrou com sucesso as complexidades dos arquivos binários. Devido ao seu design fundamental baseado na arquitetura Transformer e reforçado por uma impressionante contagem de bilhões de parâmetros, ele atinge um grau insuperável de precisão no reconhecimento de padrões e nuances semânticas inerentes à base de código.

/images/77ebd59162c2e68e6ee4669ace5ef5b85727d99eec51b84d8f214b3f353a9157.jpg

Os investigadores não cessaram seus esforços naquele momento. Além disso, estabeleceram uma referência pioneira para descompilação conhecida como Decompile-Eval, que se baseia em dilemas de programação genuínos. Isto permite uma avaliação da capacidade dos modelos para reconstituir código executável e reexecutável. Abandonando as medidas de similaridade simbólica, agora temos padrões de avaliação confiáveis ​​e pertinentes! O LLM4Decompile alcançou um feito notável ao recompilar com sucesso

Na verdade, a nossa análise revela que uma parte substancial do código reconstruído, no valor de 21%, passa com sucesso em todos os testes unitários, o que sublinha a retenção das propriedades funcionais do software. Este valor representa uma melhoria de 50% em relação ao alcançado pelo GPT-4, um desempenho amplamente considerado exemplar na área.

Na verdade, um dos aspectos mais atraentes do LLM4Decompile é a sua natureza de código aberto. Os usuários têm acesso a uma ampla gama de modelos pré-treinados com vários graus de complexidade, variando de 1,3 a impressionantes 33 bilhões de parâmetros, todos os quais podem ser encontrados na plataforma Hugging Face. Além disso, o repositório do projeto no GitHub fornece aos usuários o código necessário, bem como acesso aos dados de treinamento e resultados de benchmark, permitindo-lhes aprimorar ainda mais as capacidades da ferramenta e, por sua vez, contribuir para o seu desenvolvimento.

Na verdade, embora o LLM4Decompile represente um avanço inicial no domínio da descompilação baseada em inteligência artificial, ainda existe amplo espaço para expansão e refinamento. Atualmente, suas capacidades estão restritas apenas à linguagem de programação C e à arquitetura assembly x86, com sua funcionalidade atualmente confinada à dissecação individual de funções selecionadas. No entanto, o potencial de crescimento e evolução é vasto, pois pode-se imaginar a extensão da sua aplicabilidade a várias linguagens e designs de processadores adicionais. Além disso, a possibilidade de empregar o LLM4Decompile para automatizar o processo de tradução de código em diferentes estruturas linguísticas surge como uma perspectiva tentadora.

As utilizações possíveis abrangem uma gama diversificada de domínios, incluindo a reconstrução de sistemas de software desatualizados, o exame de programas de computador nocivos e a conversão de videojogos antigos para plataformas contemporâneas. Além disso, mesmo arquivos binários antiquados que emitem um odor que lembra tecido mofado se tornarão transparentes ao nosso olhar curioso.

-Desenvolvimento

Descubra um artigo aleatório…

Compartilhe este artigo

*️⃣ Link da fonte:

LLM4Decompile , LLM4Decompile ,