
- Pentesting totalmente autônomo bate humanos no HackerOne
A startup XBOW lançou um sistema de pentesting inteiramente automatizado que subiu ao topo no ranking da plataforma HackerOne — lugar ocupado por especialistas em segurança com renome. O agente identificou vulnerabilidades críticas como RCE, injeção de SQL, XSS e SSRF — mostrando que sistemas de IA já rivalizam com os melhores humanos em segurança ofensiva . - Comportamentos de IA em jogos do “Dilema do Prisioneiro”
Uma pesquisa envolvendo modelos da Google, OpenAI e Anthropic em versões iteradas do clássico jogo de teoria dos jogos mostra que LLMs desenvolvem estratégias complexas: Gemini age como “estrategista implacável”, enquanto Claude seria o mais “forgiving reciprocator”. Os resultados mostram que a IA já evolui em cenários de cooperação e traição . - Desafio matemático de alto nível ainda é obstáculo para IA
A FrontierMath Tier 4, um benchmark criado pela Epoch AI com 50 problemas matemáticos de nível de pesquisa, continua sendo um muro para modelos como o o4-mini da OpenAI, Claude Opus 4 e Gemini 2.5 Pro — que acertam apenas dígitos únicos de acerto. Surpreendentemente, apenas três foram resolvidos por IA, e com simplificações não justificadas . - Regulação de IA deve focar em grandes empresas, não só em modelos
Dois pesquisadores da Carnegie Endowment sugerem que a regulação de IA deveria mirar diretamente os “lab frontiers” – empresas como OpenAI, Anthropic e Google – ao invés de modelos específicos ou casos de uso, argumentando que isso melhora a transparência e gestão de riscos antes que propriedades perigosas emergentes causem danos .
Conclusão
- IAs estão superando humanos em tarefas específicas de segurança digital.
- Modelos estão aprendendo a operar em cenários cooperativos e estratégicos.
- Há limites sólidos quando se trata de problemas matemáticos de alta complexidade.
- A regulação deve evoluir para contemplar agentes e entidades que desenvolvem IA, e não apenas os modelos em si.
Para empresas, pesquisadores e formuladores de política, esses achados são um alerta: é preciso acompanhar de perto, e agir com estratégia, conforme essas tecnologias deixam de ser apenas promessas futuras.
Deixe um comentário