Em 30 de setembro de 2012, uma rede neural convolucional (CNN) chamada Alexnet alcançou um erro de 15,3% no desafio do ImageNet 2012, mais de 10,8 pontos percentuais inferiores aos do segundo colocado. Isso foi viável devido ao uso de Unidades de Processamento de Gráficos (GPUs) durante o treinamento, um ingrediente essencial da Deep Learning Revolution. Segundo o The Economist, "de repente as pessoas começaram a prestar atenção, não apenas dentro da comunidade de IA, mas em todo o setor de tecnologia como um todo".
Em 2015, a Alexnet foi superada pela CNN muito profunda da Microsoft com mais de 100 camadas, que venceu o concurso ImageNet 2015.
O pesquisador da IA Fei-FEI Li começou a trabalhar na idéia da ImageNet em 2006. Numa época em que a maioria das pesquisas de IA se concentrava em modelos e algoritmos, Li queria expandir e melhorar os dados disponíveis para treinar algoritmos de IA. Em 2007, Li se reuniu com a professora de Princeton, Christianne Fellbaum, uma das criadoras da Wordnet, para discutir o projeto. Como resultado desta reunião, a LI construiu o ImageNet a partir do banco de dados do Word do WordNet e usando muitos de seus recursos.
Como professor assistente em Princeton, Li reuniu uma equipe de pesquisadores para trabalhar no projeto ImageNet. Eles usaram o Amazon Mechanical Turk para ajudar na classificação de imagens.
Eles apresentaram seu banco de dados pela primeira vez como pôster na conferência de 2009 sobre visão computacional e reconhecimento de padrões (CVPR) na Flórida.
Imagenet Crowdsources seu processo de anotação. As anotações no nível da imagem indicam a presença ou ausência de uma classe de objeto em uma imagem, como "existem tigres nesta imagem" ou "não há tigres nesta imagem". As anotações no nível de objeto fornecem uma caixa delimitadora em torno da (parte visível do) objeto indicada. O ImageNet usa uma variante do esquema Broad WordNet para categorizar objetos, aumentado com 120 categorias de raças de cães para mostrar classificação de granulação fina. Uma desvantagem do uso do WordNet é que as categorias podem ser mais "elevadas" do que seria ideal para o ImageNet: "A maioria das pessoas está mais interessada em Lady Gaga ou no iPod mini do que nesse raro tipo de diplodoco". [Esclarecimento necessário] em 2012 ImageNet. foi o maior usuário acadêmico do mundo do Turk mecânico. O trabalhador médio identificou 50 imagens por minuto.
O ILSVRC visa "seguir os passos" do desafio Pascal Voc de menor escala, estabelecido em 2005, que continha apenas cerca de 20.000 imagens e vinte classes de objetos. Para "democratizar" o imagenet, a Fei-Fei li propôs à equipe Pascal VOC uma colaboração, a partir de 2010, onde as equipes de pesquisa avaliariam seus algoritmos no conjunto de dados especificados e competiriam para obter maior precisão em várias tarefas de reconhecimento visual.
A competição anual resultante é agora conhecida como o Imagenet Large Scale Reconsbonity Challenge (ILSVRC). O ILSVRC usa uma lista "aparada" de apenas 1000 categorias de imagens ou "classes", incluindo 90 das 120 raças de cães classificadas pelo esquema completo do Imagenet. Os 2010 viam progresso dramático no processamento da imagem. Por volta de 2011, uma boa taxa de erro Top-5 de classificação ILSVRC foi de 25%. Em 2012, uma profunda rede neural convolucional chamada Alexnet alcançou 16%; Nos próximos dois anos, as 5 principais taxas de erro caíram para alguns por cento. Enquanto o avanço de 2012 "peças combinadas que estavam lá antes", a dramática melhora quantitativa marcou o início de um boom de inteligência artificial em todo o setor. Em 2015, os pesquisadores da Microsoft relataram que seus CNNs excederam a capacidade humana nas tarefas estreitas do ILSVRC. No entanto, como um dos organizadores do desafio, Olga Russakovsky, apontou em 2015, os programas só precisam identificar imagens como pertencentes a uma das mil categorias; Os seres humanos podem reconhecer um número maior de categorias e também (ao contrário dos programas) pode julgar o contexto de uma imagem.
Até 2014, mais de cinquenta instituições participaram do ILSVRC. Em 2017, 29 das 38 equipes concorrentes tiveram maior que 95% de precisão. Em 2017, o ImageNet afirmou que lançaria um novo desafio, muito mais difícil, em 2018, que envolve a classificação de objetos 3D usando a linguagem natural. Como a criação de dados 3D é mais cara do que anotar uma imagem 2D pré-existente, o conjunto de dados deve ser menor. As aplicações de progresso nessa área variam de navegação robótica à realidade aumentada.
Um estudo da história das múltiplas camadas (taxonomia, classes de objetos e rotulagem) do ImageNet e WordNet em 2019 descreveu como o viés é profundamente incorporado na maioria das abordagens de classificação para todos os tipos de imagens. O ImageNet está trabalhando para abordar várias fontes de viés.