Software do Google cria legendas para fotos
Programa usa rede neural para analisar imagens e resumi-las em uma frase
Lucas Agrela
Publicado em 18 de novembro de 2014 às 13h24.
Um novo software desenvolvido por engenheiros do Google é capaz de oferecer uma sugestão de legenda para a sua foto. O programa é chamado Neural Image Caption (legendagem imagética neural, em tradução livre) e tem como base técnicas de computação visual e processamento de linguagem natural, que permitem às máquinas, de certa forma, enxergar e entender palavras.
O projeto realizado por Oriol Vinyals, Alexander Toshev, Samy Bengio e Dumitru Erhan foi publicado no site da Cornell University Library e divulgado no blog do Google. As legendas geradas têm caráter descritivo, como mostra o exemplo acima. "As pessoas podem resumir uma cena complexa em poucas palavras sem precisar pensar duas vezes. Mas isso é muito mais difícil para computadores", de acordo com o blog da empresa.
Uma das origens dessa tecnologia é o avanço recente em tradução de máquina (machine translation) de idiomas. Uma rede neural recorrente consegue converter uma frase escrita em uma língua em uma representação vetorial e, em seguida, traduzi-la em outro idioma. O projeto utiliza uma rede neural recorrente como a descrita acima em conjunto com uma rede neural convolucional que foi treinada para analisar imagens, dessa forma, criando uma frase que resume uma determinada cena.
O objetivo dos pesquisadores agora é tornar as legendas mais naturais, menos mecânicas.