Zero-shot human attribute classification using pretrained VLMs
Visualizar/abrir
Data
2025Autor
Orientador
Co-orientador
Nível acadêmico
Mestrado
Tipo
Outro título
Classificação de images usando VLMs pré-treinadas
Assunto
Abstract
Gender and ethnicity recognition is a key computer vision task in biometrics, surveil- lance, and demographic studies. Contrastive Language-Image Pre-training (CLIP) is a Vision-Language Model with promising zero-shot performance in several downstream tasks, without the need for fine-tuning or retraining, allowing end-users to simply input an image and ask for its characteristics. However, given the nature of the data used to train these models and the impact of the textual prompt on the classi ...
Gender and ethnicity recognition is a key computer vision task in biometrics, surveil- lance, and demographic studies. Contrastive Language-Image Pre-training (CLIP) is a Vision-Language Model with promising zero-shot performance in several downstream tasks, without the need for fine-tuning or retraining, allowing end-users to simply input an image and ask for its characteristics. However, given the nature of the data used to train these models and the impact of the textual prompt on the classification results, it could cause harm by amplifying stereotypes and prejudice. In this thesis, we investigate the im- pact of training data and model scaling for zero-shot gender and ethnicity classification by evaluating several CLIP-like models. We conduct a model scaling benchmark with ViT models ranging from B-32 to g-14, and a data scaling benchmark with models trained on the original OpenAI dataset, the Laion-400M and the Laion-2B dataset. We perceived a minor improvement in accuracy and fairness with the scaling of model parameters and dataset sizes, but with results far below the expected for deployment, suggesting that raw scaling alone is not enough. To this end, we further improve the textual prompt by in- serting biometric features such as race, age and gender, increasing accuracy from 0.58 to 0.65 with ViT-B-16. Finally, we explore the limits of manual prompt engineering with a prompt tuning algorithm called CoOp, capable of mitigating serious gaps in the baseline models. ...
Resumo
Reconhecimento de gênero e etnia é uma tarefa chave de visão computacional para bi- ometria, vigilância e estudos demográficos. Contrastive Language-Image Pre-training (CLIP) é um modelo de visão e linguagem com uma performance zero-shot promissora em diversas tarefas alvo, sem a necessidade de fine-tuning nem retreinamento, permitindo aos usuários que simplesmente forneçam uma imagem e perguntem sobre suas caracte- rísticas. Porém, dado a natureza dos dados usados para treinar esses modelos e ...
Reconhecimento de gênero e etnia é uma tarefa chave de visão computacional para bi- ometria, vigilância e estudos demográficos. Contrastive Language-Image Pre-training (CLIP) é um modelo de visão e linguagem com uma performance zero-shot promissora em diversas tarefas alvo, sem a necessidade de fine-tuning nem retreinamento, permitindo aos usuários que simplesmente forneçam uma imagem e perguntem sobre suas caracte- rísticas. Porém, dado a natureza dos dados usados para treinar esses modelos e o impacto do prompt de texto nos resultados da classificação, ele pode amplificar preconceitos e estereótipos. Neste artigo, investigamos o impacto do dimensionamento dos dados de treinamento e dos modelos na classificação zero-shot de gênero e etnias, utilizando diver- sos modelos do tipo CLIP. Conduzimos um benchmark de dimensionamento de modelos ViT que vão desde o ViT-B-32 até o ViT-g-14, e um benchmark de dimensionamento de dados com modelos treinados no conjunto de dados original da OpenAI, e os conjuntos de dados Laion-400M e Laion-2B. Percebemos uma leve melhoria na acurácia e na equi- dade com os dimensionamentos, mas com resultados ainda muito abaixos do esperados para implantação, sugerindo que o dimensionamento puro não é suficiente. Com isso, melhoramos o prompt de texto ao inserir características biométricas como raça, idade e gênero, melhorando a acurácia de 0.58 para 0.65 com ViT-B-16. Finalmente, exploramos os limites da engenharia manual do prompt com um algoritmo de prompt tuning chamado CoOp, capaz de mitigar lacunas sérias nos modelos base. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.
Coleções
-
Ciências Exatas e da Terra (5341)Computação (1823)
Este item está licenciado na Creative Commons License


