Atribut relatif

Marr Prize (Best Paper Award) Winner, ICCV 2011

Devi Parikh  dan  Kristen Grauman

"Siapa di pelangi dapat menarik garis di mana violet warna berakhir dan warna oranye dimulai? Jelas kita melihat perbedaan warna, tapi di mana tepatnya satu yang pertama blendingly masuk ke yang lain? Jadi dengan kewarasan dan kegilaan. 
 
" -Herman Melville, Billy Budd 

     

Abstrak

Manusia-nameable visual "atribut" bisa mendapatkan keuntungan berbagai tugas pengakuan. Namun, teknik yang ada membatasi sifat ini untuk label kategoris (misalnya, seseorang 'tersenyum' atau tidak, adegan adalah 'kering' atau tidak), dan dengan demikian gagal untuk menangkap hubungan semantik lebih umum. Kami mengusulkan untuk model relatif atribut. Data pelatihan yang diberikan menyatakan bagaimana kategori objek / adegan mengaitkan sesuatu sesuai dengan atribut yang berbeda, kita belajar fungsi ranking per atribut. Fungsi Peringkat belajar memprediksi kekuatan relatif dari masing-masing properti di gambar baru. Kami kemudian membangun sebuah model generatif atas ruang bersama Peringkat atribut output, dan mengusulkan suatu bentuk baru dari nol-shot belajar di mana supervisor berhubungan kategori objek tak terlihat ke objek sebelumnya terlihat melalui atribut (misalnya, 'beruang pedagang bulu dari jerapah '). Kami lebih menunjukkan bagaimana atribut relatif diusulkan mengaktifkan deskripsi tekstual kaya untuk gambar baru, yang dalam prakteknya lebih tepat untuk interpretasi manusia. Kami menunjukkan pendekatan pada dataset wajah dan pemandangan alam, dan menunjukkan keuntungan yang jelas lebih dari prediksi atribut biner tradisional untuk tugas-tugas baru. 
 

Motivasi

Atribut biner yang ketat dan bisa tidak alami. Dalam contoh di atas, sementara satu dapat mencirikan gambar di kanan atas kiri atas dan sebagai alami dan buatan manusia masing-masing, apa yang akan Anda menjelaskan gambar di atas pusat sebagai? Satu-satunya cara yang berarti untuk mengkarakterisasi itu sehubungan dengan gambar lain: kurang alami daripada gambar di sebelah kiri, tetapi lebih daripada gambar di sebelah kanan. 

 

 

Usul

Dalam karya ini, kami mengusulkan untuk model atribut relatif. Sebagai lawan memprediksi kehadiran atribut, atribut relatif menunjukkan kekuatan atribut dalam sebuah gambar sehubungan dengan gambar lainnya. Selain menjadi lebih alami, atribut relatif menawarkan modus kaya komunikasi, sehingga memungkinkan akses ke pengawasan manusia yang lebih rinci (dan berpotensi tinggi akurasi pengenalan), serta kemampuan untuk menghasilkan deskripsi lebih informatif gambar baru. 

 

Kami merancang pendekatan yang belajar suatu fungsi peringkat untuk setiap atribut, mengingat kendala kesamaan relatif pada pasang contoh (atau lebih umumnya memesan parsial pada beberapa contoh). Fungsi Peringkat belajar dapat memperkirakan peringkat bernilai real untuk gambar yang menunjukkan kekuatan relatif dari kehadiran atribut di dalamnya. 

 

Kami memperkenalkan bentuk baru dari belajar nol-shot dan deskripsi gambar yang mengeksploitasi prediksi atribut relatif.

 

 

Pendekatan

Belajar atribut relatif: Setiap atribut relatif dipelajari melalui pembelajaran untuk peringkat formulasi, diberikan pengawasan komparatif, seperti yang ditunjukkan di bawah ini:


  

Perbedaan antara belajar lebar margin fungsi peringkat (kanan) yang memaksa urutan yang diinginkan pada poin pelatihan (1-6), dan lebar margin biner dikelompokkan er (kiri) yang hanya memisahkan dua kelas (+ dan -), dan melakukan belum tentu melestarikan memesan diinginkan pada poin ditunjukkan di bawah ini:

 

 

  

Novel pembelajaran nol-shot: Kami mempelajari berikut set-up 

  • N Total kategori: S dilihat kategori (gambar yang terkait tersedia) + U gaib kategori (ada gambar yang tersedia untuk kategori ini)

  • S melihat kategori dijelaskan relatif satu sama lain melalui atribut (tidak semua pasangan kategori perlu terkait untuk semua atribut)

  • U tak terlihat categorires dijelaskan relatif (bagian dari) melihat kategori dalam hal (bagian dari) atribut.

Kami pertama kali melatih satu set atribut relatif menggunakan pengawasan disediakan di lihat kategori. Atribut ini juga dapat pra-terlatih dari data eksternal. Kami kemudian membangun sebuah model generatif (Gaussian) untuk setiap melihat kategori menggunakan tanggapan dari atribut relatif terhadap gambar dari melihat kategori. Kami kemudian menyimpulkan parameter dari model generatif tak terlihat caregories dengan memanfaatkan deskripsi relatif mereka terhadap dilihat kategori. Sebuah visualisasi dari pendekatan sederhana kami mempekerjakan untuk ini adalah sebagai berikut: 


 

 

Sebuah gambar tes ditugaskan untuk kategori dengan kemungkinan maksimum.   

Menghasilkan desriptions tekstual relatif gambar secara otomatis: Mengingat gambar saya akan dijelaskan, kami mengevaluasi semua belajar peringkat fungsi pada I. Untuk setiap atribut, kami mengidentifikasi dua gambar referensi berbaring di kedua sisi saya, dan tidak terlalu jauh dari atau terlalu dekat dengan I. Gambar I kemudian dijelaskan relatif terhadap dua gambar referensi ini, seperti yang ditunjukkan di bawah ini:
 

 

Seperti yang terlihat di atas, selain menggambarkan citra sebuah relatif terhadap gambar lainnya, pendekatan kami dapat juga menggambarkan citra sebuah relatif terhadap kategori lainnya, sehingga deskripsi murni tekstual. Jelas, deskripsi relatif lebih tepat dan informatif daripada deskripsi biner konvensional.

 

 

Percobaan dan Hasil

 

Kami melakukan percobaan pada dua dataset: 

(1) Luar Scene Recognition (OSR) mengandung 2.688 gambar dari 8 kategori: pantai C, hutan F, jalan raya H, di dalam kota saya, gunung M, open-negara O, jalan S dan tinggi-bangunan T. Kami menggunakan fitur inti untuk mewakili gambar.

(2) Sebuah subset dari Angka Umum Wajah database (PubFig) mengandung 772 gambar dari 8 kategori: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V dan Zac Efron Z. Kami menggunakan bersambung inti dan dan warna fitur untuk mewakili gambar.

Daftar atribut yang digunakan untuk setiap dataset, bersama dengan penjelasan atribut biner dan relatif ditunjukkan di bawah ini:

   

 

Pembelajaran nol-shot:

Kami membandingkan pendekatan kami diusulkan untuk dua baseline. Yang pertama adalah berbasis Score Atribut Relatif (SRA). dasar ini adalah sama dengan pendekatan kami, kecuali menggunakan skor dari classifier biner (atribut biner) bukan nilai dari fungsi peringkat. dasar ini membantu mengevaluasi kebutuhan fungsi peringkat model terbaik atribut relatif. dasar kedua adalah langsung Atribut Prediksi (DAP) model yang diperkenalkan oleh Lampert et al. di CVPR 2009. dasar ini membantu mengevaluasi manfaat pengobatan relatif atribut sebagai lawan kategoris. Kami mengevaluasi pendekatan ini untuk berbagai jumlah kategori yang tak terlihat, berbagai jumlah data yang digunakan untuk melatih atribut, bervariasi jumlah attribtues digunakan untuk menggambarkan kategori yang tak terlihat, dan berbagai tingkat 'kelonggaran' dalam deskripsi kategori yang tak terlihat. Rincian eksperimental set-up dapat ditemukan dalam makalah kami. Hasilnya ditunjukkan di bawah ini:

 

 

 

Auto-dihasilkan deskripsi gambar:

Dalam rangka untuk mengevaluasi kualitas deskripsi gambar relatif untuk rekan-rekan biner, kami melakukan studi manusia. Kami dihasilkan deskripsi dari suatu gambar dengan menggunakan pendekatan kami, serta atribut biner dasar. Kami disajikan subyek dengan penjelasan ini, bersama dengan tiga gambar. Salah satu dari tiga gambar itu gambar yang dijelaskan. Tugas subyek adalah untuk peringkat tiga gambar berdasarkan mana yang mereka pikir paling mungkin untuk menjadi orang yang dijelaskan. Yang lebih tepat deskripsi, semakin baik kemungkinan subjek memiliki mengidentifikasi gambar yang benar. Ilustrasi tugas disajikan untuk mata pelajaran adalah sebagai berikut:

 

 

Hasil penelitian yang ditunjukkan di bawah ini. Kami melihat bahwa mata pelajaran dapat mengidentifikasi gambar yang benar lebih akurat menggunakan atribut relatif diusulkan kami, dibandingkan dengan atribut biner.

 

 

Contoh deskripsi biner dari gambar serta deskripsi relatif terhadap kategori adalah sebagai berikut:

 

Gambar Deskripsi biner Deskripsi relatif
tidak alami 
tidak terbuka 
perspektif
lebih alami dari tallbuilding, kurang alami dari hutan 
lebih terbuka daripada tallbuilding, kurang terbuka dari pantai 
lebih perspektif dari tallbuilding
tidak alami 
tidak terbuka 
perspektif
lebih alami dari insidecity, kurang alami dari jalan raya 
lebih terbuka dari jalan, kurang terbuka dari pantai 
lebih perspektif dari jalan raya, perspektif kurang dari insidecity
alam 
terbuka 
perspektif
lebih alami dari tallbuilding, kurang alami dari gunung 
yang lebih terbuka dari gunung 
perspektif kurang dari opencountry
Putih 
tidak Tersenyum 
VisibleForehead
lebih Putih dari AlexRodriguez
lebih Tersenyum dari Jared Leto , kurang Tersenyum dari ZacEfron
lebih VisibleForehead dari  Jared Leto , kurang VisibleForehead dari Miley Cyrus
Putih 
tidak Tersenyum 
tidak VisibleForehead
lebih Putih dari AlexRodriguez , kurang Putih dari  Miley Cyrus kurang Tersenyum dari Hugh Laurie lebih VisibleForehead dari  ZacEfron , kurang VisibleForehead dari  Miley Cyrus 
 
tidak muda 
BushyEyebrows 
roundface
lebih muda dari Clive Owen , kurang Muda dari Scarlett Johansson
BushyEyebrows lebih dari  ZacEfron , kurang BushyEyebrows dariAlexRodriguez lebih roundface dari  Clive Owen , kurang roundface dari ZacEfron 

      

Data

Kami menyediakan t ia belajar atribut relatif dan prediksi mereka untuk dua dataset yang digunakan dalam makalah kami:  terbuka Scene Recognition (OSR) dan subset dari Angka Umum Wajah database (PubFig). 

 

BACA AKU

Download (v2)

 

Relatif Wajah Atribut Dataset . Ini berisi penjelasan untuk 29 atribut relatif pada 60 kategori dari  Angka Public Wajah database (PubFig).  

 

Kode

Kami dimodifikasi pelaksanaan RankSVM Olivier Chappelle untuk melatih atribut relatif dengan kendala kesamaan. Kode diubah kami dapat ditemukan di sini .

 

Jika Anda menggunakan kode kami, silahkan mengutip kertas berikut:

D. Parikh dan K. Grauman

Atribut relatif

Konferensi Internasional tentang Computer Vision (ICCV) 2011.

   

Demo

 

Demo dari berbagai aplikasi atribut relatif dapat ditemukan di sini . Penjelasan dari aplikasi ini dapat ditemukan di koran sini .

 

Publikasi

 

D. Parikh dan K. Grauman

Atribut relatif