This page is also provided in English.
SKํ ๋ ์ฝค์ ์ฌํ์ ๊ฐ์น ์ถ๊ตฌ๋ฅผ ์ํ ๋ค์ํ ์ฌ์ ์ ์งํํ๊ณ ์์ต๋๋ค. ๊ธฐ์ ์ด ๋จผ์ ์์ฅ์์ ์ฌํ ์์ ํผ์ฌ๋ ์ฌํ์ ์ด์๋ฅผ ๋ฐ๊ตดํ๊ณ , ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์ฌํ์ ์ฑ ์์ ์ง๋ ๊ฒ์ด ์ง์๊ฐ๋ฅํ ๊ฒฝ์์ ์ถ๋ฐ์ด๋ผ๊ณ ์๊ฐํฉ๋๋ค.
2019๋ 4์๋ถํฐ ์ด ๊ธฐ์ ์ ํ์งํ๋ฅผ ์ํด ์ฌํ์ ๊ธฐ์ ์ธ ํ ์คํธ์์ค์ ํ์ ํ์ฌ ์๋ฐ์ ์ผ๋ก ์ง์ํ ์ฐ๋ฆฌ๋๋ผ์ ์๊ฐ์ฅ์ ์ธ๋ค๋ก๋ถํฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ์๊ณ , ์๋ฌธ์ผ๋ก ๊ณต๊ฐ๋ VizWiz ๋ฐ์ดํฐ์ ์ค ํ์งํ๊ฐ ๊ฐ๋ฅํ ์ผ๋ถ๋ฅผ ํ๊ตญ์ด๋ก ๋ฒ์ญํ์ฌ ์๊ฐ์ ์ง์์๋ต ๊ธฐ์ ์ ํ๊ตญ์ด๋ก ํ์ต์ํฌ ์ ์๋ ๋ฐ์ดํฐ์ ์ ๋ง๋ค์์ต๋๋ค.
๋ ผ๋ฌธ
AI for Social Good workshop at NeurIPS (Kim & Lim et al., 2019)
์๊ฐ์ ์ง์์๋ต
์๊ฐ์ ์ง์์๋ต์ ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๊ณ ๊ทธ ์ด๋ฏธ์ง์ ๋ํ ์ง๋ฌธ์ด ์ฃผ์ด์ก์ ๋, ์ด๋ฏธ์ง๋ฅผ ์ดํดํ์ฌ ์์ฐ์ด๋ก ์ง๋ฌธ์ ๋ํ ๋ต์ ์ฃผ๋ ๊ธฐ์ ์ ๋๋ค.
KVQA ๋ฐ์ดํฐ์
KVQA ๋ฐ์ดํฐ์ ์ T-Brain์ด ์งํํ๋ ์ฌํ์ ๊ฐ์น ์ถ๊ตฌ๋ฅผ ์ํ ํ๋ก์ ํธ์ ์ผํ์ผ๋ก์, ํ๊ตญํ ์๊ฐ์ ์ง์์๋ต(Visual Question Answering) ๋ฐ์ดํฐ์ ์ ๋๋ค. KVQA ๋ฐ์ดํฐ์ ์ ํ๊ตญ ์๊ฐ์ฅ์ ์ธ๋ค์ด ์ฐ์ ์ฌ์ง๊ณผ ๊ทธ ์ฌ์ง์ ๋ํ ์ง๋ฌธ๊ณผ ์๋ก ๋ค๋ฅธ ์ด ๋ช ์ ๋ณต์ ๋ต์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ํ์ฌ๋ ์ด 3๋ง ๊ฑด์ ์ด๋ฏธ์ง์ ์ง๋ฌธ, ๊ทธ๋ฆฌ๊ณ 30๋ง ๊ฑด์ ๋ต๋ณ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋, ์ฌํด ๋ง๊น์ง 10๋ง ๊ฑด์ ์ด๋ฏธ์ง์ ์ง๋ฌธ, ๊ทธ๋ฆฌ๊ณ 100๋ง ๊ฑด์ ๋ต๋ณ์ผ๋ก ์ฆ๋ํ ์์ ์ ๋๋ค. ๋ณธ ๋ฐ์ดํฐ์ ์ ๊ต์ก ๋ฐ ์ฐ๊ตฌ๋ชฉ์ ์ผ๋ก ์ฌ์ฉ์ด ๊ฐ๋ฅํ๋ฉฐ, ์์ธํ ๋ด์ฉ์ ์ฒจ๋ถ๋ ๋ผ์ด์ ์ค๋ฅผ ์ฐธ์กฐํด์ฃผ์๊ธฐ ๋ฐ๋๋๋ค. KVQA ๋ฐ์ดํฐ์ ์ ํตํด ํ๊ตญํ ์๊ฐ์ ์ง์์๋ต ๊ธฐ์ ๋ฐ์ ๊ณผ ์ฌํ์ ๊ฐ์น๋ฅผ ๋์์ ์ถ๊ตฌํ ์ ์๊ธฐ๋ฅผ ๋ฐ๋๋๋ค.
๋ฐ์ดํฐ์ ์ ์ด ๋งํฌ๋ฅผ ํตํด ๋ค์ด๋ฐ์ผ์ค ์ ์์ต๋๋ค.
ํต๊ณ
v1.0 (2020๋ 1์)
์ ์ฒด (%) | ์/์๋์ค (%) | ์ซ์ (%) | ๊ธฐํ (%) | ๋ต๋ณ๋ถ๊ฐ๋ฅ (%) | |
---|---|---|---|---|---|
์ด๋ฏธ์ง ์ | 100,445 (100) | 6,124 (6.10) | 9,332 (9.29) | 69,069 (68.76) | 15,920 (15.85) |
์ง๋ฌธ ์ | 100,445 (100) | 6,124 (6.10) | 9,332 (9.29) | 69,069 (68.76) | 15,920 (15.85) |
๋ต๋ณ ์ | 1,004,450 (100) | 61,240 (6.10) | 93,320 (9.29) | 690,690 (68.76) | 159,200 (15.85) |
์ฑ๋ฅ ์ธก์
ํ ์ง๋ฌธ ๋น ์ด ๋ช ์ ์๋ก ๋ค๋ฅธ ์ฌ๋๋ค๋ก๋ถํฐ ์์ง๋ ๋ต์ ์ด์ฉํด ์ ํ๋๋ฅผ ์ธก์ ํฉ๋๋ค. ์ด ๊ฐ์ ๋ต๋ณ ์ค 3๊ฐ ์ด์์ ๋ง์ถ์๋ค๋ฉด 100%๊ฐ ๋๋ฉฐ 3๊ฐ ๋ฏธ๋ง์ผ ๋ ๋น๋ก์ ์ผ๋ก ๋ถ๋ถ ์ ์๋ฅผ ํ๋ํฉ๋๋ค. ์ต์ข ์ ์ผ๋ก ์ฑ๋ฅ ๋ณด๊ณ ๋ฅผ ํ ๋์๋ 10๊ฐ์ ๋ต๋ณ ์ค 9๊ฐ๋ฅผ ์ ํํ๋ ์๋ก ๋ค๋ฅธ ์ ํ๋ ์ธก์ ์ 10ํ ์ค์ํ์ฌ ํ๊ท ์ ์๋ฅผ ๋ณด๊ณ ํด์ผ ํฉ๋๋ค. ์ด ์ฑ๋ฅ ์ธก์ ์ VQA Evaluation ๋ฐฉ๋ฒ๊ณผ ๊ฐ์ต๋๋ค.
์๊ฐ์ ์ง์์๋ต ๋ฐ์ดํฐ
๋ฐ์ดํฐ ํญ๋ชฉ ์ค๋ช
Name | Type | Description |
---|---|---|
VQA | [dict] |
์๊ฐ์ ์ง์์๋ต ์ ๋ณด๋ฅผ ๋ด์ dict ์ list |
+- image | str |
์ด๋ฏธ์ง ํ์ผ์ ์ด๋ฆ |
+- source | str |
๋ฐ์ดํฐ์ ์ถ์ฒ ("kvqa", "vizwiz") |
+- answers | [dict] |
์๋ต ์ ๋ณด๋ฅผ ๋ด์ dict 10๊ฐ์ list |
+--- answer | str |
์๊ฐ์ ์ง์์ ๋ํ ์๋ต |
+--- answer_confidence | str |
์๋ต์ ๋ํ ์ ๋ขฐ๋ ("yes", "maybe", "no") |
+- question | str |
์ด๋ฏธ์ง์ ๊ด๋ จํ ์ง์ |
+- answerable | int |
์๋ต ๊ฐ๋ฅ ์ฌ๋ถ (0, 1) |
+- answer_type | str |
์๋ต์ ์ข
๋ฅ ("number", "yes/no", "unanswerable", "other") |
๋ฐ์ดํฐ ์์
[{
"image": "KVQA_190712_00143.jpg",
"source": "kvqa",
"answers": [{
"answer": "ํผ์๋
ธ",
"answer_confidence": "yes"
}, {
"answer": "ํผ์๋
ธ",
"answer_confidence": "yes"
}, {
"answer": "ํผ์๋
ธ ์น๊ณ ์๋ค",
"answer_confidence": "maybe"
}, {
"answer": "unanswerable",
"answer_confidence": "maybe"
}, {
"answer": "๊ฒ์",
"answer_confidence": "maybe"
}, {
"answer": "ํผ์๋
ธ ์์์ ๋ฌด์ธ๊ฐ๋ฅผ ๋ณด๊ณ ์์",
"answer_confidence": "maybe"
}, {
"answer": "ํผ์๋
ธ์น๊ณ ์์ด",
"answer_confidence": "maybe"
}, {
"answer": "ํผ์๋
ธ์น๊ณ ์์ด์",
"answer_confidence": "maybe"
}, {
"answer": "ํผ์๋
ธ ์ฐ์ฃผ",
"answer_confidence": "maybe"
}, {
"answer": "ํผ์๋
ธ ์น๊ธฐ",
"answer_confidence": "yes"
}],
"question": "๋ฐฉ์ ์๋ ์ฌ๋์ ์ง๊ธ ๋ญํ๊ณ ์์ง?",
"answerable": 1,
"answer_type": "other"
},
{
"image": "VizWiz_train_000000008148.jpg",
"source": "vizwiz",
"answers": [{
"answer": "๋ฆฌ๋ชจ์ปจ",
"answer_confidence": "yes"
}, {
"answer": "๋ฆฌ๋ชจ์ปจ",
"answer_confidence": "yes"
}, {
"answer": "๋ฆฌ๋ชจ์ปจ",
"answer_confidence": "yes"
}, {
"answer": "ํฐ๋น ๋ฆฌ๋ชจ์ปจ",
"answer_confidence": "yes"
}, {
"answer": "๋ฆฌ๋ชจ์ปจ",
"answer_confidence": "yes"
}, {
"answer": "๋ฆฌ๋ชจ์ปจ",
"answer_confidence": "yes"
}, {
"answer": "๋ฆฌ๋ชจ์ปจ",
"answer_confidence": "yes"
}, {
"answer": "๋ฆฌ๋ชจ์ปจ",
"answer_confidence": "maybe"
}, {
"answer": "๋ฆฌ๋ชจ์ปจ",
"answer_confidence": "yes"
}, {
"answer": "๋ฆฌ๋ชจ์ปจ",
"answer_confidence": "yes"
}],
"question": "์ด๊ฒ์ ๋ฌด์์ธ๊ฐ์?",
"answerable": 1,
"answer_type": "other"
}
]
๋ผ์ด์ ์ค
- Korean VQA License for the KVQA Dataset
- Creative Commons License Deed (CC BY 4.0) for the VizWiz subset
- GNU GPL v3.0 for the Code