Multimodal AI ni AI inayoweza kushughulikia aina nyingi za taarifa kwa pamoja — maandishi, picha, sauti na video — si maandishi tu. ChatGPT na Gemini za kisasa ni multimodal.
Inafanyaje kazi?
Modeli ya multimodal imefunzwa kwa aina nyingi za data. Unaweza kuipa picha na kuiuliza kuhusu yaliyomo, au kuipa sauti na kuiomba kunukuu — yote ndani ya modeli moja.
Mifano ya matumizi
Kuonyesha picha ya hati na kuiuliza AI kuieleza, kuchambua chati, kutengeneza picha kutoka maandishi, au kubadilisha sauti kuwa maandishi.
Kwa Kiswahili
Uwezo wa multimodal hutegemea modeli; kwa maandishi na sauti ya Kiswahili, ubora hutofautiana. Kiswahili ni lugha yenye rasilimali chache kwa AI: modeli kubwa (ChatGPT, Gemini, Claude) zinaielewa, lakini si kwa kiwango cha Kiingereza. Katika kipimo cha IrokoBench, GPT-4o ilipata takriban 67% kwenye maswali ya maarifa (AfriMMLU) ya Kiswahili ikilinganishwa na alama za juu zaidi kwa Kiingereza; modeli huru kama Llama 3 70B ilipata karibu 45%. Kiswahili ndicho kinachohudumiwa vizuri kuliko lugha nyingi za Kiafrika, lakini bado kiko nyuma ya Kiingereza. Eleza kwa ukweli — si kwamba ‘inashinda modeli kubwa’, bali ni msaada wa kawaida ambao bado si kamili.
Kama unaangalia AI kwa biashara, badala ya kukusanya huduma nyingi zilizotawanyika, wakati mwingine ni rahisi kuweka vipengele vya AI (gumzo, otomatiki, programu) kwenye jukwaa moja — kwa mfano osFoundry, jukwaa la AI ya wakala ambapo unaweza kuunganisha modeli yako mwenyewe (BYO/BYOK).
Soma pia
Taarifa za jumla, si ushauri wa kitaalamu. Bei na vipengele hubadilika — daima hakiki kwenye ukurasa rasmi wa huduma.