Stlačte "Enter" na preskočenie k obsahu

Na obrázky sa opýtajte prehliadača Bing

O umelej inteligencii sa hrnú informácie z každej strany. Možnosti i riziká, ktoré ponúka, sú nesporné. Ako s ňou zachádzať, sme si detailnejšie priblížili v článku Jána Podolinského: Ako použiť chatbota ChatGPT alebo Bard od Googlu s čítačom obrazovky. My sa však v tomto článku pozrieme na benefity, ktoré môže umelá inteligencia priniesť komunite zrakovo postihnutých. Predovšetkým zaznamenala pozoruhodné výsledky pri detailnom popisovaní obrázkov. Na rozdiel od dovtedajších aplikácií rozpoznávajúcich obrázky, ako napríklad Envision AI, Lookout alebo Eye-D Pro…, kde sú popisy obrázkov pomerne strohé, pri umelej inteligencii sú výsledky rozpoznávania viac než sľubné. Popisy sa vyznačujú vysokou presnosťou, množstvom situačných detailov a vhodne volenými expresívnymi prívlastkami dokresľujúcimi scénu. Aj preto na jar vzbudila zvýšenú pozornosť v našich kruhoch informácia o spolupráci vývojárov aplikácie Be My Eyes a spoločnosti OpenAI. Výsledkom tejto spolupráce je integrácia už všade možne skloňovaného jazykového modulu umelej inteligencie GPT-4, ktorá by sa mohla stať ďalším z rady dobrovoľníkov, ikeď len virtuálnym. Zatiaľ je táto funkcionalita spustená v testovacom beta režime a momentálne je dostupná len pre operačný systém IOS. Registrovaní testeri „androidisti“ si podľa oznámenia vývojárov Be My Eyes budú musieť počkať na koniec roka, kedy sa beta testovanie spustí aj na platforme hrdiacej sa logom zeleného robota. Bežní používatelia si budú musieť počkať ešte dlhšie.

Nechcete čakať? Nemusíte.

Nedočkavci, ktorí však nechcú príliš dlho čakať, môžu ťažiť z inej pozoruhodnej spolupráce. Americký softvérový gigant Microsoft v spolupráci s OpenAI rovnako integroval jazykový modul GPT-4 do svojho vyhľadávača Bing. Dobrou správou je, že vyhľadávač Bing je dostupný pre všetky platformy, takže ani androidistom nič nebráni, aby vyskúšali, ako sa s ich obrázkami popasuje umelá inteligencia.

Inštalácia a použitie

Bing si nainštalujeme bežným spôsobom z Google Play alebo Appstore.

Po spustení Bingu zo zoznamu aplikácií v zobrazenom okne môžeme udeliť alebo zakázať povolenie na zobrazovanie notifikácií. Ďalšiu obrazovku so všeobecnými podmienkami používania preskočíme aktiváciou položky „Pýtajte sa čokoľvek“. V novom okne sa načíta obsah okna Bingu. Zobrazený obsah kontextovo závisí od fokusu štyroch záložiek nachádzajúcich sa v spodnej časti obrazovky. Záložky aktivujeme poklepom a zatvárame ich tlačidlom „zavrieť“, ktoré sa nachádza v ľavom hornom rohu obrazovky. Pre rozsiahlosť a variabilitu zobrazenia Nebudeme podrobne popisovať všetky dostupné funkcie každej záložky, keďže sú intuitívne. V stručnosti len uvedieme, že záložky sa nachádzajú v spodnej časti obrazovky v poradí zľava: „Domov, Správy, Aplikácie a Chat.“ Na predvolene aktívnej záložke „Aplikácie“ sú užitočné položky týkajúce sa profilu a nastavení. Pre nás bude najzaujímavejšia záložka „Chat“. Po jej aktivácii sa v spodnej časti obrazovky zobrazia tlačidlá, ktorými komunikujeme s vyhľadávačom:

  • Pridať obrázok na vyhľadávanie – po jeho aktivácii sa zobrazia tlačidlá na použitie fotoaparátu alebo na vstup do Galérie
  • Použiť mikrofón – po jeho aktivácii môžeme hlasom zadávať naše požiadavky
  • Klávesnica – po jeho aktivácii sa zobrazí editačné pole na zadávanie textových pokynov

Keďže nás zaujíma popisovanie obrázkov, aktivujeme tlačidlo „Pridať obrázok na vyhľadávanie“. V novootvorenom okne Bingu máme k dispozícii 5 ovládacích prvkov. V hornej časti obrazovky sú to tri tlačidlá:

  • Prepnúť fotoaparát – aktiváciou prepíname zadný a predný fotoaparát, ale čítač neoznámi, ktorý fotoaparát je aktívny
  • Automatický blesk – zapína a vypína blesk fotoaparátu
  • Viac – aktiváciou sa zobrazia ďalšie položky, ktorými poskytujeme vývojárom spätnú väzbu

V spodnej tretine obrazovky sú dve tlačidlá:

  • Otvoriť galériu – aktiváciou sa otvorí správca súborov Bingu, ktorý zobrazí štruktúru úložiska telefónu, kde sú zobrazené priečinky obsahujúce obrázkové súbory, ktoré môžeme nechať rozpoznať
  • Odfotografovať – aktiváciou sa odfotografuje scéna snímaná objektívom fotoaparátu, ktorú chceme rozpoznať

Pri aktivácii oboch vyššie zmienených tlačidiel, ak je to nevyhnutné, udelíme systémové povolenia na prístup k obrázkom a k fotoaparátu. Po vybratí obrázka z galérie alebo po odfotografovaní scény zapíšeme do editačného poľa alebo klepnutím na mikrofón zadáme hlasom otázku, ktorou vyšpecifikujeme, čo nás na obrázku zaujíma. Môžeme povedať napríklad: „Čo je na obrázku?“ Počkáme pár sekúnd, kým sa obrázok neodošle na rozpoznanie umelou inteligenciou na servery, čo je sprevádzané správou: „analyzuje sa obrázok“. Po následnej správe: „generujú sa odpovede“ sa zobrazí text popisujúci obrázok, ktorý je čítačom alebo vstavanou syntézou prehliadača prečítaný (závisí od zvoleného spôsobu zadania otázky). Ak chceme získať dodatočné informácie, postupujeme rovnakým spôsobom v kladení otázok alebo môžeme použiť Bingom ponúkané predpokladané okruhy, ktoré sa zobrazujú ako tlačidlá.

Záver

Práca v aplikácii Bing s čítačom obrazovky si vyžaduje viac trpezlivosti, keďže jeho okno je prehustené množstvom ponúkaných aj nepotrebných informácií, cez ktoré je nutné sa pri lineárnom pohybe „prehrýzť“. Treba však povedať, že v drvivej väčšine sú všetky detegované položky správne čítané a ak sa s nimi oboznámime, tak správnou technikou prezerania vieme efektívne použiť na rozpoznanie obrázkov aj tento silný nástroj.

Popisovanie obrázkov integrované do Bingu dosahuje zatiaľ najpresnejšie výsledky, ale ani tu nemôžeme, žiaľ, povedať, že sa naň môžeme spoľahnúť na sto percent. Napriek tomu môžeme povedať, že rozpoznávanie obrázkov umelou inteligenciou je krokom vpred s potenciálom do budúcnosti.

Poznámka

Test sme vykonali na konfigurácii Bing pre Android verzia: 27.1.410926310, Corvus 2023, TalkBack 14

Okomentujte ako prví

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *

Táto webová stránka používa Akismet na redukciu spamu. Získajte viac informácií o tom, ako sú vaše údaje z komentárov spracovávané.