Umelá inteligencia (AI) nepredstavuje pre používateľov čítačov obrazovky (TalkBack, Corvus, VoiceOver) len technologický trend, ale slúži predovšetkým ako nástroj na doplnenie a rozšírenie možností existujúcich asistenčných technológií. Po predstavení modelu ChatGPT sa pozornosť presúva na konkurenčné riešenie od spoločnosti Google – model Gemini a jeho funkciu Gemini Live, ktorá umožňuje plynulú hlasovú interakciu prostredníctvom mobilného zariadenia.
Čo sú to konverzačné hlasové modely?
Konverzačné hlasové AI modely sa zásadne líšia od starších generácií asistentov, ako sú Siri alebo Google Asistent. Tieto systémy sú založené na veľkých jazykových modeloch (LLM), čo im umožňuje chápať kontext, intonáciu aj emócie. Vďaka tomu je možný prirodzený dialóg bez potreby opakovaného vyvolávania asistenta kľúčovým slovom.
Na trhu v súčasnosti dominujú dve hlavné platformy:
- ChatGPT (OpenAI): Disponuje realistickým režimom Advanced Voice Mode. Bezplatná verzia má však obmedzenia a pokročilé funkcie, ako zdieľanie kamery alebo displeja, sú vyhradené pre platenú verziu Plus.
- Google Gemini: Ponúka funkciu Gemini Live s porovnateľným používateľským zážitkom. Spoločnosť Google ju pre systém Android sprístupňuje bezplatne, čo z Gemini robí vďaka hlbokej systémovej integrácii efektívny nástroj pre zrakovo znevýhodnených používateľov.
Dostupnosť a používateľské rozhranie
Gemini postupne nahrádza štandardného Google Asistenta, pričom aplikácia je dostupná aj v obchode Google Play.
Popis prostredia aplikácie
Po spustení aplikácie má používateľ na domovskej obrazovke k dispozícii nasledujúce prvky:
- Okno chatu: Zobrazuje históriu konverzácie.
- Editačné pole: Slúži na textové zadávanie vstupov.
- Tlačidlo Mikrofón: Umožňuje hlasové zadávanie otázok a ovládanie funkcií telefónu (Bluetooth, Wi-Fi, mobilné dáta, budíky).
- Tlačidlo Gemini Live (ikona vlnovky): Prvok pre aktiváciu hlasovej interakcie, štandardne umiestnený v pravom dolnom rohu.
V režime Gemini Live je obrazovka prekrytá abstraktnou animáciou a v spodnej časti sa nachádzajú ovládacie prvky:
- Kamera: Aktivuje konverzáciu o objektoch v reálnom čase.
- Zdieľať obrazovku: Sprístupňuje obsah displeja pre analýzu modelom.
- Podržať: Pozastaví proces počúvania.
- Ukončiť: Slúži na návrat do textového chatu.
Poznámka pre používateľov čítača Corvus:
-
Pre správne fungovanie funkcie Gemini Live je nevyhnutné v nastaveniach Corvusu deaktivovať voľbu pre výstup prístupnosti. Toto nastavenie sa vykoná týmto postupom: Ponuka – Nastavenia – Zvuk – Pri reči používať výstup pre prístupnosť a túto možnosť je potrebné nastaviť na Vypnuté. Ak zostane táto voľba aktívna, Gemini Live nebude reagovať.
-
Čítač Corvus môže tlačidlá Kamery a Zdieľania obrazovky identifikovať len ako všeobecné „Tlačidlo“. Pre korektnú identifikáciu je možné manuálne pridať popis týchto prvkov prostredníctvom kontextovej ponuky (zameranie prvku, otvorenie ponuky gestom, voľba „Upraviť popis pre tento objekt“ a zadanie názvu).
Scenáre využitia
Vďaka multimodálnym schopnostiam ponúka Gemini tri hlavné oblasti využitia:
- Plynulá konverzácia: Funkcia Gemini Live umožňuje komunikáciu s telefónom na úrovni interakcie s človekom. Model chápe kontext a je vhodný na diskusie, výučbu cudzích jazykov či brainstorming. Významnou funkcionalitou je možnosť skočiť modelu do reči, čím sa prejav okamžite preruší a model zareaguje na novú požiadavku, čo eliminuje potrebu hľadania tlačidla na zastavenie.
- Upozornenie: Model nie je optimálny na získavanie aktuálnych spravodajských informácií, nakoľko má tendenciu k halucináciám (vymýšľaniu si faktov), preto je nutné informácie overovať.
- Zdieľanie obrazovky: Táto funkcia umožňuje modelu analyzovať obsah displeja. Je kľúčová pri práci s neprístupnými aplikáciami (kde čítač nedokáže identifikovať prvky) alebo na sociálnych sieťach pre popis obrázkov bez alternatívneho textu.
- Zdieľanie kamery: Aktiváciou tejto funkcie získa model prístup ku kamere zariadenia. Používateľ následne môže viesť konverzáciu o snímaných objektoch, napríklad pre identifikáciu predmetov v ruke, druhu potravín na poličke alebo čítanie nápisov v prostredí.
Odporúčania pre efektívnu interakciu
Pre optimalizáciu používania sa odporúča dodržiavať nasledujúce postupy:
- Používanie slúchadiel: Eliminuje sa tým zvuková spätná väzba, kedy by model mohol zachytávať vlastný hlas alebo hlasový výstup čítača obrazovky.
- Nový chat: Pri zmene témy alebo v prípade, že model začne reagovať zmätočne (časté po použití kamery), je vhodné ukončiť aktuálnu reláciu a začať novú.
- Rýchle spustenie: Nastavenie Gemini ako predvoleného asistenta umožňuje jeho aktiváciu systémovou skratkou (napríklad bočným tlačidlom), čo predstavuje najrýchlejší prístup k asistencii.
Záver
Google Gemini, špecificky v režime Live, predstavuje pre komunitu nevidiacich a slabozrakých silný nástroj. Napriek nutnosti internetového pripojenia a riziku nepresných informácií ponúka bezplatnú možnosť plynulej konverzácie a vizuálnej analýzy v slovenskom jazyku.


Okomentujte ako prví