Nové funkcie v mobilnej aplikácii ChatGPT – Hlasový model, Vision a Zdieľanie obrazovky

V predchádzajúcich článkoch sme už predstavili aplikáciu ChatGPT, ktorá sa rýchlo stala neoceniteľným nástrojom pre každodenné použitie. Táto platforma nielenže zjednodušuje prácu a komunikáciu, ale neustále prechádza inováciami a rozširovaním funkcií, čím sa jej možnosti neustále posúvajú na novú úroveň. V dnešnom článku sa pozrieme na najnovšie prírastky, ktoré otvárajú úplne novú dimenziu interakcie – predstavíme si pokročilý Hlasový model, Vision funkciu so schopnosťou analyzovať obraz priamo z vašej kamery a inovatívnu možnosť zdieľania obrazovky. Každá z týchto noviniek prináša jedinečné používateľské prostredie a významne rozširuje spôsoby, akými môžeme ChatGPT využívať vo svojom každodennom živote.

Hlasový model

Funkcia Hlasový model v ChatGPT predstavuje významný krok vpred, pokiaľ ide o plynulú a prirodzenú komunikáciu s umelou inteligenciou. Vďaka tejto funkcii je možné viesť konverzácie o prakticky ľubovoľnej téme, a to nielen v angličtine, ale aj v slovenskom jazyku a mnohých ďalších jazykoch. Model je navrhnutý tak, aby zvládol plynulé prechody medzi jazykmi, a tým slúžil nielen ako asistent v každodennej komunikácii, ale aj ako účinný tlmočník. Okrem základnej funkčnosti rečovej komunikácie má Hlasový model aj prístup k internetu, čo mu umožňuje vyhľadávať aktuálne informácie na základe konkrétnych pokynov, napríklad „Vyhľadaj mi na internete…“. Táto možnosť výrazne rozširuje praktické využitie modelu, pretože tak môže poskytnúť čerstvé a relevantné údaje, ktoré podporia plynulý priebeh konverzácie.

Pokročilý Hlasový model je schopný na základe našich požiadaviek meniť výšku hlasu, náladu a spôsoby rozprávania, čo prispieva k ešte autentickejšej a prispôsobivejšej interakcii.

Celkový prínos Hlasového modelu spočíva v jeho flexibilite a univerzálnosti. Či už ide o každodenné rozhovory, učenie sa cudzích jazykov, tvorbu zábavných príbehov alebo získavanie informácií, tento nástroj dokáže vyhovieť rozmanitým požiadavkám.

Funkcia Vision

Funkcia Vision v ChatGPT predstavuje revolučný spôsob interakcie, pretože umožňuje priamy prístup ku kamere telefónu a spracovanie obrazového vstupu v reálnom čase. Vďaka tejto technológii je možné zachytiť aktuálne prostredie a následne o ňom viesť konverzáciu s hlasovým modelom, čo otvára dvere k celému radu praktických využití. Systém identifikuje objekty, popisuje ich vlastnosti a poskytuje podrobné informácie o ich charakteristikách. Takto môže byť napríklad zachytená scéna z ulice, interiér bytu či záhrady, pričom ChatGPT následne dokáže detailne opísať jednotlivé prvky prostredia, čím získame komplexný prehľad o danom mieste.

Okrem samotného opisu prostredia umožňuje funkcia Vision aj konverzáciu o konkrétnych objektoch. Po zachytení obrazu môžeme položiť otázku typu „Čo je to za objekt?“ alebo „Vieš mi povedať viac o tejto budove?“, a model nám okamžite poskytne relevantné a detailné informácie. Schopnosť čítať texty v prostredí je ďalšou významnou prednosťou – systém dokáže rozpoznať text na rôznych povrchoch a následne ho prečítať, interpretovať alebo analyzovať. To je mimoriadne užitočné pri získavaní informácií z nápisov, poznámok alebo informačných tabúľ v reálnom čase.

Vďaka integrácii s hlasovým modelom sa všetky tieto funkcie odohrávajú v prirodzenom jazyku.

Zdieľanie obrazovky telefónu s ChatGPT

Funkcia „Zdieľanie obrazovky“ predstavuje prielom v oblasti asistenčných technológií, najmä pre komunitu slabozrakých a nevidiacich používateľov. Funkcia umožňuje zdieľať obsah displeja telefónu priamo s aplikáciou ChatGPT, ktorá následne analyzuje a poskytuje opis zobrazených prvkov. Tento nástroj je nám schopný nielen identifikovať textové informácie, ale aj rozpoznať obrázky, grafy a iné grafické elementy a následne o nich vie viesť rozhovor.

V praxi to znamená, že ak sú niektoré prvky obrazovky neoznačené, neprístupné alebo nemajú popis, ChatGPT dokáže poskytnúť relatívne presný opis. Môžeme tak získať informácie o komplexných grafoch či schémach, ktoré by inak mohli predstavovať prekážku v pochopení. Hlavnou výhodou tejto funkcie je jej schopnosť dopĺňať a rozširovať existujúce asistenčné technológie, ako sú Corvus či TalkBack.

Používateľské prostredie

K týmto novým funkciám sa dostaneme v aplikácii ChatGPT nasledujúcim spôsobom. Po otvorení aplikácie sa nám zobrazí základné rozhranie. Na spodnej lište sa vedľa editačného poľa pre vkladanie správ nachádza tlačidlo „Začať hlasovú konverzáciu“, ktorým vstúpime do rozhrania hlasovej konverzácie. Rozhranie je jednoduché a prehľadné.

V hornej časti obrazovky sa nachádzajú dve tlačidlá: „Zmeniť zvukový výstup“, prostredníctvom ktorého si môžeme zmeniť výstupné zvukové zariadenie pre aplikáciu ChatGPT. Tu si môžeme zvoliť možnosti – telefón, reproduktor či iné zariadenie, ak sú k telefónu pripojené napríklad Bluetooth slúchadlá. Vedľa tlačidla „Zmeniť zvukový výstup“ sa vpravo nachádza tlačidlo pre nastavenie hlasu, pomocou ktorého si môžeme zvoliť hlas, s ktorým chceme, aby s nami aplikácia komunikovala. Čítač obrazovky toto tlačidlo prečíta ako „Neoznačené“. Ak je zapnutá asistenčná technológia, môžeme si hlasy zvoliť ťahaním dvoma prstami po obrazovke z pravej strany doľava a naopak. Voľbu hlasu zvolíme tlačidlom – Potvrdiť.

V centrálnej časti používateľského rozhrania sa nachádza animácia hlasového modelu. Pod touto animáciou sú umiestnené nasledujúce tlačidlá: „Zapnúť/Vypnúť kameru“, „Zapnúť/Vypnúť mikrofón“, „Viac možností“ a tlačidlo „Ukončiť hlasovú konverzáciu“. Po kliknutí na tlačidlo „Viac možností“ sa nám zobrazí rozbaľovacia ponuka s tlačidlami: „Zdieľať obrazovku“, „Odfotiť“ a „Nahrať obrázok“.

Ako tieto funkcie používať?

Hlasový model

Hlasový model spustíme stlačením tlačidla „Začať hlasovú konverzáciu“. Po pár sekundách sa hlasový model načíta a môžeme začať konverzáciu. Počas konverzácie môžeme model prerušovať a „skákať mu do reči“, ak ho chceme usmerňovať a opravovať. Môžeme mu tiež zadávať príkazy a povely na úpravu štýlu rozprávania. Môžeme používať hlasové povely ako: „Rozprávaj tichšie“, „Šepkaj“, „Rozprávaj šťastnejšie“, „Rozprávaj s radosťou a oduševnením“, „Rozprávaj ako profesor na univerzite“ a podobne. Z hlasového modelu si vieme vytvoriť tlmočníka, učiteľa cudzieho jazyka alebo rozprávača príbehu. Úroveň konverzácie a jej výsledky sú podmienené zadaniami a otázkami. Čím presnejšie zadania alebo otázky sú zadané, tým presnejšie odpovede dostaneme. Konverzáciu ukončíme stlačením tlačidla – Ukončiť konverzáciu.

Funkcia Vision

Funkcia Vision je prepojená s hlasovým modelom. Dostaneme sa k nej otvorením hlasovej konverzácie pomocou tlačidla „Začať hlasovú konverzáciu“. Po otvorení rozhrania hlasového modelu aktivujeme kameru stlačením tlačidla „Zapnúť kameru“. Po zapnutí sa nám obsah kamery zobrazí namiesto animácie hlasového modelu v centrálnej časti obrazovky, čím môžeme začať konverzáciu o zobrazenom obsahu.

Konverzáciu môžeme rozvíjať otázkami: „Čo je na kamere?“, „Opíš mi prostredie“, „Povedz mi viac o tom, čo vidíš“, „Opíš tento dokument“ alebo „Prečítaj mi obsah dokumentu“. Kvalita odpovedí hlasového modelu závisí od správnosti a detailnosti zadaných otázok, ako aj od viditeľnosti a rozpoznateľnosti objektov a textov.

Funkcia zdieľania obrazovky

Funkcia zdieľania obrazovky funguje na rovnakom princípe ako funkcia Vision. Po aktivácii sa nám v centrálnej časti obrazovky zobrazí oznámenie, že zdieľanie obrazovky bolo spustené. Následne môžeme opustiť aplikáciu ChatGPT; snímanie obrazovky a konverzácia s hlasovým modelom sa presunú do pozadia. Následne môžeme prejsť na obsah, ktorý chceme analyzovať, a o ktorom chceme začať konverzáciu. ChatGPT môžeme požiadať o analýzu používateľského prostredia, opis prvkov na obrazovke, obrázkov a grafických prvkov.

Prístupnosť a limity funkčnosti

Funkcie aplikácie ChatGPT sú kompatibilné s asistenčnými technológiami TalkBack, Corvus a VoiceOver. Najpohodlnejšie používanie dosiahneme s VoiceOver, ktorý dokáže regulovať hlasitosť výstupu z ChatGPT a jednotlivých prvkov na obrazovke pri navigácii asistenčnou technológiou.

Pokročilý hlasový model, funkcia Vision a Zdieľanie obrazovky majú limity. Sú dostupné len ako platené služby – je nutné mať predplatenú minimálne Plus tarifu. Aj v prípade predplatného existujú denné obmedzenia: pokročilý hlasový model je limitovaný na jednu hodinu denne, zatiaľ čo funkcie Vision a Zdieľanie obrazovky môžu byť využívané 15 minút denne. Okrem týchto časových limitov treba brať do úvahy aj možnú chybovosť. Pokročilý hlasový model nemusí vždy poskytovať správne a presné odpovede, pričom aj prístup k internetu neznamená, že dokáže načítať informácie zo všetkých webov – môžu sa vyskytnúť obmedzenia, napríklad pri platenom obsahu.

Funkcie Vision a Zdieľanie obrazovky môžu byť ovplyvnené aj technickými a externými faktormi. Medzi ne patria chyby v procese spracovania dát, kedy model môže „halucinovať“ alebo poskytnúť nepresný opis, ale aj obmedzenia zariadenia, ako je slabý internetový signál, nedostatočne kvalitný fotoaparát či nízky výkon zariadenia. Externé vplyvy, ako napríklad zlá kvalita obrázkov, textu či zhoršená viditeľnosť objektov, môžu tiež ovplyvniť kvalitu výstupu. Navyše, ochrana osobných údajov môže spôsobiť, že telefón odmietne spracovať alebo prečítať citlivé informácie, čo ovplyvňuje možnosti opisovania prostredia či textu. Toto obmedzenie platí pre EÚ.

Záver

Napriek niektorým nedostatkom predstavujú tieto funkcie cenný prínos, najmä pre slabozrakých a nevidiacich používateľov. Funkcie Vision a Zdieľanie obrazovky poskytujú doplnenie k existujúcim asistenčným technológiám, pričom vynikajú nad existujúcimi alternatívami.

Odkaz na článok Aplikácia ChatGPT pre Android Odkaz na článok Ako použiť chatbota ChatGPT alebo Bard od Googlu s čítačom obrazovky

Nové funkcie v mobilnej aplikácii ChatGPT – Hlasový model, Vision a Zdieľanie obrazovky

Hlasový model

Funkcia Vision

Zdieľanie obrazovky telefónu s ChatGPT

Používateľské prostredie

Ako tieto funkcie používať?

Hlasový model

Funkcia Vision

Funkcia zdieľania obrazovky

Prístupnosť a limity funkčnosti

Záver

Okomentujte ako prví

Pridaj komentár Zrušiť odpoveď