Software-ul care convertește rapid și fără efort cuvintele rostite în text scris (text-to-speech) a fost un avantaj pentru mulți dintre noi. Capacitățile sale sunt utile în diverse situații. De exemplu, pot înlocui tastarea mesajelor în aplicațiile de chat, pot facilita luarea de notițe în timpul întâlnirilor și interviurilor și pot ajuta persoanele cu dizabilități.
Pe de altă parte, proliferarea software-ului de transcriere audio-în-text alimentat de AI continuă să ridice probleme de securitate și confidențialitate – și cu un motiv întemeiat. În acest articol, vom analiza câteva considerente cheie de securitate asociate cu aceste aplicații și vom recomanda pași simpli pentru atenuarea riscurilor potențiale. Iată câteva riscuri asociate cu aplicațiile pentru transcrierea audio.
Siguranță: Riscuri asociate cu aplicațiile pentru transcrierea audio
1. Confidențialitate
Există un număr de aplicații și roboți dedicate care oferă transcriere automată audio-to-text. Într-adevăr, cel puțin o parte din acest tip de funcționalitate este, de asemenea, inclusă în multe dispozitive și sistemele lor de operare, precum și în aplicațiile populare de chat și de conferințe video.
Caracteristicile, care se bazează pe recunoașterea vorbirii și algoritmii de machine learning, pot fi furnizate fie de compania din spatele aplicației, fie, mai ales acolo unde eficiența și viteza sunt esențiale, de către un serviciu terț. Cu toate acestea, în special acesta din urmă ridică și o serie de întrebări cu privire la confidențialitatea datelor.
Componenta audio va fi folosită pentru a îmbunătăți algoritmul? Va fi stocată pe servere, fie interne, fie terțe, în timpul procesării conținutului? Cum este securizată transmiterea acestor informații, mai ales în cazurile în care procesarea audio este externalizată?
Între timp, transcrierea manuală, care este efectuată de oameni, în mod clar nu este lipsită de riscuri pentru confidențialitate. Acesta este cazul mai ales dacă persoanele care transcriu fișierele audio află informațiile confidențiale ale oamenilor și/sau dacă aceste informații sunt partajate cu contractori terți fără consimțământul utilizatorilor. De exemplu, Facebook (acum Meta) s-a confruntat cu controverse în 2019 pentru că a plătit sute de contractori pentru a transcrie mesaje audio din chaturile vocale ale unor utilizatori de pe Messenger.
2. Colectarea și stocarea datelor
Multe aplicații de toate tipurile solicită permisiuni pentru a accesa diverse informații despre dispozitiv sau utilizator, cum ar fi locația, lista de contacte, chat-urile în aplicațiile de mesagerie – indiferent dacă au sau nu nevoie de astfel de permisiuni pentru funcționarea optimă. Colectarea acestor informații prezintă un risc dacă sunt utilizate abuziv, partajate cu terți fără consimțământul informat al utilizatorului sau dacă nu sunt securizate corespunzător pe serverele companiei care le stochează.
Aplicațiile de transcriere audio, de exemplu, tind să colecteze fișierele audio care captează adesea cuvintele rostite nu doar ale unei persoane, ci, eventual, și ale rudelor, prietenilor și colegilor lor. În cele din urmă, îi pot face vulnerabili la atacuri cibernetice sau încălcări ale confidențialității.
3. Aplicații rău intenționate
Dacă sunteți adeptul software-ului de conversie a vorbirii în text, trebuie să fiți atenți și la aplicațiile frauduloase sau la chatbot. De asemenea, criminalii cibernetici urmăresc cele mai recente tendințe și, având în vedere cât de popular a devenit acest tip de software, ar putea lansa aplicații false ca o momeală pentru a compromite victimele cu malware.
Aceste aplicații malițioase pot fi imitații fidele ale aplicațiilor legitime, ceea ce face dificil pentru utilizatori să le recunoască pe cele autentice, fără o analiză mai atentă. Aplicațiile false pot avea mare succes în misiunea lor răuvoitoare, mai ales dacă utilizatorii nu verifică legitimitatea aplicației sau cine se află în spatele ei și nici nu examinează politica de confidențialitate.
Infractorii cibernetici au lansat clone pentru programe utilitare populare, cum ar fi convertoare și cititoare de fișiere, editori video și aplicații pentru tastatură. De fapt, există diverse aplicații rău intenționate care pretind că oferă diverse funcționalități, de la cititoare PDF și de coduri QR și până la software de traduceri sau de editare de imagine.
Furtul de informații
Sunetul și textul furat pot fi folosite pentru atacuri cibernetice, inclusiv cele care implică audio deepfakes care pot fi apoi utilizate pentru atacuri de inginerie socială sau pentru distribuirea de știri false.
Procesul ar implica, în general, doi pași: formarea modelului de machine learning și utilizarea modelului în sine. În primul pas, modelul folosește procesarea semnalului audio și tehnici de procesare a limbajului natural pentru a afla cum sunt pronunțate cuvintele și cum sunt structurate propozițiile. Odată ce modelul este antrenat cu suficiente date, ar putea genera text dintr-un fișier audio.
Un atacator ar putea folosi apoi modelul pentru a manipula sunetele furate și pentru a le face pe victime să spună lucruri pe care nu le-au spus niciodată, inclusiv pentru a le șantaja sau a le uzurpa identitatea pentru a-și păcăli angajatorii sau rudele. Escrocii ar putea, de asemenea, să se prezinte ca o persoană publică pentru a genera știri false.