TOPlist

AI je trénována i na soukromých datech a heslech! Mohou mezi nimi být i ta vaše

  • AI modely jsou trénovány na datech volně dostupných na internetu
  • V databázích pro trénink AI byly nalezeny tisíce platných přístupových údajů
  • Na vině jsou nejspíš přímo vývojáři

Sdílejte:
Jana Skálová
Jana Skálová
8.3.2025 14:00
Ikona komentáře 4
hacker s notebookem
Reklama

Přemýšleli jste už někdy o tom, na jakých datech jsou trénovány velké AI modely? Třeba chatboti od OpenAI, Gemini od Googlu nebo Copilot od Microsoftu? Databáze dat pro jejich tréninky jsou obrovské a obsahují neuvěřitelné množství informací. A možná vás překvapí, že jsou mezi nimi třeba i API klíče nebo přístupová hesla k různým webovým službám.

Na obsah těchto databází se nedávno zaměřili experti ze společnosti Truffle Security. Vzali si na mušku neziskovou organizaci Common Crawl, která už od roku 2008 vytváří gigantickou databázi obsahující veřejně dostupná data z internetu. Pro společnosti vytvářející AI modely tak jde o ideální zdroj tréninkových dat. Jenže mezi obyčejnými informacemi jsou i ty hodně soukromé.

únik dat je obrovský

Hesla i API klíče

Po detailním prozkoumání „pouhých“ 400 terabitů dat bylo zjištěno, že je mezi nimi asi 12 000 bezpečnostních údajů. Tedy například přihlašovacích hesel, API klíčů a tak dále. A nejde o staré a nepoužitelné informace – řada z nich je stále platných. A v drtivé většině pochází ze služeb Amazon Web Services (AWS), MailChimp a WalkScore.

Z toho vyplývají 2 zásadní otázky – jak se to mohlo stát; a jak jsou tedy tato data chráněna před zneužitím případnými hackery? Odpověď na druhou otázku je děsivá – nejsou chráněna nijak a v databázi je lze ohledat. Odpověď na tu první je sice složitá, ale ne zase tolik. Nejtypičtější příčinou těchto úniků je neopatrnost vývojářů, kteří při betatestování vkládají tato data přímo do kódu, načež už je neodstraní.

ChatGPT

ChatGPT

OpenAI

Instalovat (Free)

Google Play

Je tak dost možné, že i vaše citlivá data kolují kdesi v otevřených databázích. Nejen, že se na nich učí AI, ale zároveň se jedná o velké bezpečnostní riziko. Největší jistotou je tak raději si teď všechna hesla změnit. Ale data z internetu jsou sbírána dál, a tak je možné, že se celá situace bude v budoucnu zase opakovat.

Co si myslíte o tomto úniku citlivých údajů?

Zdroj: Techradar, Bleeping Computer, Pixabay

O autorovi

Jana Skálová

Jana se psaním živí už dlouhé roky. Začínala ve zpravodajství a lifestylu, teď se věnuje spíš techničtějším tématům. Ráda píše o mobilech, zajímá se o… Více o autorovi

Jana Skálová
Sdílejte: