Питання експерту: Чи правда, що соцмережі стежать за нами

Дмитро Куркін

ВІДПОВІДІ НА БІЛЬШІСТЬ хвилює нас ми звикли шукати онлайн. У новій серії матеріалів задаємо саме такі питання: актуальні, несподівані або поширені - професіоналам в самих різних сферах.

Флешмоб 10 Year Challenge, запущений в соцмережах на початку року, не тільки породив конспірологічні теорії, згідно з якими мета акції - зібрати фотографії користувачів і з їх допомогою натренувати систему розпізнавання осіб, а й в черговий раз змусив задуматися про те, як багато знають про нас соцмережі і працюють з ними треті сторони (від комерційних компаній до державних структур).

Те, що технологічні гіганти збирають і аналізують так звані цифрові сліди, щодня залишаються мільярдами користувачів, ні для кого не залишається секретом. І усвідомлення цього породжує новий вид страху перед "великим братом": соцмережі знають про нас багато, але що якщо вони знають про нас занадто багато? Чи можна використовувати великі дані для того, щоб дізнатися всі зв'язки, смаки, звички людини, його минуле і сьогодення? І якщо так, то яку шкоду може нанести нам наше бажання соціалізуватися онлайн, в ім'я якого ми добровільно ділимося інформацією про себе?

Ми розпитали експертів про те, як призначені для користувача дані обробляються великими компаніями і наскільки велика небезпека наслідити в соцмережах.

Лілія Земнухова

науковий співробітник Центру досліджень науки і технологій Європейського університету в Санкт-Петербурзі

Цифровий слід містить всі можливі типи даних - це тексти, картинки, аудіо- та відеозаписи, геолокація, а ще величезна кількість метаданих (наприклад, модель гаджета, мобільний оператор, операційна система, динаміка і тривалість відвідувань, і т. Д.). І це не тільки ми, хто поповнює наш цифровий слід. Соцмережі формують нас як користувачів за допомогою трьох джерел даних: того, що ми самі повідомляємо про себе; того, що повідомляють про нас інші; і того, що збирається найчастіше без нашого відома. Особливо непрозорий останній. Ми, як правило, не читаємо призначені для користувача угоди і політику збору і використання персональних даних. Помічаємо тільки, що цей "чорний ящик" якимось чином впливає на наш користувальницький досвід: таргетована реклама, пропозиції друзів, рекомендації музики, порядок виведення новин ... Невелику частину цього досвіду ми конструюємо самостійно, коли вручну вибудовуємо стрічку новин, але в основному алгоритми виконують функції, вбудовані в профілі за замовчуванням. Саме тому ми ніколи не позбудемося контекстної реклами або нав'язливих пропозицій груп або (не) знайомих. Соцмережі як корпорації використовують дані про своїх користувачів в комерційних цілях, пропонуючи свою платформу для продажу таргінг контенту. І попутно продовжують збирати дані про нас: наприклад, якщо ви хоча б раз оплатили рекламу, то дані банківської картки і транзакцій теж залишаються у компанії. Дані також можуть надаватися держорганам при великій необхідності: наприклад, Facebook регулярно співпрацює з держорганами США, у відповідності зі своєю політикою прозорості.

Крім внутрішньої політики соцмереж є ще одна важлива деталь: акаунти можуть бути пов'язані з сотнями тисяч інших додатків і функцій. Це, наприклад, стало приводом для великих обговорень в минулому році про доступ третіх осіб до даних користувачів. Важливу спробу з регулювання свободи розробників зробили в Євросоюзі - в минулому році в силу вступив Загальний регламент щодо захисту даних (GDPR). Він вирішив не проблеми передачі даних, але звернув увагу користувачів на це питання. Це не зобов'язує нас читати всі призначені для користувача угоди, але змушує задуматися і щонайменше бути більш відповідальними за свої цифрові сліди і дотримуватися елементарних правил цифровий гігієни.

Валерія Караваєва

data scientist в компанії Spiking

Ми іноді не замислюємося, як багато слідів ми залишаємо в Мережі і наскільки це допомагає потім компаніям, не тільки соцмережах - хоча і соцмережах теж. Соцмережі збирають дані не тільки для себе, вони можуть їх продавати - я знаю про це, тому що працювала в рекламному агентстві, і ми закуповували дані у Facebook. І найчастіше ми, користувачі, даємо на це згоду, самі того не помічаючи. Люди проводять по півжиття в соцмережах і дають дуже багато інформації про себе.

Але дані можна було збирати і раніше - так чому про big data заговорили лише недавно? Перш за все тому, що обчислювальні потужності зростають і, відповідно, дешевшають. Головне питання big data не в тому, як зібрати дані - в принципі, кожен з нас сьогодні може збирати і зберігати терабайти інформації, - а в тому, як з ними працювати. Більшість даних, одержуваних з соцмереж (текст, голос, картинки, відео), ніяк не структуровані, тому без машинного навчання big data марні. Зараз, завдяки тому, що потужності і пам'ять здешевити, виріс попит на нейромережі і глибоке навчання - ми нарешті навчилися обробляти великі масиви даних.

Візьмемо, наприклад, картинки - а це дійсно великі дані, вони можуть дати дуже багато інформації. Картинок мільйони, але що з ними робити? Яку користь можна з них витягти? Які патерни вони дозволяють дізнатися? Машинне навчання, насправді, не так далеко пішло. Це не такий простий процес, як здається: немає такого, щоб ви натиснули кнопку і через тиждень отримали повні викладки.

Безпосередньо машинного навчання передують завдання більш складні. Ті ж картинки спершу потрібно правильно обробити (наприклад, обрізати, відцентрувати фотографії; для навчання це важливо) - це перший етап, який зазвичай займає багато часу. Другий етап - вибрати архітектуру мережі, яка підходить для вирішення завдання. Грубо кажучи, ви будуєте десять різних нейронних мереж, і вони дають десять різних результатів. Потім отримані результати потрібно якось оцінити. І після цього ви, з великою ймовірністю, повертаєтеся до першого етапу. Вибудувати одну універсальну мережу під будь-яке завдання нереально: ви або будуєте її з нуля, або допрацьовуєте існуючу. Розпізнавання облич - це одне завдання, розпізнавання кішок - вже інша.

В процесі машинного навчання ми теж беремо участь, самі того не підозрюючи. Наприклад, вводячи капчу на сайтах: за допомогою капчі Google натренував нейронні мережі оцифровувати книги.

Треба розуміти, що компанії, які збирають великі дані, не цікавляться нашими особистими профілями. Їм потрібні дані про безліч різних людей, які цікавляться чимось конкретним. А що стосується спецслужб, то, гадаю, вони можуть зібрати дані і не вдаючись до соцмереж. Думаю, що наші страхи щодо того, що за нами стежать, скоро пройдуть. Такий новий світ: чи не наслідити в Мережі можна, але це складно. Простіше взагалі не з'являтися в Мережі.

ФОТОГРАФІЇ: antonsov85 - stock.adobe.com