как обходят (и как устроен) китайский фаервол? - Информационная безопасность

Здравствуйте, deep_down, Вы писали:

_>Есть где-то хорошие подробные обзоры? Утилиты (если такие есть) сами по себе не нужны, хочется понять, как там всё работает. В том числе, что там с тором и i2p. Также интересно история: обходили одним способом — отказались, ибо легко блочится. Или наоборот, услиили ещё другим способом.
_>PS. можно и не китайский, но поинтересней российского

ключевое слово DPI — Deep Packet Inspection

как там всё работает — http://nag.ru/articles/article/22432/dpi.html

Здравствуйте, Stanislaw K, Вы писали:

SK>ключевое слово DPI — Deep Packet Inspection

Понятно, что иснтпектируют, вопрос в том, как и что. Где взять подробности про китайцев?

Мне интересно, как в Китае блокируют гугл в TorBrowser? Один парень из Китая в чате жаловался на их великий файрволл, что даже гугл заблокирован и все такое. Я ему посоветовал TorBrowser попробовать, он сказал что гугл все равно блокируется..

Здравствуйте, MozgC, Вы писали:

MC>Мне интересно, как в Китае блокируют гугл в TorBrowser? Один парень из Китая в чате жаловался на их великий файрволл, что даже гугл заблокирован и все такое. Я ему посоветовал TorBrowser попробовать, он сказал что гугл все равно блокируется..

Может через китайского посредника трафик шел. Вообще если разрешен https, то считай что разрешено все, зашифрованный трафик не проанализируешь.

Здравствуйте, Qulac, Вы писали:

Q>Может через китайского посредника трафик шел.
Может быть.

Q>Вообще если разрешен https, то считай что разрешено все, зашифрованный трафик не проанализируешь.

Домен же в заголовке https-запроса все равно будет виден.

Здравствуйте, MozgC, Вы писали:

MC>Мне интересно, как в Китае блокируют гугл в TorBrowser? Один парень из Китая в чате жаловался на их великий файрволл, что даже гугл заблокирован и все такое. Я ему посоветовал TorBrowser попробовать, он сказал что гугл все равно блокируется..

Гугл сам банит множество выходных узлов TOR. Но не все.

Здравствуйте, Хон Гиль Дон, Вы писали:

ХГД>Гугл сам банит множество выходных узлов TOR. Но не все.

Как гугл узнает что это выходной узел тор?

Здравствуйте, MozgC, Вы писали:

ХГД>>Гугл сам банит множество выходных узлов TOR. Но не все.

MC>Как гугл узнает что это выходной узел тор?

Да у него антибот просто на большое количество запросов срабатывает, начинает капчу рисовать.

Здравствуйте, deep_down, Вы писали:

_>Понятно, что иснтпектируют, вопрос в том, как и что. Где взять подробности про китайцев?

Ну китайцы не совсем дураки, чтобы все подробности выложить. Но я слышал, что используются нейросети и deep learning для классификации трафика. С их масштабом и количеством обучающего материала это видимо оправдано.

Поэтому обходят маскировкой шифрованного трафика под какой-нибудь легитимый, который пропускается. Выглядит это так. Кто-то реализует и выкатывает новую схему обфускации. Если она работает, то люди начинают ей пользоваться. Когда набирается критическая масса, GFW регистрирует аномалию. Потом уже люди изучают этот трафик и переобучают сеть. Через некоторое время трафик начинает блокироваться. Потом кто-то реализует и выкатывает новую схему... В общем постоянная гонка вооружений.

А утилиты все же поизучай, даже если не нужны, там ведь есть какие-то описания. Начни с shadowsocks.

Здравствуйте, deep_down, Вы писали:

SK>>ключевое слово DPI — Deep Packet Inspection

_>Понятно, что иснтпектируют, вопрос в том, как и что. Где взять подробности про китайцев?

даташиты циски и хуавея в открытом доступе. +/- функционал у всех одинаковый.
белый список пропускаем. черный отсекаем, остальное внимательно изучаем. по определенным признакам классифицируем неизвестное.
чем больше в прошлом трафика проанализировано, тем легче и проще анализировать далее.

Здравствуйте, MozgC, Вы писали:

ХГД>>Гугл сам банит множество выходных узлов TOR. Но не все.
MC>Как гугл узнает что это выходной узел тор?

Это же открытая информация.
http://torstatus.blutmagie.de/ хоты бы вот.

гугл сам по себе большой DPI и система слежки за людьми. он легко может идентифицировать человека и что он ходит через ~~тор~~ анонимизатор. тем же jquery гуглоапи на каждом сайте, гугловые шрифты и гугловая реклама. масса инструментов.

Здравствуйте, MozgC, Вы писали:

MC> Q>Вообще если разрешен https, то считай что разрешено все, зашифрованный трафик не проанализируешь.

MC> Домен же в заголовке https-запроса все равно будет виден.
Погоди, https вроде шифрует весь трафик, виден только IP куда установлено сокет-соединение. Если только reverse-dns...

avalon/1.0.432

Здравствуйте, ·, Вы писали:

·>Погоди, https вроде шифрует весь трафик, виден только IP куда установлено сокет-соединение. Если только reverse-dns...

Я могу ошибаться, но в памяти засело, что когда я сниффил https-запросы, то HOST там был в открытом виде...
Вот такой вот пост на SO сейчас нашёл:
http://security.stackexchange.com/questions/86723/why-do-https-requests-include-the-host-name-in-clear-text

Здравствуйте, MozgC, Вы писали:

MC>·>Погоди, https вроде шифрует весь трафик, виден только IP куда установлено сокет-соединение. Если только reverse-dns...

MC>Я могу ошибаться, но в памяти засело, что когда я сниффил https-запросы, то HOST там был в открытом виде...

Да нет, https получается, если HTTP сервер запустить на SSL-сокетах. Т.е., зашифровано вообще все. Другое дело, что просто зарубят IP на котором данный сервер сидит. А если у вас там десять разных хостов, то это исключительно ваши проблемы.

Здравствуйте, Хон Гиль Дон, Вы писали:

MC>>Я могу ошибаться, но в памяти засело, что когда я сниффил https-запросы, то HOST там был в открытом виде...
ХГД>Да нет, https получается, если HTTP сервер запустить на SSL-сокетах. Т.е., зашифровано вообще все. Другое дело, что просто зарубят IP на котором данный сервер сидит. А если у вас там десять разных хостов, то это исключительно ваши проблемы.

Не все, хост не зашифрован. https://en.wikipedia.org/wiki/Server_Name_Indication

Здравствуйте, wildwind, Вы писали:

MC>>>Я могу ошибаться, но в памяти засело, что когда я сниффил https-запросы, то HOST там был в открытом виде...
ХГД>>Да нет, https получается, если HTTP сервер запустить на SSL-сокетах. Т.е., зашифровано вообще все. Другое дело, что просто зарубят IP на котором данный сервер сидит. А если у вас там десять разных хостов, то это исключительно ваши проблемы.

W>Не все, хост не зашифрован. https://en.wikipedia.org/wiki/Server_Name_Indication

А, совсем забыл про эту штуку. Но она опциональная, может быть выключена или даже не реализована.

Здравствуйте, ·, Вы писали:

·>Здравствуйте, MozgC, Вы писали:

MC>> Q>Вообще если разрешен https, то считай что разрешено все, зашифрованный трафик не проанализируешь.

MC>> Домен же в заголовке https-запроса все равно будет виден.
·>Погоди, https вроде шифрует весь трафик, виден только IP куда установлено сокет-соединение. Если только reverse-dns...

А разве https не шифрует только "тело" запроса? Т.е. заголовки http запроса вроде открытые, а иначе как понять что и куда

Здравствуйте, wildwind, Вы писали:

W>Поэтому обходят маскировкой шифрованного трафика под какой-нибудь легитимый, который пропускается. Выглядит это так. Кто-то реализует и выкатывает новую схему обфускации. Если она работает, то люди начинают ей пользоваться. Когда набирается критическая масса, GFW регистрирует аномалию. Потом уже люди изучают этот трафик и переобучают сеть. Через некоторое время трафик начинает блокироваться. Потом кто-то реализует и выкатывает новую схему... В общем постоянная гонка вооружений.

О, уже интересно! А где-то есть в открытом доступе описание, что было сделано и как спалено?

Здравствуйте, deep_down, Вы писали:

W>>Поэтому обходят маскировкой шифрованного трафика под какой-нибудь легитимый, который пропускается. Выглядит это так. Кто-то реализует и выкатывает новую схему обфускации. Если она работает, то люди начинают ей пользоваться. Когда набирается критическая масса, GFW регистрирует аномалию. Потом уже люди изучают этот трафик и переобучают сеть. Через некоторое время трафик начинает блокироваться. Потом кто-то реализует и выкатывает новую схему... В общем постоянная гонка вооружений.

_>О, уже интересно! А где-то есть в открытом доступе описание, что было сделано и как спалено?

Как спалено? Там довольно примитивно, все уже существующие известные типы трафика классифицированы. Когда внезапно появляется что то новое — его в общем потоке становится очень хорошо видно. Оно автоматически выделяется и предается на рассмотрение оператору. Далее оно исследуется руками и глазами: кто, откуда, куда, как часто, сколько.

Здравствуйте, Stanislaw K, Вы писали:

SK> все уже существующие известные типы трафика классифицированы. Когда внезапно появляется что то новое — его в общем потоке становится очень хорошо видно. Оно автоматически выделяется и предается на рассмотрение оператору. Далее оно исследуется руками и глазами: кто, откуда, куда, как часто, сколько.

Если так вычленяют общение межу обычными людьми, то всё понятно.
Вопрос был немного про другое. Захочет китаец узнать о ситуации в Тибете. Что и как он будет искать (и как ему не дают это делать)?

Здравствуйте, deep_down, Вы писали:

_>Вопрос был немного про другое. Захочет китаец узнать о ситуации в Тибете. Что и как он будет искать (и как ему не дают это делать)?

Это не ИТ шный вопрос.

Здравствуйте, Stanislaw K, Вы писали:

_>>Вопрос был немного про другое. Захочет китаец узнать о ситуации в Тибете. Что и как он будет искать (и как ему не дают это делать)?

SK>Это не ИТ шный вопрос.

Если не нравится тема, возьмём любую другую.
Киаец наберёт в гугле и ничего не найдёт (на незащищённом соединении фильтрация http элемантарна). Какие у него способы? И какие варианты люди ~~в чёрном~~ с погонами уже заблокировали?

Здравствуйте, deep_down, Вы писали:

_>>>Вопрос был немного про другое. Захочет китаец узнать о ситуации в Тибете. Что и как он будет искать (и как ему не дают это делать)?
SK>>Это не ИТ шный вопрос.

_>Если не нравится тема, возьмём любую другую.
_>Киаец наберёт в гугле и ничего не найдёт (на незащищённом соединении фильтрация http элемантарна). Какие у него способы? И какие варианты люди ~~в чёрном~~ с погонами уже заблокировали?

Еще раз повторяю — это не ИТшный вопрос.
Способы и варианты — это ~~административный~~ общеорганизационный вопрос.
Без относительно темы, ИТ здесь только инструмент. способ. ИТ шный аспект уже рассмотрен выше.

Здравствуйте, Stanislaw K, Вы писали:

SK>Еще раз повторяю — это не ИТшный вопрос.
SK>Способы и варианты — это ~~административный~~ общеорганизационный вопрос.
SK>Без относительно темы, ИТ здесь только инструмент. способ. ИТ шный аспект уже рассмотрен выше.

Всё равно не могу понять Вашу мысль, честно.
ИТ — инструмент, бесспорно. Я и хочу рассмотреть под микроскопом какой-нибудь конкретный инструмент.
"Ложка состоит из: держало, черпало, соединяющая перемычка". Это все знают. Но в стране А её делают из "высокомолекулярного чугуния", в стране Б вытачивают лазером. Вот эти нюансы и хочется узнать.
Чем не айтишные вопросы:
Как именно (вплоть до конкретного приложения и списка фильтров) провайдеру-монополисту запретить доступ к конкретным ресурсам извне?
Как именно пользователи обходят (и обходили раньше) эти блокировки?

Здравствуйте, deep_down, Вы писали:

SK>>Еще раз повторяю — это не ИТшный вопрос.
SK>>Способы и варианты — это ~~административный~~ общеорганизационный вопрос.
SK>>Без относительно темы, ИТ здесь только инструмент. способ. ИТ шный аспект уже рассмотрен выше.

_>Всё равно не могу понять Вашу мысль, честно.

_>

_>Захочет китаец узнать о ситуации в Тибете. Что и как он будет искать (и как ему не дают это делать)?

Вот это не ИТшный вопрос.

_>ИТ — инструмент, бесспорно. Я и хочу рассмотреть под микроскопом какой-нибудь конкретный инструмент.
_>Чем не айтишные вопросы:
_>Как именно (вплоть до конкретного приложения и списка фильтров) провайдеру-монополисту запретить доступ к конкретным ресурсам извне?

Конкретно я сказал в первом ответе. Deep Packet Inspection. (по этим словам гуглить)
И дал ссылку на описание работы и ссылки на производителей http://nag.ru/articles/article/22432/dpi.html

Китайцы, наверное, используют Huawei SIG9800 Series. Это вполне конкретное приложение. список фильтров нам не известен, в большей части это скорее всего китайская гостайна, а в меньшей просто малоинтересный список блокируемых сайтов (в основном скучная порнуха и норкота).

_>Как именно пользователи обходят (и обходили раньше) эти блокировки?

Используя тот или иной VPN, еще не известный и не скомпрометировавший себя. Критерии компрометации не известны, но можно предполагать.

Через DPI проходит ВЕСЬ трафик. Каждый байт. DPI очень четко классифицирует каждый тип. это — http, это потоковое видео, VoIP, это торрент, это скайп. это vpn, pptp, ipsec, openvpn, l2tp, hamachi. это "танчики", это "линейка". это RDP, VNC, teamViewer, это радио.
Плюс к этому, строится поведенческая зависимость "хост а связывается с хостом б в интервал от ЧЧ-ММ до ЧЧ-АА". "ночью все спят, днем читают новости", "школьники после школы гоняют орков в варкрафте" и тп.

Тут собственно вся малая доля ИТ и заканчивается.

Весь уже известный трафик, либо автоматически пропускается, либо "режется". Если появляется неизвестный трафик, с неизвестным протоколом и\или в необычное время, он автоматически выделяется и отдается операторам в аналитический отдел, для детального изучения глазками и принятия решения.

И вот это уже не ИТшный вопрос.

Здравствуйте, Stanislaw K, Вы писали:

SK>Через DPI проходит ВЕСЬ трафик. Каждый байт. DPI очень четко классифицирует каждый тип. это — http, это потоковое видео, VoIP, это торрент, это скайп. это vpn, pptp, ipsec, openvpn, l2tp, hamachi. это "танчики", это "линейка". это RDP, VNC, teamViewer, это радио.
SK>Плюс к этому, строится поведенческая зависимость "хост а связывается с хостом б в интервал от ЧЧ-ММ до ЧЧ-АА". "ночью все спят, днем читают новости", "школьники после школы гоняют орков в варкрафте" и тп.

SK>Тут собственно вся малая доля ИТ и заканчивается.

SK>Весь уже известный трафик, либо автоматически пропускается, либо "режется". Если появляется неизвестный трафик, с неизвестным протоколом и\или в необычное время, он автоматически выделяется и отдается операторам в аналитический отдел, для детального изучения глазками и принятия решения.

Кажется, понял. Ответы на мои вопросы сводятся к принципам классификации траффика, а они универсальны. Буду изучать.
Аналитики ищут признаки и закономерности вручную, тут уже творческая работа, вопрос был не о ней.

Огромное спасибо!

PS. Просто контрольный вопрос, чтобы убедиться, что понял правильно. Если ошибся, поправьте.
Кто-то решил сделать пиринговый мессенжер, который маскируется под веб траффик. Тогда умные коробки увидят, что вместо известного паттерна "много рандомных клиентов на один хост" присутствуют соединения "сегодя А клиент Б, а завтра наоборот", и таких связей много внутри ограниченной группы?

Здравствуйте, deep_down, Вы писали:

_>Кажется, понял. Ответы на мои вопросы сводятся к принципам классификации траффика, а они универсальны. Буду изучать.

Не только трафика, но и собственно контента. Не в ручную, но больше автоматически.

Еще подкинули статейку.

http://bit.samag.ru/archive/article/1333

Расскажите о Великом китайском файрволе, который сами китайцы называют «Золотой щит». Что он собой представляет в техническом плане?

три дракона, на которых он базируется: технологии Deep Packet Inspection (DPI), Connection probe и Support vector machines (SVM).

_>PS. Просто контрольный вопрос, чтобы убедиться, что понял правильно. Если ошибся, поправьте.
_>Кто-то решил сделать пиринговый мессенжер, который маскируется под веб траффик. Тогда умные коробки увидят, что вместо известного паттерна "много рандомных клиентов на один хост" присутствуют соединения "сегодя А клиент Б, а завтра наоборот", и таких связей много внутри ограниченной группы?

Еще идентификация хостов и контента.

«Сonnection probe»
дальнейшая эволюция DPI – сращивание прокси-сервера и низкоуровневого фильтрующего механизма. При попытке подключения к любому сервису за пределами национального сетевого шлюза сначала происходит «заморозка» такого запроса и потом последующее опережающее подключение по целевому адресу уже от имени DPI. Это, так сказать, проактивная система тестирования и идентификации типа запрашиваемых во внешнем Интернете сервисов.

SVM – это интеллектуальная насадка на DPI, которая, продолжая нашу антивирусную аналогию, привносит эвристические возможности («shrinking» heuristic) в процесс фильтрации интернет-трафика.

	От:	deep_down
	Дата:	25.11.15 10:35
	Оценка:

	От:	Stanislaw K
	Дата:	25.11.15 14:45
	Оценка:	17 (3) +1

	От:	deep_down
	Дата:	25.11.15 15:26
	Оценка:

От:	MozgC	http://nightcoder.livejournal.com
Дата:	25.11.15 15:40
Оценка:

	От:	Qulac
	Дата:	25.11.15 15:43
	Оценка:

	От:	Хон Гиль Дон
	Дата:	25.11.15 16:52
	Оценка:

	От:	wildwind
	Дата:	26.11.15 10:01
	Оценка:

	От:	Sharov
	Дата:	26.11.15 10:48
	Оценка: