Какво точно има в изтеклите 11 GB данни от НАП е трудно да се каже. Ясно е, че това са данни за всички на нас, но много от тях са фрагментарни и невинаги е ясно какво точно означават числата срещу имената или ЕГН-тата. Със сигурност за всеки, колкото и добър да е в обработката на подобни масиви, би било нужно доста време от тях да компилира някаква цялостна база данни. А и тя би съдържала доста бели (или ако предпочитате черни) петна, тъй като за различни лица в различни таблици има различни типове данни. За някои справки пък е относително ясно за какво се отнасят и какво представляват сумите, но пък не е ясно към кой момент са. Липсващите парчета от пъзела никога няма да бъдат попълнени.
Затова и за първите няколко дни от теча, основното, което и ние в "Капитал" и другите медии и всички други ентусиазирано сканиращи съдържанието, са обобщения за размера на теча и любопитни факти. Често резултат на търсене за конкретни публични фигури.
Ето и нещо като своеобразен vol. 1 на летните хитове в компилацията The very best of NAPLeaks:
- Безспорно един от събудилите най-много страсти файлове се казва QNEQNEV. В него има над 1 млн. реда с ЕГН-та, срещу които стоят данни за доходи. Не е ясно на какъв принцип е правена извадката, нито към кой точно момент. Според името на колоните може да се направи извод, че това са месечни доходи от заплати, както и вноски за доброволно пенсионно и здравно осигуряване. Сумите обаче говорят по-скоро за годишни данни. За много хора, намиращи се в списъка, обаче е трудно да разберат към кой момент е това. Някои твърдят и че никога не са имали такъв доход. И естествено остава и големият въпрос кой точно е едноименният Яне Янев и дали и защо е правена персонална справка за него.
- Файлът GRAO е сред най-дългите в масива с почти 1.4 млн. реда, които съдържат само ЕГН и три имена. Това е списък на починали лица, като вероятно представлява справка от ГРАО, която НАП използва, за да актуализира базите си.
- В няколко папки могат да бъдат открити данни за сметки на български граждани в чуждестранни банки. Чрез засичане на няколко таблици могат да се установят за тях още наличности, адреси и много други данни.
- Папка EUROFISC съдържа данни от едноименната система, през която националните данъчни служби и OLAF си обменят информация в опит да предотвратяват измами, най-вече източване на ДДС. Във файловете има информация за текущи сигнали и разследвания за множество текущи и минали съмнителни трансфери. Това е потенциално голям международен проблем, тъй като може да провали разследвания и да предотврати разкриване на измами, ощетили бюджетите на всяка от страните в ЕС.
- В теча има няколко папки, които явно са създадени "с оглед личността". Те съдържат данни - три имена и ЕГН на различни категории граждани. Така например има списък на всички картотекирани футболисти от професионалната футболна лига или на действащите нотариуси. Най-вероятно тези списъци са свързани с тематични проверки, които НАП е извършвала през годините. Списък има на всички лични лекари в страната заедно с доходите им.
- Папките AEOI съдържат разпокъсани таблици с данни от банкови сметки в чужбина и тяхната наличност. В тези списъци например се появява името на депутата от ДПС Делян Пеевски и издирваната от САЩ за финансови измами Ружа Игнатова.
- Файл с име MVRDD6 вероятно съдържа информация за прехвърлени на НАП от МВР наказателни постановления срещу водачи, глобени за нарушения по пътищата. Приходната агенция има ангажимент да събира глобите по тях.
- Във файла DEBTS да се открият отправяни до НАП искания за справки за наличието на данъчни задължения. От документа се вижда единствено кога е отправено искането, за кого е било и какъв е резултатът. Проверка на "Капитал" засече, че датите на които са правени справките за две лица, съвпадат с започнати срещу тях проверки.
- Файловете с име DEBTS съдържат log файл за направени в НАП справки за това дали някой е получавал или предоставил заем. Присъствието в този списък вероятно означава, че към конкретния човек е имало интерес от данъчните.
- Файлoвете в папката NRAMARC съдържат кореспонденция с чужди данъчни институции, както и вътрешна информация, свързана с публичното изпълнението - искания за възбрани и запори, предприети действия и вътрешни доклади за изпълнените действия. В тази папка може да се види искане от германска служба към българските им колеги с молба да се установи дали дадено лице притежава още мерцедес с конкретен номер. В други писмо НАП пишат до гръцките служби с молба да установят точното местоположение на 15 метрова яхта Ф.
- Файлът GAMON съдържа информация, вероятно от сайтове за онлайн залагания, тя включва лични данни (включително и номера на лични карти) и IP адрес.
- Папката AZ съдържа данни за регистрираните в бюрата по труда.
Какво точно има в изтеклите 11 GB данни от НАП е трудно да се каже. Ясно е, че това са данни за всички на нас, но много от тях са фрагментарни и невинаги е ясно какво точно означават числата срещу имената или ЕГН-тата. Със сигурност за всеки, колкото и добър да е в обработката на подобни масиви, би било нужно доста време от тях да компилира някаква цялостна база данни. А и тя би съдържала доста бели (или ако предпочитате черни) петна, тъй като за различни лица в различни таблици има различни типове данни. За някои справки пък е относително ясно за какво се отнасят и какво представляват сумите, но пък не е ясно към кой момент са. Липсващите парчета от пъзела никога няма да бъдат попълнени.
Затова и за първите няколко дни от теча, основното, което и ние в "Капитал" и другите медии и всички други ентусиазирано сканиращи съдържанието, са обобщения за размера на теча и любопитни факти. Често резултат на търсене за конкретни публични фигури.
3 коментара
Според GDPR не трябваше ли имена, ЕГН-та и друга чувствителна информация да се държи криптирана? И ако е така, защо не са го направили до сега?
До коментар [#] от "
Гадьо
":
Проблемът не е в това дали е криптирана на сървъра информацията. Може и да е и пак да имаш същите файлове при дъмп. Криптирането е защита от копиране на файла с данните на базата. При дъмп изискваш информация за показване на екрана на потребителя. Системата ще ти върне декриптираната информация. Все пак трябва операторът да може да работи с нея.
Проблемът е защо система има врата за достъп да се направи дъмп. Има стандарти за това как се прави. Пускаш API- програма, която поема заявки и връща само определени записи спрямо точната нужда(не модерното REST, а ентърпрайз). Само неговата машина изобщо може да комуникира със сървъра на базата, а всички други са блокирани(а честата грешка е всеки клиент/рс да има достъп, защото по-бързо се пише приложението така и не се иска планиране на API, което може да е и в пъти по-сложно от програма, която директно подава заявки на базата). Може API да е по-сигурно с криптирани по ключове за клиента части в пакетите, хеширане на заявки и отговори по сменяеми(генерирани за всяка сесия) ключове и т.н.
Та... има стандарти и професионални начини за максимална защита. Просто трябва някой да знае какви са и да иска да ги направи. В администрацията за тези неща просто няма кой да мисли, а изпълнителите що да се охарчват и зорят да търсят изпълнители с умения и т.н.
До коментар [#2] от "атанас":
точно заради "дъмп" трябва да е криптирана. Ако вместо ЕГН има криптирана информация с ключове, които не са налични в базата, тогава и да дъмпваш няма да получиш нищо смислено, а защити на ключовете има много. Явно проблемът им е, че търсенето става в средата на базата и ако информацията е криптирана би станало най-малкото изключително бавно. Естествено има други начини да се защити информацията които нямат този недостатък