Как са разчетени грамите на WikiLeaks
Абонирайте се за Капитал

Всеки петък икономически анализ и коментар на текущите събития от седмицата.
Съдържанието е организирано в три области, за които Капитал е полезен:

K1 Средата (политическа, макроикономическа регулаторна правна)
K2 Бизнесът (пазари, продукти, конкуренция, мениджмънт)
K3 Моят капитал (лични финанси, свободно време, образование, извън бизнеса).

Абонирайте се за Капитал

Как са разчетени грамите на WikiLeaks

Как са разчетени грамите на WikiLeaks

Журналистите на AP извличат ценното съдържание по техника, взета назаем от онлайн търсачките

Андриан Георгиев
3941 прочитания

За да извлекат важната информация от хилядите грами на WikiLeaks, журналистите на Associated Press (AP) се вдъхновяват от работата на онлайн търсачките, обяснява Джонатан Стрей, интерактивен редактор в AP, в презентация пред националния институт за прилагане на компютърни технологии в журналистиката.

За да открият ценното в грамите, журналистите на AP дават рейтинг за всяка дума. Накратко това е число, което определя съотношението между споменаванията на думата във всички документи и употребата й в един документ.

След това репортерите сравняват документи, които имат близки рейтинги, и ги визуализират, за да открият връзки. Така те бързо си създават представа за събитията в Ирак например според това колко пъти се среща ключовата дума "убийство" например.

В опит да намалят времето, в което анализират документите, от AP използват алгоритъм, разработен от Стивън Инграм и Тамара Мунцнер от университета на Британска Колумбия. Чрез него, теобработват стотици хиляди документи за минути.

Техниката има много приложения. Екипът на Джонатан Стрей може да раздели всички документи по признаци. В случая файловете се сортират по трите ключови думи, които се повтарят най-често в тях. Например - "със завързани очи", "крака, ръце" и "отвлечен". След това се визуализират връзките между различните категории.

Те се базират на теми от речника на военните като:

- криминално действие (44.61%)

- вражеско действие (29.47%)
- опасност от взрив (16.72%) - приятелско действие (6.06%) - доклад за заплаха (1.18%)

- други (1.11%)

След това изследователите задълбават във всяка категория и търсят ключовите думи, които се повтарят най-често в нея. За криминално действие това са: "със завързани очи", "със завързани ръце", "труп" и "изстрел".

Едно от интересните открития са няколко десетки документи, съдържащи "автомобил-цистерна". От AP сверяват статиите на своите журналисти в същия период, от който датират грамите, и откриват едва четири-пет, съдържащи същата ключова дума. Т.е медиите не са успели да обърнат внимание на всички атентати.

Желанието на Джонатан Стрей е да отвори достъпа до компютърния алгоритъм, така че повече разследващи журналисти да се възползват от методите на AP и така да вършат работата си по-ефективно.

За да извлекат важната информация от хилядите грами на WikiLeaks, журналистите на Associated Press (AP) се вдъхновяват от работата на онлайн търсачките, обяснява Джонатан Стрей, интерактивен редактор в AP, в презентация пред националния институт за прилагане на компютърни технологии в журналистиката.


Благодарим ви, че четете Капитал!

Вие използвате поверителен режим на интернет браузъра си. За да прочетете статията, трябва да влезете в профила си.
Влезте в профила си
Всеки потребител може да чете до 10 статии месечно без да има абонамент за Капитал.
Вижте абонаментните планове

3 коментара
  • 1
    geoprofi avatar :-|
    Geo

    Открили са топлата вода, и? Търсачка, базирана на BM25 ползват почти всички сайтове, в които опцията "търси", а това е, което описвате в статията. Поддържа се стандартно във всички бази данни от повече от десетилетие. По-усъвършенстваните варианти - BM25 + Proximity Match + Custom решения също навлязоха доста масово последните години и работят перфектно навсякъде, където трябва да се търси в база данни. Не виждам новината...

  • 2
    pavka14 avatar :-|
    Павел

    "журналистите на AP дават рейтинг за всяка дума. Накратко това е число, което определя съотношението между споменаванията на думата във всички документи и употребата й в един документ." - TF-IDF съществува от доста пред журналистите на AP да го "открият".

  • 3
    epoc avatar :-|
    epoc

    Е сега на гугъл ще им припари под задниците......


Нов коментар

За да публикувате коментари,
трябва да сте регистриран потребител.


Вход

Още от Капитал

С използването на сайта вие приемате, че използваме „бисквитки" за подобряване на преживяването, персонализиране на съдържанието и рекламите, и анализиране на трафика. Вижте нашата политика за бисквитките и декларацията за поверителност. OK