Корпус Енрон

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Корпус Енрон — це база даних із понад 600 000 електронних листів, створених 158 співробітниками корпорації Енрон за роки, що передували краху компанії в грудні 2001 року. Корпус був створений із серверів електронних листів Енрон Федеральною комісією з регулювання енергетики (ФКРЕ) під час його подальшого розслідування.[1]. Копію бази даних електронних листів згодом придбав за 10 000 доларів Ендрю МакКаллум, спеціаліст з інформатики з Массачусетського університету Амхерста[2] . Він надав цю копію дослідникам, надавши величезну кількість даних, які використовувалися для досліджень соціальних мереж та комунікації за допомогою комп'ютера.

Створення

[ред. | ред. код]

Під час юридичного розслідування краху Енрон, процес відкриття вимагав збору та збереження величезної кількості даних, для чого ФКРЕ найняв Aspen Systems (нині входить до Lockheed Martin). Листи були зібрані в штаб-квартирі Енрон в Х'юстоні протягом двох тижнів у травні 2002 року Джо Бартлінгом[3], підрядником із підтримки судових процесів та аналізу даних для Aspen. На додаток до електронних листів співробітників Енрон, усі корпоративні системи баз даних Енрон[4], розміщені в базах даних Oracle на серверах Sun Microsystems, були перехоплені та збережені, включно з його онлайн-платформою для торгівлі енергією EnronOnline.

Після збору електронних листів Енрон були оброблені та розміщені на власних електронних платформах виявлення (спочатку Concordance, потім iCONECT) для перегляду слідчим з ФКРЕ, комісії з торгівлі товарними ф'ючерсами та Міністерства юстиції США. Після завершення розслідування та після опублікування звіту співробітників ФКРЕ[5], зібрані електронні листи та інформація вважалися загальнодоступними та використовувалися для історичних досліджень та академічних цілей. Архів електронних листів був загальнодоступним і доступним для пошуку в Інтернеті за допомогою iCONECT 24/7, але величезний обсяг електронних листів понад 160 ГБ зробив його непрактичним для використання. Копії зібраних електронних листів і баз даних були доступні на жорстких дисках.

Джитеш Шетті і Джафар Адібі з Університету Південної Каліфорнії обробили дані в 2004 році і випустили версію MySQL[6]. У 2010 році EDRM.net опублікував переглянуту та розширену версію 2 корпусу[7], що містить понад 1,7 мільйона повідомлень, яка була доступна на Amazon S3 для легкого доступу дослідникам.

Експлуатація

[ред. | ред. код]
Візуалізація мережі електронної пошти в Enron Corpus з розбарвленням, що представляють вісім спільнот

Корпус оцінюється як один з небагатьох загальнодоступних масових колекцій справжніх електронних листів, легко доступних для вивчення; такі колекції, як правило, пов'язані численними обмеженнями щодо конфіденційності та юридичними обмеженнями, які роблять до них надзвичайно складним доступ, наприклад угоди про нерозголошення та очищення даних[2]. Шетті та Адібі, на основі їхньої версії MySQL, опублікували деякий аналіз посилань щодо того, які облікові записи користувачів надіслали електронною поштою. Лінгвістичне порівняння з новішими корпусами електронних листів показує зміни в реєстрі електронних листів англійською мовою. Він також використовується як тренувальні або випробувальні набори для досліджень в обробці природної мови та машинному навчанні[8].

Примітки

[ред. | ред. код]
  1. «The Enron Email Corpus [Архівовано 2011-03-08 у Wayback Machine.]» Retrieved March 5, 2011.
  2. а б Markoff, John. «Armies of Expensive Lawyers, Replaced by Cheaper Software [Архівовано 28 квітня 2022 у Wayback Machine.]». New York Times March 5, 2011. p A1.
  3. Bartling, Joe (3 вересня 2015). The Enron Data Set - Where Did It Come From?. Bartling Forensic and Advisory. Процитовано 3 вересня 2015.{{cite web}}: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url (посилання)
  4. FERC: Industries - Enron's Energy Trading Business Process and Databases. www.ferc.gov. Архів оригіналу за 5 січня 2020. Процитовано 2 вересня 2015.
  5. FERC Staff Report — Price Manipulation in Western Markets — Findings at a Glance [Архівовано 21 лютого 2006 у Wayback Machine.] (3-26-2003)
  6. «Enron processed database [Архівовано 2 квітня 2022 у Wayback Machine.]»
  7. Socha, George. EDRM Enron Email Data Set v2 Now Available. EDRM.net. Архів оригіналу за 4 вересня 2011. Процитовано 3 вересня 2012.
  8. Friginal, Eric; Hardy, Jack (2013). Corpus-Based Sociolinguistics: A Guide for Students (англ.). Routledge. с. 167. ISBN 978-1-136-29277-4. Архів оригіналу за 28 квітня 2022. Процитовано 29 травня 2020.

Посилання

[ред. | ред. код]