בית תכונות תומכים אלה רוצים לוודא שהנתונים שלנו לא ייעלמו

תומכים אלה רוצים לוודא שהנתונים שלנו לא ייעלמו

תוכן עניינים:

וִידֵאוֹ: ª (נוֹבֶמבֶּר 2024)

וִידֵאוֹ: ª (נוֹבֶמבֶּר 2024)
Anonim

בסוף מאי השנה, חמישה חודשים בדיוק מחנוכתו של הנשיא ה -45 של ארצות הברית, ציינה קבוצת אנשים שעסקה בעמדת הממשל החדש כלפי מדע ושינוי אקלים יום נישואים מיוחד משלה.

לא רחוק מהקמפוס של אוניברסיטת צפון טקסס, בערבות שמצפון לדאלאס, נפגשו כמה עשרות אנשים בנתונים להצלת דנטון כדי לזהות ולהוריד עותקים של מערכי אקלים וסביבה פדרלית. המפגשים בסגנון ההאקתון זכו לתשומת לב רבה בימים שקדמו לחנוכה; דנטון היה האירוע החמישים מאז ינואר.

בתחילה, מתוך חשש שהממשל החדש עלול למחוק או לטשטש את האקלים ונתונים סביבתיים אחרים, נראה היה כי החששות הגרועים ביותר של מצילי הנתונים התגשמו כאשר אחת מהפעולות הראשונות של הבית הלבן של טראמפ הייתה למחוק דפי שינויי אקלים מאתר האינטרנט שלה. לאחר מכן, משרד החקלאות האמריקני, לאחר שהסיר את דוחות הבדיקה לרווחת בעלי חיים מאתר האינטרנט שלו, נענה לבקשת חוק חופש המידע של נשיונל ג'יאוגרפיק עם 1, 771 עמודים של חומר שהופץ לחלוטין.

כל אחד יכול לגשת ליותר מ 153, 000 מערכי נתונים פדרליים דרך פורטל הנתונים הפתוחים של הממשלה המרכזית באתר data.gov. אבל זה רק חלק מהנתונים שקיימים בערפילית הביורוקרטיה הממשלתית, לא חשוב שהשבר הקטן עוד יותר שנמצא בשרת.

"איפשהו בערך 20 אחוז מכל המידע הממשלתי נגיש באינטרנט", אמר ג'ים ג'ייקובס, ספרן המידע הממשלתי הפדרלי בספריית אוניברסיטת סטנפורד. "זה נתח גדול למדי של דברים שאינם זמינים. למרות שלסוכנויות יש וויקים ומערכות ניהול תוכן משלהם, הפעם היחידה שתגלה על חלק מהעניין היא אם מישהו FOIA זה."

למען האמת, מידע רב אכן נלכד וכעת הוא שוכן בשרתים לא ממשלתיים. בין אירועי מקלט נתונים ופרויקטים כמו סריקת סוף תקופת 2016, ארכיבו למעלה מ- 200 טרה-בתים של אתרי ממשלה ונתונים. אך מארגני ההצלה החלו להבין שמאמצים חלקיים ליצור עותקים שלמים של טרה-בתים של נתוני מדע של סוכנויות ממשלתיות לא ניתן היה לקיים מציאותית לטווח הארוך - זה יהיה כמו לחסל את הטיטאניק באצבעון.

כך שלמרות ש- Data Rescue Denton היה בסופו של דבר אחד האירועים המאורגנים הסופיים מסוגו, המאמץ הקולקטיבי דרבן קהילה רחבה יותר לעבוד יחד כדי להפוך נתונים ממשלתיים ליותר גלויים, מובנים ושימושיות, כתב ג'ייקובס בפוסט בבלוג.

מבט לספריות

באוניברסיטת פנסילבניה, בתני ויגגין היא מנהלת תוכנית פן במדעי הרוח הסביבתית, שם היא הייתה מרכזית בתנועת הפליטים, מקורה של אירועי הצלת הנתונים. המיקוד עבר כעת, לדבריה, למינוף המסגרות הלאומיות למאמצים ארוכי טווח במקום פרקים תקופתיים מקומיים.

"הבנו את הכישורים שצצו במקומות שונים העושים אירועי נתונים להצלה, משהו שניתן היה לקנה מידה", אמר וויג'ין, במיוחד בכל ספריות המחקר. "אבל המאמצים האלה כולם התרחשו לפני שהשקנו. הכוח של Data Refuge היה לעבות את אותם קשרים; לזרז פרויקטים ארוכי שנים, עם תנועה איטית; ולהאיר אור עד כמה הם חשובים."

וויגגין מסייעת לאחרונה בחוד החנית ספריות + רשת, שותפות מתהווה של ספריות מחקר, ארגוני ספריות וקבוצות נתונים פתוחים, שזרזו להרחיב את תפקידה המסורתי של הספריות בשימור הגישה למידע. המשתתפים כוללים את ספריית המחקר של אוניברסיטת סטנפורד, הספרייה הדיגיטלית בקליפורניה וקרן מוזילה, עם קלט ושיתוף פעולה מגורמים רחבים כמו הארכיון הלאומי וקציני הנתונים הראשיים בכמה לשכות פדרליות.

פרויקט אחד, למשל, הוא LOCKSS ("הרבה עותקים שומרים על דברים בטוחים") שג'ייקובס מתאם מזה כמה שנים. זה מבוסס על אותו עיקרון כמו רשת ספריות בנות 200 שנה המכונה תוכנית ספריית הפיקדון הפדרלית; ספריות אלה הן מאגרים רשמיים של פרסומים של משרד הדפוס הממשלתי האמריקני (GPO).

לעומת זאת, LOCKSS היא גרסה דיגיטלית פרטית של מערכת זו, המורכבת עד כה מ -36 ספריות המקצרות פרסומים מה- GPO בשיתוף פעולה שלה. זהו מודל כיצד ניתן להגן על מידע דיגיטלי מפני מחיקה או התעסקות על ידי פיזור פיזי רחב.

"אינך יכול להבטיח שמירה אלא אם כן יש לך שליטה על התוכן, " אמר ג'ייקובס. "חלק ממה שהפך את ספריות המפקידים לחשובות ושימושיות במשך 200 השנים האחרונות היה שאף אחד בממשלה לא יכול היה לערוך מסמך מבלי לעבור בפועל ל -1, 500 ספריות ולהגיד 'כן, שנה את העמוד הזה כאן'."

התוכנה LOCKSS משתמשת במטמון בודק של תוכן ברמת הסיביות ומשווה אותו לתוכן שנמצא בספריות אחרות, שלדברי ג'ייקובס מסייע בהבטחת שימור לטווח הארוך באמצעות תיקון קבצים מושחתים.

ג'ון צ'ודאקי, משתף פעולה נוסף עם רשת Libraries +, הוא מנהל האוצרות של הספרייה הדיגיטלית בקליפורניה, מתקן מידע וירטואלי המשרת את כל 10 הקמפוסים של מערכת אוניברסיטת קליפורניה. עובדים עם קוד למפתח המדע והחברה מקס אוגדן ופיליפ אשלוק, אדריכל הראשי ב- data.gov, צ'ודאקי טוענים כי ההתמקדות שלהם הייתה בשימוש בנתונים.gov כרחוב דו כיווני.

תחילה הם הדגימו כי הצלת נתונים עצמה יכולה להיות יעילה בהרבה על ידי איסוף עותק של data.gov עצמה והצבתם באתר חיצוני, datamirror.org, עם סקריפטים לניטור הבודקים עדכונים. ואז גם צ'ודאקי ומשתפי הפעולה החלו לבדוק אם תרמו מערכי נתונים ומטא-נתונים למראה יכולים להזין את זרימות העבודה הקיימות של data.gov של סוכנויות דרך דפי זיפים במראה.

בהתאם לצו המנהלי של אובמה מ -2013 שהורה על פרסום נתונים הניתנים לקריאה במכונה על data.gov, סוכנויות עדיין יהיו אחראיות על יצירת הרשומות המפורטות באותו פורטל; הרעיון של צ'ודאקי ואוגדן הוא שאספקת הנתונים המוצעת על ידי מערך נתונים מוצעים פשוט עוזרת להפיץ את עומס העבודה.

"אנחנו לא צריכים לשכפל את כל המערכת האקולוגית", אמר צ'ודאקי. "הממשלה הפדרלית וסוכנויות אלה עוסקות בנתונים לאורך זמן רב מכפי שהיה זה דבר שווה לדבר על נתונים גדולים, בצורה הרבה יותר חזקה מכל אחד אחר."

שותפויות ציבוריות-פרטיות

שאלת העלות היא דבר מובן מאליו כשמדובר כיצד סוכנויות מצליחות לזהות אילו ערכות נתונים הן בעלות ערך רב לציבור, ואז לפרסם קישורים למטא-נתונים או למערכי נתונים בפועל דרך פורטל הממשלה. דו"ח משרד התקציבים של הקונגרס (CBO) לחוק הצעת החוק לפתיחת נתונים על הממשלה שנמצא כיום בסנאט - אשר יביא לקידוד הצו הביצועי של אובמה לחוק - מעריך כי יישומו המלא יעלה 2 מיליון דולר בין 2018 ל 2021.

במונחי כספי ממשלתיים, המייצגים למעשה שום עלייה ממשית בהוצאות, סיכמה CBO.

עם זאת, היעילות היא שאלה אחרת, שאלה שעורך אד Kearns במינהל האוקיאנוס האטמוספרי הלאומי יחד עם שותפים פרטיים כולל שירותי האינטרנט של אמזון וגוגל. Kearns, קצין הנתונים הראשי של NOAA, אמר כי הגדלת הזמינות והשימוש בציבור בנתוני NOAA הם יעד מרכזי של פרויקט ה- Big Data.

חברות מזהות אילו מערכי נתונים הם רוצים, ו- NOAA מעביר אותו ללא עלות נוספת לציבור. כל מה שיש ל- NOAA הוא על השולחן, אמר Kearns, אך המטרה של השותפות לחמש שנים היא לא להוציא את כל נתוני NOAA על הענן - רק נתחים אסטרטגיים.

אירוח מערכי נתונים כאלה בשירותי הענן של חברות פרטיות מציע כמה יתרונות לגישת ה- FTP בסגנון שנות ה -80 שהיא עדיין סטנדרטית להעברת מערכי נתונים גדולים מסוכנויות פדרליות. ראשית, מערכי הנתונים של NOAA נוטים להיות עצומים - הסוכנות מפקחת על אוקיינוסים של כדור הארץ, האווירה, השמש והחלל - ולעיתים נדרשים שבועות או חודשים למסירה ציבורית.

דוגמא אחת היא ארכיב הרדאר דופלר ברמה גבוהה NEXRAD Level-II של הסוכנות. על פי מחקר שפורסם בחודש מאי על ידי האגודה המטאורולוגית האמריקאית, העברת ארכיון ה- NEXRAD בנפח 270 טרה-בייט ללקוח בודד באוקטובר 2015 הייתה צריכה לקחת 540 יום בעלות של 203, 310 דולר. עותק מלא של הארכיון מעולם לא היה ניתן לניתוח חיצוני לפני ש- NOAA עבדה עם אמזון וגוגל בכדי להניח אחת על הענן.

לניסוי היו גם תוצאות מוקדמות ומעניינות עם עליית השימוש. דפי מזג האוויר והתחזית של NOAA כבר מקבלים כמה מרמות התעבורה הגבוהות ביותר באתרי ממשלה, אולם לאחר שגוגל שילבה לאחרונה נתונים סטטיסטיים על אקלים ומזג אוויר, בערך הופעה בגודל, במאגר המידע שלה BigQuery, החברה דיווחה כי הציגה 1.2 פטה-בייט של מערך נתונים זה. מה -1 בינואר עד 30 באפריל - הרבה יותר מאשר אי פעם הוגשה במסגרת זמן דומה משרתי NOAA.

"גוגל הצליחה לפתוח את הקהל בפני קהל חדש לגמרי", אמר Kearns.

זה לא רק גשם וטמפרטורות עונתיות. מערכי נתונים הזמינים כעת דרך השותפים של ביג דאטה כוללים מידע על דיג, מזג אוויר ימי, וקטלוג שמתארח על ידי IBM המפרט נתונים עדכניים, תחזיות, היסטוריות וגיאוגרפיות ממרכזי NOAA. מערכי נתונים עתידיים יכולים אפילו לכלול מידע על מערכות אקולוגיות וגנומיקה של הדייג.

אבל על ידי תכנון, השותפות מאפשרת למשתפי פעולה לבחור דובדבן את מה שהם רוצים ביותר, מה שמוביל את הסיכון שמערכות נתונים מעורפלות, ועם זאת פוטנציאליות בעלות ערך גבוה, לא יראו אור יום. Kearns אומר שמוקדם מדי לומר מה עשוי להיות בסופו של דבר כעל ערך.

"היקף הטווח של מה יכול לעשות עם הנתונים האלה מדהים אותנו", הוסיף. "איננו יכולים לדמיין את כל השימושים האפשריים."

בקנה מידה קטן יותר, עיר פילדלפיה פעלה גם יחד עם גורם פרטי למען פרסום מערכי נתונים שהציבור אמר שהיא תמצא הכי מועילה. הגודל של העיר מעניק לה יכולת יכולת יותר לתפעול יומיומית מאשר ישות פדרלית, אך המודל של פילי מייצג גישה אחת לשינוי אסטרטגיות של מערכי נתונים שטרם פורסמו.

אזביאה, חברת תוכנה מבוססת פילי המתמחה בהדמיית נתונים, שיתפה פעולה עם קצין המידע הראשי בעיר, טים וויסנייבסקי, כדי לפתח רשימה של מערכי נתונים לא פרסומים שלעמותים בעיר עשויה להיות אינטרס להשתמש בהם. ויסנייבסקי ואזביאה השתמשו בשניהם בקטלוג המטא נתונים המקוון של העיר וגם בתשומות ממחלקות העיר כדי לפתח את הרשימה. אזאביאה ושותפים אחרים קנו את הרשימה לעמותות בפילדלפיה והשיקו את OpenDataVote, תחרות לציבור להצביע על פרויקטים שהועלו על ידי אותם מלכ"רים על איך הם ישתמשו במערכות הנתונים המועדפות עליהם.

הזוכה האחרון היה ההצעה שהציעה MicroSociety ללא מטרות רווח להשתמש בנתוני עיר על תורמים למחוז בתי הספר בפילדלפיה כדי למדוד את ההשפעה של תכניות ללא מטרות רווח בבתי ספר.

ויסניובסקי אמר כי "אנו יכולים לומר כי העמותה הזו בעיר מעוניינת במערך נתונים מסוים מכיוון שהם יכולים לעשות עם זה משהו, וכי האנשים הרבים האלה הצביעו כדי לתמוך בהם. "זה מאפשר לנו ללכת למחלקות עם תיק שימוש מוצק ביד ולא לומר, היי, שחרר את הנתונים האלה רק בגלל."

נתונים ישנים והחדשים

אבל מה קורה גם כשיש מספיק גישה לנתונים שכבר קיימים שם, כאשר הוראות מדיניות והוראות מימון חדשות אומר שהנתונים עצמם פשוט לא נוצרים יותר? זה דאגה אמיתית, אמרה אן דונקין, שכיהנה כמפקדת המידע הראשית בסוכנות להגנת הסביבה תחת הנשיא אובמה וכעת עומדת בראש ה- IT עבור מחוז סנטה קלרה בקליפורניה.

דונקין אמר כי "אנשים מודאגים מהנתונים הישנים, אבל מה שמדאיג אותי ביותר הוא שנתונים חדשים לא הופכים לזמינים באותו קצב כמו קודם, או כלל לא נוצרו".

בניתוח אחד של התקציב הפדרלי המוצע של 2018 על ידי המגזין Science, סוכנויות ממשלתיות רבות יביאו להפחתה משמעותית בתקציבי המחקר שלהם אם התקציב יועבר כפי שהוצע. קיצוץ של בערך 22 אחוז במכון הלאומי לבריאות יביא לתשלומים לאוניברסיטאות מחקר; בקשת התקציב של נאס"א תבטל יוזמות לפיקוח על פליטת גזי חממה ותוכניות אחרות למדעי האדמה. ניתן היה לסגור את תכניות האקלים ב- NOAA ברמות חתכים דומות.

במהלך כהונתה פעלה ה- EPA למען הפיכת איסוף הנתונים לכלי שכל אחד יכול להשתמש בו כדי להבין את בריאות הסביבה שלהם, וכיצד להגיב אליו. יום אוויר רע? אל תצא החוצה. לזרום בדרך המזוהמת? הרחק את הילדים.

"הציפייה שלי היא שתעבור לאחור", הוסיף דונקין. "יכול להיות שאני טועה, אבל אם אתה אומר שאנחנו לא מתכוונים להנגיש נתונים, המסקנה ההגיונית היא מערכי נתונים שיכולים לעזור לחברי ציבור גם לא יהיו זמינים או שלא ייווצרו מלכתחילה."

Wiggin של Data Refuge עובדת על פרויקט סיפור סיפורים שקשור לסוגיה זו, שהיא מקווה שתביא לקטלוג של יותר אנשים לדרוש שחרור נתונים שוטף, וליצור תמיכה בשטח להמשך התוכניות הקיימות לאיסוף נתונים ברחבי הממשלה הפדרלית. נרטיבים של "שלוש סיפורים בעירנו" יציגו את ההשפעה של נתונים פדרליים מוסתרים במקומות לא צפויים, ראשית בפילדלפיה, ואז במקומות אחרים ברחבי הארץ.

"חתיכה מכרעת מתנועת הפליטים, כשאנחנו עוברים לשלב הבא, היא לעזור לאנשים להבין עד כמה נתונים רבים המיוצרים על ידי פדרליות נמצאים בחייהם", אמר וויגין. "בין אם אתה קורא לזה אקלים, בריאות או ביטחון ציבורי, זה עדיין נתונים פדרליים. זה ביישובים, בבניין העירייה, במאמצי שיטור, בצבא. אנחנו צריכים להמשיך לזכור עד כמה הנתונים חשובים."

משאבים:

  • שער נתונים להגנת הסביבה של EPA: פורטל המטא נתונים של הסוכנות להגנת הסביבה.
  • נתונים פתוחים @ DOE: פורטל הנתונים הפתוחים של המחלקה לאנרגיה.
  • פורטל נתוני שירות המחקר הכלכלי של USDA
  • משאבי ביג נתונים של NOAA: קישורים לדפי הפלטפורמה של שותפי ביג דאטה המארחים נתונים שנוצרו על ידי NOAA.
  • אוניברסיטת צפון טקסס: בית הקברות בסייבר: ארכיון של אתרי ממשלה מושכלים, מיושנים או סתומים.
  • דף פרויקט ארכיב של יוזמות נתונים סביבתיים וממשל: כלים, קוד ואפליקציות הקשורים לגילוי וארכוב של נתונים ממשלתיים.
  • מכונת ארכיב ה- Wayback באינטרנט
  • ארכיון אינטרנט: כיצד לשמור דפים במכונת ה- Wayback: שש דרכים למנות דפים לארכיון.
  • הספרייה הדיגיטלית בקליפורניה: ארכיון האינטרנט של סוף המועד: אוסף אתרי אינטרנט ממשלת ארה"ב שנשמרו מסריקות סוף תקופה, משנת 2008 ועד היום.
  • FreeGovInfo.info: תוכן רחב עם מידע על פורטלי נתונים ברמה המדינית והפדרלית, וארכיונים של סיפורי חדשות בנושאי נתונים פתוחים.
  • מראה אקלים: אוסף של מערכות אקלים המתנדבות שנאספו.

סיפור זה הופיע לראשונה במהדורת הדיגיטל PC Magazine. הירשמו עוד היום לסיפורים מקוריים יותר של תכונות, חדשות, ביקורות וכדומה!

תומכים אלה רוצים לוודא שהנתונים שלנו לא ייעלמו