גוגל חגגה לאחרונה יום הולדת עשרים ואנחנו חגגנו איתה. אפשר למלא ספרים רבים בעזרת הטקסטים שכבר נכתבו על ענקית החיפוש ואיך היא שינתה את חיינו. אני באופן אישי נעזר בגוגל כמה פעמים ביום, לצרכים מקצועיים וגם אישיים, ומתקשה לדמיין את עצמי מנהל שגרת חיים תקינה בלעדיה. אני חושב שההוכחה המוצלחת ביותר לכמה גוגל השפיעה על החיים של כל אחד מאיתנו, ואפילו על התפקוד שלנו כחברה, היא העובדה שגוגל הוטמעה בשפה היומיומית שלנו ("תגגל" את זה או באנגלית Google it). ברצינות, כמה חברות אתם מכירים שקיבלו פועל משלהן?
את מה שגוגל עשתה לעולם העסקי ולקהל הרחב עם מידע הפרטי והמסחרי שלנו, היא עכשיו מנסה לעשות גם לקהילה המדעית ע"י הנגשת מאגרי הנתונים (Datasets) הפזורים ברחבי הרשת. לטובת העניין הושק שירות חדש בשם Dataset Search אשר אמור להוות סוג של שירות משלים ל-Google scholar הותיק (מנוע חיפוש נפרד ודי פופולרי המיועד לחיפוש של מאמרים, מחקרים ודו"חות אקדמיים).
כמובן שאפשר להגיע למאגרים כאלה (לפחות לחלקם) גם באמצעות חיפוש "רגיל" במנוע החיפוש הראשי של גוגל. הבעיה היא שיש המון מאגרי נתונים, וזה דבר טוב, אך קשה מאוד למצוא או להגיע אליהם:
יש המון מאגרי נתונים ברשת – כיום קיימים מיליוני סטים של נתונים הפזורים בין אלפים רבים של אתרים או מאגרים שונים. המספרים הראו צמיחה מרשימה בייחוד בשנים האחרונות. בעידן ה"פייק ניוז" הדרישה להסתמך על נתונים אמיתיים לגיבוי השערות, היפותזות ומסקנות חזקה מתמיד. נוסיף לכך תקנות ורגולציות חדשות בארצות הברית ואירופה, ואת תנועת ה-open data שדוגלת בשקיפות ומתן גישה חופשית למידע באופן גלובלי. והכי חשוב – היכולת שלנו לאסוף, לאגור ולנתח את הנתונים טובה מאי פעם ומשתפרת כל שנה. קלות האיסוף מגדילה את ההיצע. שיפור הניתוח מגדיל את הביקוש.
קשה למצוא או להגיע אליהם, מפני שמאגרי נתונים מפוצלים וחסרים פורמט אחיד שיקל על קטלוג יעיל שלהם. כל מי שחיפש פעם נתונים בתחום מסוים ונאלץ לשוטט באתרים ממשלתיים, מוסדות מדעיים או אתרי אוניברסיטאות למיניהן מכיר את הסוגיה היטב.
הכלי החדש של גוגל מנסה לגשר על הפער הזה ולייצר אינדקס אחיד של מאגרי נתונים שילך ויתרחב עם הזמן. ע"י הכללה של metadata שימושי בתוצאות החיפוש עצמן אנחנו יכולים לסרוק את התוצאות בצורה זריזה ויעילה כדי לוודא שהמאגר מתאים למה שאנחנו מחפשים, לפני שבכלל נטרח להכנס לאתר שמכיל אותו.
המרוויחים המיידים הם כמובן מדענים, חוקרים וכתבים המעוניינים לפרסם מאמרים מגובים בנתונים אבל לא רק. לי לדוגמה, בתור מרצה לבינה עסקית וניתוח נתונים יש תמיד צורך במאגרי נתונים איכותיים ומגוונים. הצורך הזה קיים גם אצל הסטודנטים שלי, בין אם זה לצרכי תרגול או ביצוע פרוייקטים. כשמבקשים ממני הכוונה אני נוהג להפנות ל-Kaggle או, אם הנתונים לא חייבים להיות אמיתיים, אני מראה להם איך לייצר מאגרי נתונים משלהם. Dataset Search מהווה עליית מדרגה רצינית בכל מה שנוגע להנגשת החומרים האלה, ויהיה מעניין לראות אם השירות יצליח וכיצד יתפתח בהמשך במידה וכן.
コメント