Optical Character Recognition ובעברית – זיהוי תווים אופטי היא טכנולוגיה הממירה קבצי תמונה (לרבות סריקת מסמך בפורמט PDF) למידע טקסטואלי שניתן לשמור בפורמט דוגמת קובץ וורד. להבדיל מקובץ תמונה, בפורמט טקסטואלי ניתן לחפש שמות, להעתיק טקסט ולהדביק במקום אחר וכדומה.

משרדי הממשלה ויחידות הסמך מחוייבים לנוהל צורת מסירת מידע, הקובע עדיפות למסירת המידע שתצורה שתאפשר עיבוד ועריכה, וככל שהרשות בוחרת למסור בצורה שונה, עליה לנמק בהתאם לסעיף 11 לחוק. עקרונות אלה גם קיבלו ביטוי בהחלטות ממשלה. בעבר, הגישה התנועה לחופש המידע עתירה כנגד החלטת עיריית תל אביב שלא להעמיד לרשות התנועה את קובץ התקציב כקובץ אקסל, ואף שהצדדים הגיעו להבנות, ניתן פסק דין מהותי המתייחס לכך (עת"מ 39945-02-10 : התנועה לחופש המידע ואח' נ' עיריית תל אביב-יפו ואח'). ממסמכים נוספים בהליך ניתן למצוא גם באתר התנועה לחופש המידע.

בפועל מסמכים רבים נמסרים בניגוד לנוהל, להחלטות הממשלה ולהיגיון הבריא ואלה הלכו והצטברו באתר מידע לעם. עמותת הצלחה – לקידום חברה הוגנת, תרמה לאתר מידע לעם, ושלחה מאות מסמכים שנמסרו לחברה מקצועית לצורך ביצוע OCR. קרי, המרת הקבצים לפורמט טקסטואלי. בהתאם, נכון להיום פריטים רבים באתר כוללים את קובץ המקור כפי שנמסר מהרשות, ולצידו קובץ נוסף עליו כתוב "לאחר ביצוע OCR", הוא הקובץ המעובד שנוסף לאחרונה.

פוסטים נוספים