Контекстные факторы: как их применять в образовании
О том, что сравнивать несравнимое, по сути, невозможно и практически бессмысленно, особенно если это касается исследований в образовании, в последнее время говорится слишком часто. Тем не менее, до сих пор в ходу различные рейтинги и мониторинги, которые, не вникая в особенности среды функционирования образовательных организаций, сопоставляют их работу и приходят к выводам, которые могут оказывать сильное влияние на дальнейшую жизнь проанализированных вузов, школ и т.д. Так ли на самом деле важен контекст, как его оценить и правильно соотнести с характеристиками исследуемых образовательных организаций? Об этом шла речь на очередном семинаре Института образования НИУ ВШЭ «Актуальные исследования и разработки в области образования».
Как отметил в самом начале семинара научный руководитель Института образования НИУ ВШЭ Исак Фрумин, проблематика трудных контекстов сегодня является одной и наиболее актуальных. Школы, которые работают с проблемными детьми, из малообеспеченных семей в основном не могут попасть на высокие места в рейтингах, которые производят почти магическое впечатление на общественность. По словам Исака Фрумина, надо добиться того, чтобы в ближайшее время рейтинги совершенствовались, в том числе и широко известный
перечень 500 лучших образовательных организаций, которые продемонстрировали высокие образовательные результаты в 2012-2013 учебном году.
Тем не менее, научный сотрудник Института фундаментальных междисциплинарных исследований НИУ ВШЭ Алексей Бессуднов отметил, что
список Топ-500 школ ценен для общественности и управленцев, поскольку показывает важную информацию о том, где в среднем лучше учатся дети. И использует остаточно качественную базу для анализа – результаты ЕГЭ и Всероссийской олимпиады школьников. Он не менее важен, чем, например, большое исследование, учитывающее особенности и контексты. Вопрос в том, что оба они дают ответы на разные вопросы. Например, если родитель решает, куда отдать учиться ребенка, если стоит такой выбор: в свою сельскую школу, которая берет даже сложных детей и доводит их до хорошего среднего уровня или в школу которая находится в городе и хорошо учит в среднем? Эти школы будут в топе совершенно разных рейтингов.
Тем не менее, говорить о том, что в стране есть сложившиеся традиции учета контекстной информации, по словам
старшего научного сотрудника Лаборатории сравнительного анализа развития постсоциалистических обществ НИУ ВШЭ Гордея Ястребова, пока рано. Согласилась с коллегой и в
едущий научный сотрудник Центра социально-экономического развития школы НИУ ВШЭ Марина Пинская. Она подчеркнула, что у
нас пока просто не
т привычки использовать контекстные данные.
Гордей Ястребов отметил, что в целом нельзя говорить о том, что контекст и
гнорируется полностью, правда, существующие попытки его учета в исследованиях не носят системного характера. В методологическом плане все имеющиеся наработки и подходы отличаются друг от друга и малосравнимы.
Чтобы в рамках семинара говорить об одних и тех же вещах, Гордей Ястребов предложил трактовку контекста в образовании как неких внешних обстоятельств, оказывающих существенное влияние на образовательные организации, которые функционируют в их рамках. Причем, речь идет о наборе факторов, которые участники образовательного процесса далеко не всегда могут контролировать.
Набор контекстных показателей по странам в целом сходен. Так, в Бельгии в рамках образовательного контекста обращают внимание на пол, возраст, миграционный статус семьи, язык внутрисемейного общения, трудности в обучении, образование матери и т.д. В Великобритании в этот список попадает еще и особый фактор – «право на бесплатное питание», в Испании – «возраст на момент иммиграции», повторное обучение, гранты и т.д.
В России среди рекомендуемой контекстной информации для сравнения региональных/муниципальных образовательных систем, значатся такие показатели, как количество посещений музеев на тысячу жителей, количество книг в библиотеках на тысячу жителей, доля сельского населения, миграционный приток и выбытие, собственные доходы местного бюджета на душу населения, уровень безработицы и т.д. Многие из вышеперечисленные параметров можно отнести к показателям социальной уязвимости.
Итак, данные собраны, а что делать с ними дальше? Например, в Австралии существует такое исследование, как National Assessment Program – Literacy and Numeracy (
), формируемый на основе нескольких контекстных показателей (социально-профессиональный статус и уровень образования родителей, доля учащихся из семей, представляющих этнические меньшинства, доля учащихся с неродным английским, индекс территориальной удаленности школы). Их веса определяются по принципу наибольшего вклада в дисперсию показателей успеваемости. Естественно, что в таком случае исследование оказывается тонким инструментом, скорректированным объемным представлением о ситуации в школах, ученики которых показывают наиболее высокие или низкие результаты. Сравнение здесь происходит в группах так называемых «статистических соседей».
Чилийская национальная оценка
также учитывает контексты. Однако здесь демонстрируется иной подход – выделяются пять социально-экономических групп на основе кластерного анализа таких характеристик контингента как уровень образования родителей, доход семьи, индекс социальной уязвимости школ (индекс бедности, рассчитываемый для определения финансирования питания в школах). После идут сравнения в группах.
В целом, как отметили участники обсуждения, примеров адекватного и оказывающегося полезным учета контекстов можно привести целое множество.
В основе управления – анализ
Основной частью семинара стал доклад Гордея Ястребова на тему «Использование контекстных данных в системе управления качеством образования: теоретические основания, опыт разработки и апробации инструментария».
Докладчик отметил, что в
России контекстные данные учитывались в ряде таких крупных исследований как, например, работа В.С. Собкина и П.С. Писарского, охарактеризовавшая типы региональных образовательных ситуация в РФ, исследование под руководством Д.Л. Константиновского, М.Л, Аграновича. Во многих исследованиях учет данных происходит с помощью процедур «кластеризации», то есть, объединения образовательных учреждений в однородные кластеры или типы, характеризующиеся схожестью условий функционирования.
Тем не менее, по словам Гордея Ястребова, кластерный подход имеет и свои ограничения, потому что всегда надо четко понимать, как определяются рамки кластеров, каково должно быть их число и насколько хорошо сделан выбор оснований для их выделения и т.д.
В исследовании, которое Гордей Ястребов представил в своем докладе, было охвачено почти 1200 школ Московской, Ивановской и Ярославской областей. Изучались результаты ЕГЭ по двум обязательным предметам (математике и русскому языку). В ходе исследования удалось установить, как с результатами успеваемости связаны характеристики социального состава учащихся, организационная, кадровая и ресурсная специфика школ, а также показатели социально-экономического развития территорий, какой вклад они вносят в дифференциацию результатов общеобразовательных школ. В этом экспертам, в частности, помогли социальные паспорта школ (формировались по запросу исследователей на основе показателей успеваемости, кадровых и организационных характеристик учреждения, контингента) и статистические паспорта муниципальных образований (создавались с учетом данных Росстата и открытых источников о степени урбанизации территории, состоянии социальной инфраструктуры, уровне доходов населения).
Таким образом, по словам Гордея Ястребова, в проведенном исследовании удалось учесть контекст на двух уровнях – на уровне школ и муниципальных образований.
В число характеристик контингента учащихся попали такие как, например, доля учащихся из многодетных, неполных, семей, где работает один из родителей, где русский язык не является родным и т.д. Характеристика школ давалась с учетом вида учреждений, численности контингента, среднего возраста учителей и т.д. Характеристика территории основывалась на статусе поселения, численности жителей и др.
Данные параметры в целом близки к тому, что используют и международные исследования, учитывающие контексты в образовании.
Основным методом анализа, по словам Гордея Ястребова, стал множественный регрессионный анализ, который позволил добиться установления связей результатов успеваемости с исследуемым контекстом.
В качестве значимых результатов исследования докладчик назвал понимание положительного влияния на результаты детей ситуации, когда оба родителя имеют высшее образование, и негативного – когда ребенок растет в неполной семье, состоит на различных видах учета и ситуации, когда русский язык не является родным.
Кроме того, если сравнивать средние баллы ЕГЭ по трем регионам, то можно говорить о том, что они статистически неразличимы, но если взглянуть глубже на эти результаты, например, с учетом процента учителей с высшей категорией в регионе, или процента лицеев и гимназии, эти показатели начинают корректироваться.
В целом же по словам Гордея Ястребова, разработанная модель может быть использована с учетом не только результатов ЕГЭ или ГИА, но и любых других показателей результата. Она достаточно проста в обращении, и может быть автоматизирована. Тем не менее, ее следует использовать только в качестве средства первичной диагностики.
Марина Пинская также отметила, что подобная модель регрессионного анализа может быть неплохим подспорьем при принятии управленческих решений. С его помощью можно определить школы, нуждающиеся в адресной поддержке (специальных нормативах финансирования или усилении кадров), учитывать социально-экономические характеристики семей при регулировании набора (поощрять школы, где принимают неблагополучных учеников), а также помогает выявить и распространить практики, обеспечивающие эффективность работы школы.
Не переоценивать, но знать
По большому счету роль контекстов огромна. Об этом говорили участники дискуссии, которая открылась после знакомства с докладом. Как отметил
директор Центра социально-экономического развития школы НИУ ВШЭ
Сергей Косарецкий, сегодня при масштабном внедрении новых форм мониторингов, создании новой общероссийской системы оценки качества образования очень важно включать в эту работу принцип контекстуализации. В стране, по словам Сергея Косарецкого, уже есть регионы, которые в пилотном режиме собирают и используют эти данные, например, для выявления школ, нуждающихся в грантовой поддержке.
Согласился с коллегой
и директор Российского тренингового цента Института
образования НИУ ВШЭ Игорь Вальдман, однако отметил, что пока действительно можно говорить только об осторожном, пробном подходе. Грамотная работа с контекстами станет возможна, по его словам, только тогда,
когда в стране будет создан национальный мониторинг образовательных достижений учащихся. НИУ ВШЭ уже занимается этим вопросом, чтобы в 2016-2017 годах предложить такой инструмент.
Тем не менее, Игорь Вальдман подчеркнул, что контекст тем и сложен, что необходимо отследить влияние одних и тех же условий не один раз, чтобы понять, насколько действительно функционирование школы зависит именно от них.
И сегодня, по его словам, есть уже два больших направления работы с контекстами: выделение факторов, на которые можно влиять, чтобы повысить результат, и также тех, на которые нельзя влиять, но необходимо знать о них и учитывать для справедливой оценки.
Продолжила мысль директор Центра прикладных экономических исследований и разработок НИУ ВШЭ Татьяна Абанкина, отметив, что в целом органы образования не могут влиять, пожалуй, на один из основополагающих контекстных факторов, которые сегодня существуют. Образование остается наследуемым благом, в образованных семьях дети учатся лучше. Марина Пинская также отметила, что хотя мы не можем повлиять на контекст семьи, но школа тоже вносит свой вклад в то, что происходит с ребенком, и изучение контекстов необходимо как раз для того, чтобы усилить этот вклад и в случае необходимости сделать его компенсаторным.
Впрочем, по мнению Игоря Вальдмана переоценивать роль школы порой не стоит. Например, а контексте баллов ЕГЭ. По сути, именно школе мы приписываем главенствующую роль в достижении тех или иных результатов, в то время как есть мощная система внутри и внешкольного репетиторства. С этим согласился и научный руководитель Центра мониторинга качества образования НИУ ВШЭ Виктор Болотов, отметив, что по сути, высокие баллы ЕГЭ – 90 и более – к школе не имеют никакого отношения.
Об осторожности в изучении контекстов заявил и руководитель Центра статистики и мониторинга образования Федерального института развития образования Марк Агранович. Он отметил, что необходимо быть предельно точными, когда мы говорим о
. Кто это обеспечивает? Школа своей работой с детьми или все определяется тем, что школа так отбирает детей, а соответственно и их семьи, что это оказываются те, кто готов делать крупные вложения в образование ребенка, нанимать репетиторов и т.д. Разобраться в этом можно именно с помощью контекстных данных.
Контекстная и результатная информация
Контекстная и результатная информация
Действенный вспомогательный механизм, бэкграунд для правильного восприятия «сигнальной» информации, контекстная информация[25] тем не менее не является обязательным сегментом первой «информационной папки». И пресс-секретарь, и тем более президент в целом владеют общим контекстом актуальной политики, и любая «сигнальная» информация для них четко укладывается в его рамки. Однако в некоторых случаях именно контекстная информация предопределяет характер реакции, указывая на причины появления того или иного заявления, а также обозначая тот политический фон, на котором это заявление было сделано.
Так, например, в качестве контекстной может служить подробная информация о напряженности внутриполитической ситуации в той стране, президент которой накануне выступил с резкими заявлениями в адрес вашего государства. При реагировании на эти заявления указание на сложную ситуацию внутри конкретной страны можно использовать в качестве одного из аргументов объяснения подобного поведения ее президента. Или в случае, если какой-либо политик начал перманентно выступать с позиции критики действующей власти, будет интересным обращение к контексту его политических взглядов в недалеком прошлом и др. Так или иначе, выделив из потока «сигнальную» информацию, пресс-секретарю в любом случае будет полезно просмотреть ее бэкграунд, тем более что это не составит большого труда – учитывая огромные возможности современного Интернета.
Что касается результатной информации, то, представляя собой так называемую реакцию на реакцию, она является важным и необходимым сегментом первой «папки». Это, с одной стороны, показатель результата совершенных публичных действий, как в зеркале общественного мнения и СМИ, так и в оценках политических деятелей и их адресатов, с другой – инструмент для продолжения действий: нередко результатная информация трансформируется в «сигнальную» и требует работы по новому кругу.
«Всемирный фонд дикой природы (WWF) России приветствует решение президента РФ Владимира Путина прислушаться к голосу общественности и поручить компании «Транснефть» отдалить маршрут Восточного нефтепровода от озера Байкал», – об этом говорится в заявлении этой организации. Напомним, что сегодня, 26 апреля, на совещании с сибирскими губернаторами в Томске президент поручил президенту ОАО «Транснефть» Семену Вайнштоку отдалить маршрут нефтепровода «Восточная Сибирь – Тихий океан» на север от сейсмоопасной зоны вокруг Байкала. «Предлагаемый компанией «Транснефть» вариант был равнозначен закладке техногенной мины с неизвестным временем срабатывания и катастрофическими экономическими и экологическими последствиями. При этом существуют альтернативные варианты прокладки трубопровода, – подчеркивается в заявлении WWF России. – В соответствии с поручением президента трубопровод должен быть проложен на более чем 40 км севернее нынешнего проекта, – а значит, вне сейсмоопасной водозаборной зоны озера Байкал. Таким образом, экологические и экономические риски от строительства трубопровода будут минимальны». «Сегодняшнее поручение президента Путина говорит о том, что государство готово слышать мнение граждан, если они способны самоорганизоваться. Мы считаем, что поскольку это победа здравого смысла, а не какой-то группы людей, побежденных нет. Все, включая ОАО «АК “Транснефть”», только выиграют от принятого решения, – отметил директор WWF России, член Общественной палаты РФ Игорь Честин».
США приветствуют заявление президента Пакистана Первеза Мушаррафа о проведении парламентских выборов в стране до 15 февраля. Об этом говорится в заявлении, опубликованном 8 ноября Белым домом. «Мы считаем, что это хорошее дело, что президент П. Мушарраф прояснил сроки проведения выборов для пакистанского народа», – отмечается в заявлении. Мушарраф 8 ноября в Исламабаде объявил, что парламентские выборы в Пакистане будут проведены до 15 февраля будущего года. Он одновременно сообщил, что «как только суд разрешит опубликовать итоги выборов, я приму присягу и уйду с поста главнокомандующего вооруженными силами страны». Президент США Джордж Буш 7 ноября сказал, что провел телефонный разговор с Мушаррафом, в ходе которого призвал к проведению парламентских выборов в Пакистане по намеченному плану и потребовал от Мушаррафа уйти с поста главкома армии.
Таким образом, после выделения из информационного потока дня соответствующих спотов и их простой компоновки (спот-1; спот-2 + бэкграунд; спот-результат), первая «информационная папка» будет готова к представлению главе государства. В идеале пресс-секретарю следует представить президенту еще и готовые проекты/варианты реакций, точно так же, как другие функционеры администрации представляют главе государства проекты решений; несомненно, это будет содействовать повышению оперативности реагирования. Далее же, уже после обсуждения содержащихся в «папке» материалов с президентом – в процессе селекторного доклада, во время ежедневной плановой или специально предназначенной для этого встречи – приходит время принимать конкретные решения по целесообразности, времени, форме, личности автора и предметному содержанию возможной реакции исходя из конкретной политической ситуации.
Данный текст является ознакомительным фрагментом.
Продолжение на ЛитРес
Читайте также
Контекстная реклама
Контекстная реклама Более простой, самый массовый и быстрый способ продвижения в Интернете – это контекстная реклама в таких системах, как Яндекс. Директ и Google.Adwords. Однако, как выясняется, далеко не для всех эта форма рекламы является простой. На днях я объяснял основные
2. 2. Необходимая информация
2. 2. Необходимая информация Чтобы начать изучение нашего примера производственно-сбытовой системы, необходимо располагать информацией трех видов: об организационной структуре системы, о запаздываниях решений и действий и о правилах, регулирующих закупки и товарные
1.1. Бизнес и информация
1.1. Бизнес и информация 1.1.1. Информационная сущность бизнеса Информация является неотъемлемой частью бизнеса. Бизнес-процессы не могут существовать без информации и вне информации, хотя бы потому, что бизнес существует в рамках определенной правовой среды, определяемой
Информация
Информация Информация является причиной так называемого «аналитического паралича». С одной стороны, этот «аналитический паралич» может быть вызван недостатком информации для принятия взвешенного решения, зачастую этим пользуются, чтобы оправдать всякого рода
Информация решает все
Информация решает все Мы ошибаемся только дважды: когда оцениваем себя и когда оцениваем других. Леонид Балцан При проведении интервью желательно не структурировать его жестко. Это обязывает Вас действовать строго по заданной схеме.Здесь существует такой подход:
5.2. Стратегическая информация
5.2. Стратегическая информация В предыдущей главе мы установили значение промедлений и задержек для способности фирмы своевременно реагировать на существенные перемены. В данной главе мы рассмотрим причины такой медлительности с точки зрения стратегической
Глава 1 Что такое контекстная реклама
Глава 1 Что такое контекстная реклама Ежедневно в Рунет выходят десятки миллионов человек, и каждый пользователь иногда, а скорее всего – регулярно ищет в Сети ответы на вопросы «где купить», «какой продукт лучше», «какой продавец лучше»? Люди с такими интересами – без
1.3. Как работает контекстная реклама
1.3. Как работает контекстная реклама Объявление поисковой рекламы представляет собой один из вариантов ответа на запрос в поисковую систему. Поэтому эффективность рекламы прямо зависит от соответствия рекламного предложения смыслу поискового запроса, истинной цели
Приложение 3 Контекстная реклама в мобильных средствах связи
Приложение 3 Контекстная реклама в мобильных средствах связи Мобильный телефон прочно вошел в нашу жизнь вслед за Интернетом. Трудно встретить человека, который не пользовался бы Всемирной сетью или сотовым телефоном. Сложно вообще понять, как двадцать лет назад мы
Финансовая информация
Финансовая информация Во времена, когда корпоративные слияния, поглощения и финансовые скандалы ежедневно становятся сенсациями, роль отношений с инвесторами в деятельности корпораций чрезвычайно важна. Эти отношения входят в общую сферу деятельности связей с
Информация
Информация В ежедневной работе РВО используется огромное количество баз данных: клиентов, всех возможных подрядчиков, привлекаемого персонала, площадок для мероприятий, оборудования и текстиля, ассортиментного перечня блюд и т. д.Конечно же, прежде всего всю эту
Контекстная реклама
Контекстная реклама Это объявления, которые пользователь видит в поисковой системе, обычно справа и сверху от поисковой выдачи. Они зависят от того, что пользователь ввел в поисковой строке. Когда человек ищет через Интернет определенную информацию, связанную с дизайном
Ссылки в постах, платные обзоры, контекстная реклама
Ссылки в постах, платные обзоры, контекстная реклама Еще один способ заработка на блоге – это ссылки в постах. Многие блогеры зарабатывают на том, что размещают ссылки в конце своих постов – ссылки на определенные товары.Регистрируйтесь на сайтах http://www.bLogun.ru или
Контекстная карта
Контекстная карта ЦЕЛЬ ИГРЫСложно целиком воспринять ситуацию, пока не поймешь ее контекст. Контекстная карта (Context Map) позволяет продемонстрировать внешние факторы, тенденции и силы, влияющие на рабочий процесс. Один раз систематически рассмотрев внешнее окружение, в
Содержание, метаданные и контекст открытых данных
Результат публикации данных в свободном и бесплатном доступе напрямую зависит от их состава и качества. Чем более полными и корректными окажутся публичные данные, тем выше будет эффективность их использования и тем больше пользователей предпочтет поработать с ними.
В отношении любых передаваемых данных, особенно публичных, необходимо всегда оценивать три их ключевых аспекта: состав (содержание), описание (метаданные) и окружение (контекст).
Настоящая публикация продолжает тему открытых, разделяемых и делегируемых данных и относится ко всем этим трем указанным категориям.
Организация данных
Первый важный аспект публичных данных связан с их содержимым и с их внутренней организацией.
Смысл
Всякие хорошие данные обладают некоторым полезным смыслом. Бессмысленная информацию в любом виде непригодна для последующей обработки и анализа в любом виде деятельности с помощью любых инструментов.
Цифровые данные, о которых идет речь в данной публикации, являясь первичными или даже вторичными, в той или иной мере отображают результат определенного сбора информации. Осуществляемый сбор информации позволяет записывать некоторые качественные и количественные значения свойств объектов, процессов, явлений, событий и т.п. Структурно-организованные регистрируемые сведения сохраняются как цифровые данные на соответствующих носителях. Очевидно, что таким образом полученные данные прямо (первичные) или косвенно (вторичные) определяют некий предметный смысл.
Учитывая тот факт, что на данные прямое и неотделимое влияние оказывает человеческий фактор, всегда можно говорить о том, что они описывают не объективную реальность, а некоторое понимание человеком той объективной реальности, о которой он целевым образом собирает сведения. Иными словами, данные всегда содержат некую долю субъективности в своем содержимом или в структуре и описывают воспринимаемую модель из заданной предметной области.
Именно тот факт, что данные в той или иной степени описывают некоторый смысл целевой модели, возможен последующий их анализ и выявление важных атрибутов такой модели.
Смысл, который содержат данные определяет необходимость и важность их публикации. Например, особый социальный и экономический смысл имеют государственные статистические данные – отсюда, очевидная задача их издания как в виде цифровых датасетов, так и в виде специальных переработанных сборников. Если данные не несут какой-то важный смысл для пользователей или вообще представляют собой бессмысленную регистрацию потока явлений и событий, то они не будут востребованы. Это утверждение наводит на определенную мысль о том, что публиковать стоит цифровые наборы с хорошо формализованным смыслом.
На то, какой смысл имеют данные влияет их уровень передела.
Наиболее ценными с этой точки зрения и обладающие неискаженным смыслом являются собранные первичные данные. Чем больше обработок было произведено с данными, тем больше смысл искажается и видоизменяется. Отсюда необходимость явно указывать количество и качество переделов данных.
Смысл содержащийся в данных накладывает свой отпечаток на их структуру.
Структура
В данных всегда можно выделить некие неделимые минимальные целостные единицы.
Причем такие неделимые целостные единицы всегда обладают смыслом большим, чем прямым. Например, символ (в простейшем виде) не несет никакое дополнительное значение, кроме того, что он представляет собой некую букву алфавита, цифру или специальное обозначение в тексте. С другой стороны, слово, кроме того, что представляет некий набор тех же символов, имеет смысловое понятийное значение и определяет некий объект (существительное), атрибут (прилагательное), действие (глагол) и т.д. Поэтому деление слова на символы – деление минимальной целостной единицы – приводит к потере его понятийного значения.
Выбор минимальной целостной и неделимой единицы является субъективным понятием в рамках заданной тематики и целей пользователя.
Например, для каких-то целей, может быть установлено, что неделимой единицей признается не отдельное слово, а целое предложение. В то же время даже некоторые форматы могут задавать особенности построения минимальных единиц данных. Например, в рамках электронных таблиц достаточно просто и удобно принимать за минимальную единицу данных содержимое отдельной ячейки. Однако во многом, выбор целостной единицы данных обусловлен совокупностью критериев предметной области данных и способом их записи.
После того, как задано понятие минимальной неделимой единицы данных, возникает и понятие структуры всей совокупности целевых данных. Так для электронной таблицы, единицы данных формируют наборы данных в виде строк или столбцов, а в последующем группируются в таблицы (листы) и наборы таблиц (книги).
Удобно выделять два уровня группировки целостных единиц данных:
Структуру данных необходимо иметь для возможности производить какую-либо осмысленную их обработку.
Операции с данными производятся непосредственно с неделимыми целостными единицами или с их группами. Причем даже есть возможность обрабатывать неделимые целостные единицы тем или иным образом создавая из них новые. Например, это позволяет делать функционал электронных таблицы: обрабатывать содержимое отдельной ячейки и разделять её на некие составные элементы, но при этом основной акцент в подобном приложении всё-таки сделан на обработке ячеек как на простейших обрабатываемых элементарных единицах.
Второй ключевой особенностью выделения в цифровых данных отдельных целостных единиц и последующей их группировки – это возможность идентификации.
Назначение уникального абсолютного или относительного имени как для неделимой части данных, так и для упорядоченного набора данных значительно расширяет функционал обработки. Адресация, реферирование, рекурсия, классификация и множество дополнительных простых или сложнейших операций применимы к именованным или идентифицированным элементам данных с последующим возвратам к первоисточнику (история ссылок).
Ещё одна полезная и важная особенность структуры данных, как производная от идентификации заключается в связывании отдельных элементов данных по тем или иным критериям или задачам. Связывание фактически приводит к появлению такого функционала как вторичное структурирование, нелинейное упорядочивание, гиперссылки, альтернативные пути обхода и т.п. Если сопроводить связь некоторыми дополнительными атрибутами, то можно выделить даже особый класс объектов-описателей и выстроить сложные зависимые структуры доселе невообразимых форм и сочетаний. Именно за счет связывания появляется некая динамика в данных.
Структурирование данных привносит значительный вклад в возможности их не только цифровой обработки, но и смысловой аналитики.
Моделирование правильных и эффективных структур цифровых данных достаточно сложная и ответственная компетенция которая может давать хороший результат только при совмещении знаний информационных технологий и предметной области. Удачно заданная структура позволяет удобно и результативно работать с данными как человеку, так и машине. Иными словами, правильный выбор структуры позволяет быстро распознавать упорядоченные данные непосредственно человеком или созданными алгоритмами.
Структура данных, как уже упоминалось, может зависеть от формата записи и хранения данных, но это ещё не сам формат. А значит она может трансформироваться. И значит в рамках одного и того же формата могут задаваться разные структуры. В подавляющих случаях на практике, для значительного упрощения и для большей эффективности, структура тесно взаимосвязана с форматом.
Формат
В контексте данной публикации «формат» – это способ сохранения данных в физической обособленной единице (файл, запись, таблица, поток) на заданном носителе.
Формат определяет возможности прочитать и принять данные в обработку как человеком, так и алгоритмом. Если структура задает содержательную организацию данных, то формат представляет собой техническую сторону их записи и хранения.
С учетом того, что цифровые данные неотъемлемы от машинных носителей, формат реализуется на трех машино-зависимых слоях, выбором соответствующего способа форматирования на каждом из слоев:
Кодировка символов – это достаточно понятная и урегулирования часть, которая в целом пришла к относительной теоретической и практической стабильности. Тем не менее даже в этом вопросе практика применения оставляет желать лучшего. Что уж говорить о нотации и схеме данных, особенно в применении к публичным данным. Множество факторов и противоречивых интересов, замешанных на свободных стандартах и платных мощных инструментах.
Ключевой фактор выбора нотации данных, как одного из уровней форматирования, состоит непосредственно в структуре данных.
Например, если структурирование данных сведено к таблице, то очевидно, что удобно будет её отформатировать, скорее, как CSV, чем как HTML. С другой стороны, задача может быть поставлена так, что выбор будет сделан в пользу XML. Кажется, совсем уж экзотическим, но вполне возможно нотировать таблицу данных и как последовательность команд INSERT (SQL) для каждой из строк.
Для публичных данных наиболее предпочтительным являются простые, свободные и распространенные форматы. Приоритетной, например, для открытых государственных данных выглядит связка: [Unicode + CSV|XML + custom_scheme]. Причем custom-схема данных часто описывается в «паспорте открытых данных».
Конечно же можно и нужно развивать форматы передаваемых и публикуемых данных. Но в большей степени новинки из этой области будут восприняты на частном уровне или при защищенном трансфере данных. Для публичных данных пока останутся более понятными и актуальными те форматы, которые получили массовое распространение и для работы, с которыми существует множество как платных, так и бесплатных инструментов, которыми привыкли пользоваться аналитики.
Вопрос повторного использования данных может быть неверно отнесен к особенностям их форматирования, но это скорее вопрос правильного их структурирования. Именно на уровне структуры цифровых данных появляется возможность связывания и организации ссылок. Формат лишь только определяет фактические правила записи и разрешения ссылок. В том числе формат может задавать или поддерживать «межформатные» правила ссылок, чтобы у пользователя появилась возможность сослаться в одном наборе или элементе данных на другой.
Описание данных
Второй аспект публичных данных – это их эффективное описание, которое в конечном итоге превращается в метаданные. Если для внутренних или защищаемых при передаче данных этот аспект может быть на какое-то время упущен из виду, то для данных, которые размещаются в сети открыто и бесплатно – это очень важно для их последующего эффективного использования.
Для целостной передачи публичных данных, самый лучший способ – это сохранять метаданные «внутри» самих данных. То есть таким образом записывать оригинальные цифровые данные, чтобы они параллельно сопровождались некоторыми атрибутами, а структура записи позволяла алгоритмам извлекать заложенные в неё метаданные.
Что достаточно хорошо можно делать, например, в рамках XML-нотации: где разметка уже определяет тип элемента (узел, атрибут, документ), а применение атрибутов и имен пространств открывает возможности для внедрения метаданных. Однако чтение данных совмещенных с их описанием, как минимум, требует овладения более сложными компетенциями и инструментами. Гораздо понятней и очевидней для большинства пользователей получать чистые данные с наименованием и заголовками. Но это в свою очередь вызывает свои проблемы в чтении и понимании данных. До выработки единых и понятных стандартов в этом направлении пока далеко.
Метаданные должны включать:
Как минимум, пользователю надо обозначить состав и назначение данных, а также дать указание на машинный формат их записи и хранения. Кроме того, хорошо, если метаданные включают оценку качества данных.
Для понимания того, что следует включать в метаданные, можно рассмотреть операции, в которых они фактически применяется или требуются к применению. Вот наиболее важные семь из них с точки зрения двух непосредственно взаимодействующих ролей в рамках public-схемы трансфера данных:
1. Идентификация данных
Качество публичных данных начинается с качества их метаданных.
Окружение данных
Особую роль в отдельных ситуациях начинает играть третий аспект публичных данных – окружение.
Это наиболее сложный из трех рассматриваемых (другие два – содержание и метаданные) – но он наиболее ценный для стратегического и тематического развития аналитики и поиска знаний, особенно с подключением смежной проблематики.
В пространстве публичных данных – контекстом для заданного набора будут являются все иные данные с которыми их смогут корректно связать аналитики по тем или иным основаниям.
Правильно указать контекст можно только если для основных данных правильно задана предметная область и их назначение.
Контекстные связываются с основными данные несколькими способами:
Постоянное разукрупнение анализируемого массива данных путем поиска и подключения к нему дополнительного окружения не может считаться нормой, если является самоцелью. Поэтому рациональным подходом можно назвать обстоятельную работу по тщательному планированию исследования данных в рамках которого обозначают и придерживаются ограниченного набора. Вопрос «а какие данные ещё нужны?» должен задаваться на ключевых этапах анализа в случаях, когда действительно требуется расширить смысловой фронт исследований.
Контекст редко принимается во внимание при публикации данных или при их использовании, либо воспринимается как некое само собой разумеющееся действие по увеличение массива данных. Однако именно неограниченная возможность расширения основы контекстом и многочисленные варианты комбинирования данных позволяют получить преимущество публичного использования данных перед закрытым. В этой связи приоритетным является развитие хранилищ общедоступных и общезначимых цифровых данных, которые составляют контекст для любых данных в заданной предметной области. Например, при работе с экономическими данными может оказаться крайне полезным иметь в свободном доступе общеприменимые справочники, классификаторы, каталоги (например ОКВЭД, КЛАДР, БИК, ЕГРЮЛ и т.п.)
В этих же целях крайне полезны создаваемые и развиваемые тематические «порталы» и «хабы» открытых данных.




