МЕТОДОЛОГИЯ И МЕТОДИКА СОЦИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ НАУЧНЫЕ СООБЩЕНИЯ А. П. Гаврилов О ПОМЕХОУСТОЙЧИВОМ КОДИРОВАНИИ ОТВЕТОВ В СОЦИОЛОГИЧЕСКИХ АНКЕТАХ Одним из важнейших вопросов любой науки является вопрос о надежности, достоверности и точности получаемого знания. Не углубляясь в детали этой проблемы, отметим, что точность выводов исследования никогда не может превышать точности исходных данных: в процессе обработки информации величина ошибки измерения, в лучшем случае, может оставаться неизменной, но преимущественно — возрастает. В настоящее время социологические исследования проводятся с применением персональных компьютеров, используемых на всех этапах работы. Анализ информации требует обязательного переноса данных с анкет, бланков формализованного интервью и других аналогичных документов в компьютер. По содержанию инструментарий социологического исследования может быть составлен прекрасно, опрос проведен по всем требованиям методологических руководств, но полученные результаты могут быть существенно искажены только потому, что в процессе ввода данных допущены многочисленные ошибки, а специальные меры по их предупреждению и коррекции предусмотрены не были. Естественно, какими бы хорошими методами математической статистики ни обрабатывали эту искаженную информацию, результаты точнее не станут. Принято выделять четыре этапа, на которых возможно появление ошибок во вводимой в компьютер информации: 1) ошибки заполнения анкеты; 2) ошибки кодирования; 3) ошибки набивки (ввода); 4) ошибки машинного считывания (распознавания). Первые два этапа к компьютеру отношения не имеют и носят общий характер; четвертый этап характерен для специальных устройств ввода и нами не рассматривается, что же касается третьего этапа, то его важность несомненна. К сожалению, иногда социологи не уделяют должного внимания этому этапу, не проводят контроля качества введенной информации, анализируют полученные таблицы, пребывая в полной уверенности в истинности указанных там величин, тогда как на самом деле исходный массив информации содержал значительное число ошибок и соответственно таблицы распределении отражают реальность с большими искажениями. В литературе количество ошибок, вносимых в исходную информацию на этапе ввода данных в компьютер, оценивается величиной до 2%. Но это в среднем. В ряде же случаев доля ошибок существенно возрастает, особенно когда к набивке информации привлекают непрофессионалов, например — студентов. Кроме того, распределение ошибок внутри анкетного массива не носит равномерного характера, в одних вопросах или блоках вопросов ошибки ввода встречаются заметно чаще, чем в других. Ошибки набивки (ввода) связаны с недостаточной надежностью самого человека-оператора, его принципиальной неспособностью действовать абсолютно точно. Даже у профессионалов экстра класса на 1000 введенных знаков приходится два-три ошибочных. Известен (и всегда применяется в денежных расчетах) прием двойной набивки или проверки на контроллере вводимой информации с коррекцией выявленных расхождений, но в социологических исследованиях этот прием используется достаточно редко, поскольку более чем удваивается и без того большой срок подготовки данных к обработке и увеличиваются затраты на исследование. Тем не менее, существует несложный методический прием, позволяющий без особых усилий резко уменьшить ошибки этапа ввода данных и тем самым повысить качество, надежность и точность получаемых результатов. Суть его заключается в использовании специального помехоустойчивого кодирования ответов респондентов. Как известно, в социологии используют два основных типа кодов — порядковый (регистрационный, номинальный) и позиционный. При порядковом кодировании каждой альтернативе (варианту ответа) присваивается индивидуальный, неповторимый номер и набиваются только номера выбранных респондентом ответов. При позиционном кодировании в массиве данных жестко фиксируется позиция каждого вопроса анкеты. Варианты ответов на вопрос кодируются одними и теми же символами. В этом случае в компьютер вводится строка цифр, место каждой цифры в строке, ее позиция, точно соответствует номеру вопроса. Каждый тип кодирования обладает своими достоинствами и недостатками, но, по нашему мнению, порядковый код более сложен в использовании, более трудоемок. В настоящее время он встречается значительно реже позиционного. Предлагаемое помехоустойчивое кодирование применимо во всех случаях, но наиболее эффективна его позиционная разновидность, поскольку помехоустойчивость кода связана с наиболее часто встречающимися ошибками набивки: ошибками моторики и ошибками сдвига. Ошибки моторики возникают в случае нажатия оператором не той клавиши, которую он хотел и должен был нажать. Обычно это соседние клавиши — вместо цифры 2 набивается 1 или 3, а на стандартной цифровой клавиатуре еще может быть нажата клавиша выше или ниже требуемой, в нашем примере это цифра 5. Сюда же относится изменение порядка нажатия клавиш: вместо 47 набивается 74. Ошибки сдвига заключаются в том, что оператор пропускает строку в первичном документе, либо набивает дважды одну и ту же строку. Чаще всего такие ошибки встречаются при набивке табличных вопросов и наиболее вредны при позиционном кодировании, поскольку, кроме утраты пропущенной информации, искажаются все данные до конца анкеты или до ближайшей контрольной точки, вместо одной ошибки возникает целая их серия. При порядковом кодировании, кроме утраты информации, другого ущерба нет. Поскольку ошибок моторики и ошибок сдвига у оператора избежать нельзя, следует принять меры к тому, чтобы как можно большее их число выявлялось автоматически, программными средствами. Для выявления ошибок моторики соседние альтернативы ответов на вопрос должны кодироваться не соседними символами, причем в одном вопросе может быть использована для кодирования только половина возможного их набора. Например, часто используют шкальные вопросы такого типа: Очень хорошо ............5 Хорошо........................4 Средне .........................3 Плохо ...........................2 Очень плохо ................1 Ошибка моторики здесь может быть выявлена только при прямом сопоставлении введенной в ЭВМ информации с анкетой. Но если альтернативы закодировать так: Очень хорошо....................0 Хорошо...............................2 Средне ................................4 Плохо..................................6 Очень плохо.......................8 (порядок цифр, разумеется, роли не играет), то любая ошибка моторики выявится уже в простом одномерном распределении, ведь появление нечетных цифр сразу свидетельствует о ней. Если количество альтернатив больше пяти, то в качестве кодов приходится использовать и буквы. Это, конечно, усложняет набивку, но ничего не дается даром. Многолетняя практика исследований показывает, что подавляющее большинство вопросов укладывается в интервал до пяти вариантов ответов. Для выявления ошибок сдвига надо кодировать разными символами ответы на соседние вопросы. Если обычная кодировка выглядит так: Вопросы Альтернативы №1 12345 №2 1 2 3 4 5. №3 12345 т.е. ошибку сдвига выявить трудно, то помехоустойчивая кодировка имеет вид: Вопросы Альтернативы №1 02468 №2 13579 №3 0 2 4 6 8 и т.д. Теперь при случайном сдвиге будет набит код, в данной позиции недопустимый, а потому сразу и легко обнаруживаемый. Если это предусмотрено программой ввода данных (как, например, в системе ОСА), то возможен немедлен- ный контроль вводимой информации на соответствие паспорту (макету, шаблону, описанию) анкеты. Недопустимый символ в этом случае компьютером не принимается, выдается звуковой сигнал и на экран выводится сообщение о допущенной ошибке и необходимости дополнительной проверки вводимых данных. Конечно, все ошибки перфорации с помощью такой кодировки не выявляются, ведь оператор может ошибиться больше чем на одну клавишу и сместить взгляд через строку, но вероятность такого события много меньше обычной ошибки. Применение помехоустойчивого кодирования в ряде случаев может потребовать последующей перекодировки информации, замены входных помехоустойчивых кодов на единообразные шкальные значения или ранги, но преобразование информации в компьютере ограничений не имеет, никаких дополнительных особых трудностей это не порождает. Единственная сложность при использовании помехоустойчивого кодирования заключается в том, что помехоустойчивые вводные коды должны быть подготовлены заранее и напечатаны уже в тексте самой анкеты, так как ручная перекодировка обычных кодов в помехоустойчивые перед набивкой породит больше ошибок, чем сама набивка. Многолетний опыт применения помехоустойчивого кодирования показал его высокую эффективность. По нашим оценкам, количество ошибок ввода (набивки) снижается на два-три порядка, а величина погрешности измерения, вносимой такими ошибками, становится пренебрежимо малой по сравнению с требуемой точностью расчетов. Применение подобной технологии имеет смысл даже при использовании непосредственного ввода данных интервьюером в ноутбук в процессе опроса face-to-face или телефонного интервью, поскольку ошибок моторики у оператора избежать невозможно в принципе. Статья переработана и исправлена. Июнь, 2006 г. Опубликована в журнале «Философская и социологическая мысль». Киев, 1990, № 6. стр. 110-112