Испытания путем прослушивания: превращение мнения в ФАКТ

dmitre · 01.Январь.2019 23:52:15

7. Методика эксперимента и параметры прослушивания

Важной особенностью научно контролируемых испытательных прослушиваний является отсутствие предвзятости. Слушатели, конечно, должны быть тщательно проинструктированы относительно цели и процедуры испытания, а при необходимости и пройти тренировку для улучшения способностей к различению соответствующих параметров. Соответствие инструкций методике испытаний исключительно важно. Помимо этого на слушателей не должно оказывать влияние ничто, кроме звуков, которые они слышат при воспроизведении произвольно выбранной программы.

При так называемом одиночном слепом испытании только экспериментатор знает, что происходит в последовательные моменты времени. При двойном слепом испытании процессом эксперимента руководит третье лицо или специальное устройство, а результаты расшифровываются после окончания эксперимента. В литературе по экспериментальной психологии можно найти различные варианты таких испытаний, многие из которых могут быть использованы при оценке звучания, некоторые из них проводить гораздо легче, чем другие, и, в зависимости от ряда факторов, все они могут оказывать влияние на результаты испытаний.

Самые распространенные методы испытаний - это методы одиночных оценок, когда участники прослушивают и дают оценку каждому звуку прежде, чем перейти к следующему, а также методы
парного сравнения, когда слушатели перед тем, как дать оценку, , прослушивают последовательно два звуковых отрезка.

Оба метода существуют в нескольких вариантах, каждый из которых имеет свои достоинства и недостатки, в зависимости от цели прослушивания. Не последним соображением здесь является влияние экспериментального метода на шкалу субъективных оценок, т.е., на психологическую оценку величин воспринимаемых параметров.

Наиболее сложный вид эксперимента, а именно, оценка верности, точности или качества звука /как бы это ни называли/, является также и самым распространенным. Оценка качества звука представляет собой многомерную задачу. Достаточно лишь потратить некоторое время на чтение рецензий, посвященных звуковой аппаратуре, чтобы получить представление о лексическом диапазоне, используемом для описания явлений, связанных со слуховым восприятием. Используемая лексика изобилует такими понятиями, как оттенок, фактура, букет, настроение — язык поэзии и технических терминов, говорящий о количественных аспектах слухового восприятия. Первый оттенок языка обуславливается тем, что испытываемым сигналом является музыка, а второй тем, что объектом исследования является техническое устройство. Очевидно, что среди таких описательных понятий много синонимов, и, как можно предположить, между ними и аспектами технического качества работы существует много зависимостей, которые поддаются или возможно поддаются измерению.

Обстоятельства усложняются тем, что-те же физические механизмы могут в разное время вызывать очень разные реакции слушателей. Так, простой подъем на высоких частотах может вызвать реакции, указывающие на лучшее восприятие переходов и деталей, и в то же время вызвать осуждение за резкость звучания струнных инструментов. В случае специального испытания этого одного параметра можно было бы, вероятно, предсказать и объяснить оба этих замечания. В случае «открытого» испытания, например, обычной оценки качества звука, такие реакции подразумевают присутствие двух механизмов, один из которых представляет собой достоинство, а другой - проблему. Именно таким образом рецензенты часто оказываются в запутанной сети противоречий.

Если мы хотим извлечь реальную пользу из испытательных прослушиваний, необходимо добиваться упорядочения реакций слушателя и, где возможно, - ясной формулировки количества или величины.

Конечно, в таком подходе есть и преимущества и недостатки. При указании типов требуемых отзывов, существует риск, что важные качества будут не замечены. По нашему опыту, категория типа “разное” или “замечания”, похоже, используется по крайней мере не менее охотно, чем регламентированные отзывы, что указывает на то, что свободная мысль не подавлена. С другой стороны, определение основной лексики обеспечивает оценку каждого изделия или переменного параметра по меньшей мере с предписанных точек зрения. Иначе возникает риск, что слушатели сконцентрируются на одном или двух определениях или слышимых параметрах за счет исключения других. Сравнение типа “А-Б” имеют тенденцию поощрять такое поведение, привлекая внимание к наиболее хорошо слышимому различию, существующему между сравниваемыми звучаниями и отвлекая внк мание от общих недостатков, присущих изделиям. В этой связи, воз можно, заслуживает внимания использование сравнений типа “А-Б-В” или “А-Б-В-Г”, поскольку в этих случаях есть вероятность, что будет проведено более сбалансированное сравнение параметров.

Иначе говоря, если требуется общая оценка качества звука, то может оказаться неразумным предположение, что все слушатели будут самопроизвольно воспринимать все аспекты исследуемого звучания и оценивать все слышимые параметры. Контрольный перечень может оказать полезную помощь при эксперименте, но, даже при наличии такого мнемонического средства, на результатах оценки могут все-таки сказаться некоторые предубеждения обусловленные конкретными сравниваемыми изделиями.

Разные специалисты сравнивали статистически десятки определений, используемых при оценке качества звука, и пришли к заключению, что только восемь параметров восприятия могут претендовать на достаточную статистическую независимость:

Ясность /отчетливость/
Резкость /жесткость/ — в противовположность мягкости
Полнота - в противоположность тонкости
Яркость - в противоположность темноте
Ощущение пространства
Близость
Мешающие звуки
Громкость

Пользуясь этими терминами, Габриэльссон /Л32/ замечает, что звуки, в общем кажущиеся приятными и естественными, «должны быть ясными /отчетливыми/, мягкими, или по меньшей мере не слишком резкими /жесткими/, полными, давать ощущение пространства /а не закрытости звука/ и быть свободными от мешающих звуков».

Для опытных слушателей это знакомые параметры, хотя некоторые могут выбрать другие слова для описания отдельных особенностей. Возможно, что перечень используемых категорий мог бы подвергнуться изменению в результате экспериментов, при которых исследуемое звучание отличалось бы от того, которое имело место в первоначальных экспериментах. Возможно, что ни один из громкоговорителей при испытании не продемонстрировал характеристики, важной в других отношениях. Возможно, что другие слушатели, обладающие повышенной чувствительностью к некоторым звуковым деталям благодаря тренировке или наличию специального опыта, могли бы изменить картину соотношений по сравнению с той, которая наблюдалась ранее. Все это требует еще подтверждения.

Установление связи между этими, а также другими, более специализированными, слышимыми параметрами и результатами измерения характеристик является другим вопросом, разрешение которого связано с трудностями из-за различия в «языке» двух сфер. В этой связи интересно отметить, что, как показывает наш более чем десятилетний опыт проведения контролируемых испытательных прослушиваний, слушатели, имеющие склонность к технике и знакомые с измерениями, выражают многие из своих мнений, используя технические термины. Они чертят кривые частотных характеристик, показывая предполагаемые резонансы и искажения, и т.д. Иногда такие реакции, сформулированные в технических терминах, согласовываются между собой и находятся в близком соответствии с физическими данными. В других случаях имеется, по-видимому, мало соответствия. Технические факторы, влияющие на восприятие частотной характеристики, например, могут не совпадать с теми, которые лежат в основе соответствующих объективных измерений.

Другая трудность, характерная для всех видов субъективных оценок, возникает при попытке выразить отзыв (мнение) с помощы некоторой величины или числового показателя качества. Насколько сильно отдаваемое предпочтение? Как велика разница? В рецензиях на изделия это регулярно приводит к искажениям при описании особенностей качества звучания. Некоторые рецензенты горячо обсуждают различия, находящиеся на грани слышимого, возможно, чтобы противостоять точке зрения других рецензентов, заключивших, что эти различия не слышны и несущественны. Психологические факторы обладают способностью сильного воздействия даже за пределами помещения, в котором происходит прослушивание.

Количественная оценка суждений является прочно установившейся практикой в психометрии, которая использует шкалы субъективных оценок чувственно воспринимаемых параметров, таких, например, как громкость или высота тона. Применяя такую практику для оценки качества звука, различные лаборатории, включая нашу, предлагали слушателям давать свои оценки по цифровой шкале. В дополнение к субъективным комментариям, касайщимся различных аспектов качества звука, слушатели в заключение давали обобщенный показатель верности воспроизведения, который должен был отразить, в какой степени воспроизводимый звук был близок к идеалу. Для некоторых видов музыки и голоса идеалом является воссоздаваемое в памяти «живое» звучание, для других видов воспроизводимого материала идеалом является звучание, которого, по представлениям слушателей, имелось в виду достичь.

Проект публикации МЭК рекомендует использовать шкалу, имёющую следующий вид:

10 —
9 — отлично
8 —
7 — хорошо
6 —
5 — удовлетворительно
4 —
3 — плохо
2 —
1 — очень плохо
0 —

Цифра “10” означает воспроизведение, точно соответствующее идеалу. Никакие улучшения невозможны.

Цифра “0” означает воспроизведение, не имеющее ничего общего с идеалом. Более плохое воспроизведение невозможно себе представить.

Предполагается, что оценки “0” и “10” никогда не используются, являясь опорными точками шкалы субъективных оценок. В промежутке между ними оценки обычно даются с использованием не более одного десятичного знака.

Использование таких шкал не вызывает трудностей у слушателей, но не все слушатели придерживаются одного мнения относительно диапазона цифр, который следует сипользовать для одной и той же группы изделий. При оценке группы высококачественных громкоговорителей некоторые из слушателей нередко дают оценки “4” или “5”, демонстрируя свое недовольство качеством некоторых изделий. По смыслу шкалы такие оценки были бы более подходящими скорее для небольших портативных радиоприемников. Очевидно, что в этом случае либо не был должным образом объяснен смысл шкалы, либо масштаб субъективных суждений по данной шкале носит нелинейный характер. Например, возможно, что некоторые слушатели считают более целесообразным сгруппировать оценки высококачественных изделий в пределах от 4 до 9 и “ужать” оценки для всех других устройств, таких, как автомобильные и портативные приемники и телефоны, в область более низких значений. Другие слушатели относятся к менее совершенным изделиям более снисходительно и используют меньший диапазон более высоких значений для основной массы высококачественных изделий.

Такие отклонения в масштабе мало сказываются на ранжировании общих результатов или даже на их распространении по шкале, если диапазон испытываемых сигналов и число слушателей, охваченных экспериментом, достаточно велики. Однако при небольших масштабах эксперимента такого рода крайние случаи поведения могут стать проблемой.

Еще более углубляя процесс оценки, Габриэльссон и др. /ЛЗЗ/ требовали от слушателей давать количественную характеристику десяти отзывам: восьми воспринимаемым параметрам, рассмотренным выше, и двум обобщенным оценкам верности воспроизведения и приятности звучания - не считая нерегламентированных комментариев. Еще одной интересной переменной был тип слушателя: среди них были люди, не ориентирующиеся не высококачественное звучание, поклонники такого звучания и музыканты, также не ориентирующиеся на высококачественное звучание.

Полученные результаты носят сложный характер и приводят к некоторым интересным наблюдениям, касающимся, в особенности, взаимовлияния различных оценок. Что касается слушателей, оказалось, что группа поклонников высококачественного звучания показала наибольшую надежность в своих реакциях и в то же время наибольшую склонность к наблюдению различий между элементами аппаратуры. Группа не ориентирующихся на высокое качество показала наиболее слабые результаты.

Эти данные подтверждаются нашими собственными несколько более простыми экспериментами /Л28/. Важное различие в методиках заключается в том, что в наших экспериментах неопытным слушателям была предоставлена возможность провести несколько тренировочных туров и все слушатели были обеспечены словарными списками определений, пригодных для описания особенностей звучания. Это привело к тому, что некоторые из неискушенных слушателей очень быстро освоились и показали при решении менее трудных задач по выявлению различий результаты одного уровня с опытными слушателями.

Из этих экспериментов вытекает ряд наблюдений. Едва ли можно считать удивительным, что опыт близкого знакомства с “живыми” музыкальными звуками сам по себе не является достаточной предпосылкой для проведения оценок качества звучания. Этот вид прослушивания требует специальных навыков, которые могут быть улучшены путем тренировок и приобретения опыта и к овладению которыми, как и другими навыками, люди могут проявлять разные способности. Наконец, поскольку даже некоторые из неопытных слушателей сумели достичь хороших результатов без тренировок на звуках “живой” музыки, нам приходится сделать вывод, что либо этих людей привлекли аспекты воспроизводимых звуков, знакомые им по каждодневному опыту, куда относится, например, голос, либо с их стороны была проявлена отрицательная реакция на особенности звучания, не имеющие параллели в мире естественных звуков, например, искажения и окрашивание. Последнее предположение имеет общее значение, поскольку ни один из слушателей не может быть знаком с “живым” звучанием всей музыки, которая используется и которую целесообразно использовать в испытательных прослушиваниях. Возможно, что оценка “лучше” на самом деле означает “не так плохо”.