Beweis, daß Voodoo Stumpfsinn ist

Autor

Beitrag

K._K._Lacke
Inventar

#355 erstellt: 02. Nov 2013, 10:45

Ohje, mir qualmt der Kopf

tomtiger (Beitrag #354) schrieb:

Auf Grund der vorliegenden Daten kann man nichts sicher sagen.

LG Tom

Richtig!

NX4U
Hat sich gelöscht

#356 erstellt: 02. Nov 2013, 11:23

Paar Einwürfe von Jakob, das Thema (Sturmscher Test) rollt, von ihm aber nix mehr zu sehen.
Naja, egal. Hoffe das die Statistik-Lehrstunde vorbei ist.
Den hier geht es ja schließlich um
Spannung
Spaß
Voodoo.
Als Beweis für oder wieder Kabelklang würde ich den Sturmschen Test jedenfalls nicht mehr hervorholen, bzw. dies von Jakob erwarten. Aber vielleicht, wenn etwas Zeit vergangen ist, hören wir wieder davon und das hier im HF nicht richtig darüber diskutiert wurde.

Grüße

[Beitrag von NX4U am 02. Nov 2013, 11:23 bearbeitet]

-scope-
Hat sich gelöscht

#357 erstellt: 02. Nov 2013, 12:34

Und es macht einen Unterschied, ob ein Hai-Ender oder ein HiFi-Laie die Antwort ankreuzt. Schließlich noch die bewußte oder unbewußte Beeinflussung der Teilnehmer untereinander (ein leises gezischtes "aaah" mag da schon genügen), da mehrere Personen gleichzeitig den Test durchführten.

Das ist nur einer der Gründe, warum ich "Gruppentests" in dieser Form und in diesem Spezialgebiet als ungeeignet bezeichne.
Die Statistik der Einzelperson bleibt unbekannt und klare Präferenzen löschen sich innerhalb der Gruppen ggf. aus.

Bei solchen Versuchen, in denen man Differenzen heraushören soll, die im Vergleich zu anderen Hörversuchen ( z.B. MP3 vs. Unkompremiert, oder ungünstiger Röhrenverstärker gegen Top-Transistormodelll) so aberwitzig gering bis garnicht vorhanden sind, MUSS man den einzelnen Probanden
und die Stabilität seiner Präferenz, oder seiner Wahl immer protokollieren.
Ich halte das in solchen Fällen für unabdingbar.

hifi_angel
Inventar

#358 erstellt: 02. Nov 2013, 14:49

Drexl (Beitrag #353) schrieb:

Noch etwas: Wieso sollen die Teilnehmer anfangen zu raten, wenn beide Kabel gleich sind? Ist dann nicht davon auszugehen, daß P(A) signifikant höher sein sollte als P(B)? Oder konnten es sich die Versuchsteilnehmer nicht eingestehen, nichts zu hören? Dann aber wird A erst recht nicht angekreuzt, also P(A) << P(B) - was ja auch das Ergebnis durch alle Testreihen war.

Mal ein extremeres Beispiel: Einer Testgruppe werden zwei Musikstücke zugespielt: eines in CD-Qualität, eines heruntergesampelt auf 22,05 kHz. Der Unterschied sollte von einer signifikanten Anzahl von Personen in der Testgruppe gehört werden.

Nun die Negativkontrolle: Es wird zweimal die CD-Qualität gespielt. Wieso sollen die Teilnehmer nun plötzlich anfangen zu raten, sobald sie keinen Unterschied hören? Ich erwarte, daß in diesem Fall deutlich mehr als 50% ankreuzen, "klingt gleich".

Anderes Beispiel: Selbst wenn geraten wird, müssen die Auswahlmöglichkeiten nicht gleich wahrscheinlich sein.

Zwei völlig unbekannte Mannschaften haben ein Fußballspiel gespielt. Wie ist das Spiel ausgegangen:
0:0 - 1:0 - 0:1
Als Ergebnis wird 1:0 wohl signifikant häufiger getippt also 0:1, da man der Heimmannschaft (obwohl man sie nicht kennt) einen Vorteil einräumt.

Ähnlich ist es mit der Sturmschen Arbeit: Man wird zu einem Hörtest eingeladen, also erwartet man irgendetwas Unterschiedliches, auch wo nichts ist: P(B) > P(A)

Irgendwie scheinen dir zwei Begriffe immer wieder erhebliche Probleme zu machen.

1. Raten. Wenn man in der Stochastik vom Raten spricht drückt man damit aus, dass es dem Zufall unterliegt welches Ergebnis sich einstellt. Bei dir taucht aber der Begriff immer in der umgangssprachlichen Version auf.
Wenn einer einen Würfelt würfelt ist das Ergebnis zufällig. Für das Ergebnis kann man jedoch eine Wahrscheinlichkeit angeben. Wenn nun einer sagen soll, was der andere würfeln wird, kann er nur raten. Für diese Rateergebnis gilt jedoch dieselbe Wahrscheinlichkeitsvorhersage.

2. Wahrscheinlichkeit. Und hier taucht bei dir im Zusammenhang von BT ein grundsätzliche Verständnisproblem auf!

Wir wollen mit der Wahrscheinlichkeitsberechnung keine Vorhersage treffen wie sich die Teilnehmer wohl verhalten/entscheiden werden, egal ob Gold- oder Holzohren. Und da die diese Verhaltens-Einschätzung sowieso nicht exakt gelingen kann ist jeder Test Quatsch und jede mathematische Vorhersage bullshit und muss folge dessen auseinander genommen werden oder zeugt von mangelnden mathematischen Kenntnissen?
Ein Beleg dafür, dass du so denkst, ist deine Antwort auf die Frage, wie denn ein "richtiger" Ansatz auszusehen hätte, das geht nicht, denn der Mensch ist doch kein Würfel.

Aber wir wollen nicht den Menschen testen und über sein Verhalten eine Vorhersage treffen, sondern wir wollen das Objekt (die Kabel) testen!

Unter der Annahme, dass man den Kabelklang nicht messen kann, gilt es doch zu prüfen, ob er dann von Menschen z.B. eindeutig gehört werden kann. Doch beim Prüfen vergleiche ich zwei Werte/Ergebnisse miteinander. Ich brauche also eine neutrale, objektive (vom Menschen unbeeinflussbare, unabhängige) Bezugsgröße!
Um diese Bezugsgröße zu bekommen wird angenommen, dass es keine Klangunterschied gibt. Wenn denn das so ist, würde der Test reine Zufallsergebnisse produzieren. Daher brauche ich eine Wahrscheinlichkeitsaussage darüber, welche Ergebnisse der Zufall erzeugen würde. Das ist mein Bezugsprofil!
Wenn die Testergebnisse von diesem Profil eine Abweichung aufweisen, gibt es "Handlungsbedarf".
Zunächst helfen einem dann statistische Methoden die Aussagestärke, die Signifikanz zu fixieren. Also in welchem Maße ist die Abweichung überhaupt relevant. Dann bleibt ja noch immer die Ungewissheit, ob es wirklich die Kabel waren waren, die den gehörten Unterschied ermöglichten oder es doch nur das tendenziöse Verhalten der Testteilnehmer waren, die zu diesem Ergebnis führten (Goldohrenfaktor). Um dieses menschlichen Faktor, diese Verzerrung (Bias) sichtbar zu machen, dienen dann die im Test eingebauten Negativkontrollen. Und wenn diese Bias-bedingten Abweichen unverhältnismäßig groß sind, dann und nur dann kann man den gesamten Test vergessen! Oder darüber diskutieren, ob denn die Negativkontrolle hinreichend genug war.

Sorry, ich weiß zwar, dass ich hier in einem allgemeinen Forum bin und ich hier sicherlich viele persönlich geprägte Interpretationen zum Thema Statistik und Wahrscheinlichkeitsberechnung zu lesen bekomme, aber von einem der angibt sich auch noch im Studium mit Stoachstik beschäftigt zu haben musste ich davon ausgehen, dass das keine "Konfrontation" mit dem Thema war und er zumindest die Indikatoren bestimmen kann, was, wann aus der Stochastik gemäß der Zielsetzung zum Einsatz kommen muss.

[Beitrag von hifi_angel am 02. Nov 2013, 15:04 bearbeitet]

Drexl
Inventar

#359 erstellt: 02. Nov 2013, 15:05

hifi_angel (Beitrag #358) schrieb:

Wenn einer einen Würfelt würfelt ist das Ergebnis zufällig.

Es dreht sich hier aber um keinen Würfeltest.

Erkläre Du doch einfach, wieso bei der Negativkontrolle 40-20-40 statt 33-33-33 herausgekommen ist?

hifi_angel
Inventar

#360 erstellt: 02. Nov 2013, 15:46

Lass mich "raten".
Weil Herr Sturm das so berechnet hat?
Oder hat er doch nur gewürfelt? Doch wie Wahrscheinlich ist es das er Berechnet hat oder Gewürfelt hat? Ist P(Berechnen) < als P(Würfeln)? Und wenn ja warum? Und wie sieht hier denn die Negativkontrolle aus?

Drexl
Inventar

#361 erstellt: 02. Nov 2013, 15:48

Du weichst der Frage aus. Aber etwas anderes habe ich auch nicht erwartet.

hifi_angel
Inventar

#362 erstellt: 02. Nov 2013, 16:01

Gut, dann will ich mich mal vor der Frage nicht drücken.

Erkläre Du doch einfach, wieso bei der Negativkontrolle 40-20-40 statt 33-33-33 herausgekommen ist?

Hier nun definitiv meine Antwort!
Weil er das so berechnet hat, kann man aber auch in seiner Arbeit nachlesen!
Warum er es so berechnet hat kann nur er dir erklären!

Drexl
Inventar

#363 erstellt: 02. Nov 2013, 16:11

hifi_angel (Beitrag #362) schrieb:

Warum er es so berechnet hat kann nur er dir erklären!

Ich hoffe doch mal, anhand der ausgefüllten Fragebögen. Berechnet muß da nichts werden (Ok, abgesehen von den absoluten Zahlen zu Prozentwerten).

kammerklang
Stammgast

#364 erstellt: 02. Nov 2013, 23:37

hifi-angel schrieb:

Wir wollen mit der Wahrscheinlichkeitsberechnung keine Vorhersage treffen wie sich die Teilnehmer wohl verhalten/entscheiden werden, egal ob Gold- oder Holzohren.

Aber genau das tust doch Du! Du bist es doch, der hier die Annahme aus der Luft greift, unser Wahrnehmungssystem wäre bei Unwissenheit gegenüber allen Deutungsmöglichkeiten prinzipiell gleichwertig voreingestellt. Du stellst Dir vor, sobald man Teilnehmern nacheinander ein und dasselbe Objekte präsentierte, würde natürlicherweise stets ein Drittel das erste und ein Drittel das zweite bevorzugen und ein weiteres Drittel (richtigerweise) keine Unterschiede erkennen. Diese drei Antwortalternativen wären im Wahrnehmungsapparat alle gleich wahrscheinlich voreingestellt, ergäben sich quasi zwangsläufig aus einer Art eingebauter natürlicher Randomisierung, so Deine feste Überzeugung. Aber woher zum Kuckuck weißt Du, wie das Wahrnehmungslevel für "Unterschiedslosigkeit" voreingestellt ist? Wieso soll gerade nur ein Drittel das erkennen können?

Angenommen Du würdest nicht nur zweimal, sondern 99 Mal oder 999 Mal das selbe Objekt zur Beurteilung präsentieren, würde dann nach Deinem Modell etwa nur 1 Prozent bzw. nur noch 1 Promille der Teilnehmer korrekt erkennen das es keinen Unterschied gab??? Und wie kannst Du auch noch dreist behaupten, jeder Test, der ein von Deiner bloßen Annahme gleichverteilter Antworten abweichendes Ergebnis zeige, bilde nicht einen möglicherweise ganz natürlichen Bias ab, sondern beweise vielmehr seine prinzpielle Untauglichkeit die natürlicherweise vom Zufall vorgegebene Gleichverteilung korrekt abzubilden? Geht's noch? Hast Du der Natur Vorschriften zu machen, wie sie gefälligst zu funktionieren hat?

Ein Würfel als passives Objekt ist beim Fallen unvoreingenommen gegenüber seinen künftig möglichen "Seins-" bzw. Lagezuständen, die Wahrnehmung muß es aber nicht sein. Sie ist kein dem Zufall passiv ausgeliefertes Objekt. Sie fußt im Gegenteil ganz wesentlich auf Annahmen, die wir über die Welt machen (die einprogrammiert, vererbt oder gelernt sind, und die obendrein auch noch veränderlich und beeinflußbar sind). Die Wahrnehmung ist z.B auf Mustererkennung ausgelegt und tendenziell auch darauf, Unterschiede zu unterstellen, wo keine sind: um mit dieser Annahme mögliche Unterscheide schneller zu erkennen. (Ebenso wie jedem Menschen natürlicherweise eine gewisse Selbstüberschätzung einprogrammiert ist, um mögliche Überlebensvorteile schneller zu erkennen und zu ergreifen). Sie wird manchmal sogar aktiv und greift ins Wahrnehmungsgeschehen ein (das Ohr erzeugt zum Beispiel aktiv Töne, um die Erkennung bestimmter Muster zu erleichtern). Deine anderslautende Unterstellung, die Wahrnehmung wäre bei Unwissenheit gegenüber allen Deutungsmöglichkeiten "vorurteilslos" gleich eingestellt und quasi rein passiv, ist nicht nur durch nichts zu rechtfertigen, erst recht nicht durch Berufung auf Mathematik, sie ist sogar nachweislich falsch - grundfalsch.

Um so unverständlicher, wie Du diese Deine grundfalsche Vorstellung, die Du ja auch schon bei der Auseinandersetzung mit pigpreast nicht aufgeben wolltest, jetzt auch noch hochnäsig zum allgemeinverbindlichen Maßstab für die Beurteilung von Wahrnehmungsvorgängen erheben willst und daraus in ziemlich pampigem Tonfall auch noch ableitest, Leute die das richtigerweise anders beurteilten, hätten die Mathematik nicht richtig verstanden, die Dich dagegen noch nie im Stich gelassen hätte. Die Wirklichkeit schert sich einen Teufel um mathematische Modelle in denen unbemerkte falsche Annahmen stecken.

Mir geht es jedoch darum, dass der Test selber den "Beweis" liefert, dass er untauglich ist.

Ja, und deswegen wirst Du hier im Übereifer zum bedauerlichen Opfer Deiner falschen Annahmen. Ironischerweise dürfte es sogar auf denselben mentalen Mechanismus zurückgehen, dem sonst Voodooeffekt-Hörer unterliegen: Übereifer, und subjektives Wunschdenken, das gewünschte Eigenschaften auf andere Objekte projiziert, einem aber nach der verdrängten Projektion plötzlich als objektive und vom eigenen Denken unabhängige Eigenschaft dieser Objekte erscheinen soll.

[Beitrag von kammerklang am 03. Nov 2013, 04:08 bearbeitet]

Drexl
Inventar

#365 erstellt: 03. Nov 2013, 02:32

kammerklang (Beitrag #364) schrieb:

Sobald man Teilnehmern nacheinander ein und dasselbe Objekte präsentierte, würde natürlicherweise stets ein Drittel das erste und ein Drittel das zweite bevorzugen und ein weiteres Drittel (richtigerweise) keine Unterschiede erkennen. Diese drei Antwortalternativen wären im Wahrnehmungsapparat alle gleich wahrscheinlich voreingestellt, ergäben sich quasi zwangsläufig aus einer Art eingebauter natürlicher Randomisierung.

Wie kommt ihr darauf, daß die Wahrscheinlichkeiten gleich verteilt sind? Wieso soll niemand erkennen, daß es sich zweimal um dasselbe Objekt handelt und alle raten? Ja, wirklich niemand erkennt, daß zweimal dasselbe Objekt präsentiert wurde. Ansonsten würde ja die Auswahlmöglichkeit "keine Unterschied" häufiger gewählt als die anderen.

Wenn der Sturmsche Test eines gezeigt hat, dann daß die Auswahlmöglichkeit "kein Unterschied" in nahezu allen Versuchsreihen deutlich ungerner angekreuzt wurde als die andern beiden: In der Summe über alle Tests ca. 23% Das ist signifikant unter dem erwarteten Wert p = 33% (oder bei hifi-angel sogar p = 50%).

Der Mensch ist kein Würfel. Das kann man schon beim Lottospielen sehen. Obwohl alle 14 Mio. Zahlenkombinationen gleich wahrscheinlich sind, werden bestimmte Kombinationen häufiger getippt als andere (Muster auf den Lottoschein, Geburts-, Hochzeits- oder sonstiges besonderes Datum).

[Beitrag von Drexl am 03. Nov 2013, 02:48 bearbeitet]

kammerklang
Stammgast

#366 erstellt: 03. Nov 2013, 03:47

Drexl schrieb:

Wie kommt ihr darauf, ...

?? Ich doch eben nicht, Drexl. Der dritte und vierte Satz in meinem Beitrag war nur meine Wiedergabe von hifi-angels falscher Ansicht, die ich eben NICHT teile, sondern von Anfang an kritisiert habe. Deshalb der Konjunktiv, indirekte Rede. Im Übrigen hatte ich auch schon in #299 versucht, hifi-angel seine falsche Voraussetzung gleichverteilter Wahrscheinlichkeiten klarzumachen (unter anderem). Ich bin wie Du der Überzeugung, dass über den variablen Bias beim Erkennen von "Unterschiedslosigkeit" a pirori keine quantitative Kenntnis möglich ist.

[Beitrag von kammerklang am 03. Nov 2013, 03:51 bearbeitet]

Pigpreast
Inventar

#367 erstellt: 03. Nov 2013, 05:38

Hi zusammen,

mein Internet war zwei Tage weg, daher komme ich mit einigem "wie die alte Fastnacht hinterher":

C-tecx (Beitrag #305) schrieb:

@kammerklang: …Aber folgender Sachverhalt. Ich mache einen Kabelklangtest. Das Kabel wird NIE getauscht. Bleibt also immer das selbe. Nun gebe ich zur Auswahl nur Kabel A ist besser oder Kabel B ist besser. Angenommen 80% sagen Kabel A ist besser würde das ja laut deiner Theorie heißen, dass ein Kabelklang besteht obwohl das Kabel nie getauscht worden ist...???

Nein, es sagt nur aus, dass 80% Kabel B besser bewerten, obwohl es nicht verwendet wurde (aus welchen Gründen, darüber kann nur spekuliert werden, doch dazu später mehr). Es bedeutet aber auch, dass bei wirklicher Verwendung von Kabel B signifikant mehr als 80% das Kabel besser bewerten müssen, damit ich dem Kabel selbst die Ursache dafür zuschreiben kann.

hifi_angel (Beitrag #308) schrieb:

Das schöne an Mathematik (auch der Bereich der Stochastik) ist, dass sie eindeutig ist. Probleme einstehen wohl immer erst dann, wenn die Regeln falsch anwendet werden

…oder wenn man mathematische Modelle auf Probleme anwendet, die dadurch nicht adäquat beschrieben werden. Um nichts anderes geht es bei Deinem Streit mit Drexl. Es geht nicht darum, wer von Euch die mathematische Berechnung gemäß der Regeln korrekt durchführt, sondern ob das zugrunde gelegte mathematische Modell auf das konkrete Problem überhaupt anwendbar ist.

Drexl (Beitrag #311) schrieb:

Ein ideales Holzohr würde nie Unterschiede hören. Also: P(A) = 1
Ein ideales Goldohr würde immer einen Unterschied hören, da es sich nicht eingestehen kann, nichts zu hören. Also P(A) = 0
Nun wissen wir aber nicht die Zusammensetzung von Holz- und Goldohren an der Gesamtbevölkerung. P(A) ist also unbekannt.

So sieht es aus: Es gibt eine ganze Reihe von Faktoren (

Beurteilungsfehler), die das Ergebnis bei Testbefragungen in bestimmte Richtungen beeinflussen können. Einige sind für Kabel-Hör-Tests möglicherweise irrelevant, andere lassen bzw. ließen sich durch eine entsprechende Versuchsanordnung eliminieren. Einige jedoch werden trotz aller Bemühungen immer eine mehr oder weniger große Verzerrung der Antwortverteilung bewirken. Im konkreten Fall z.B. der Effekt der zentralen Tendenz (Versuchspersonen neigen eher dazu, sich für mittlere Kategorien wie „unentschieden“, „weder/noch“, „mittel“ zu entscheiden, als für Extremwerte), Autosuggestion („Ich weiß ja, dass Kabel unterschiedlich klingen, deshalb werde ich Unterschiede hören“), und im weitesten Sinne die Tendenz im Sinne der sozialen Erwünschtheit („Ich höre besser keinen Unterschied, sonst werde ich im HiFi-Forum als Spinner ausgegrenzt werden“ ;)).

Kurz: Es ist sowieso zu erwarten, dass die Antwortverteilung bei der Negativkontrolle von einer rein zufälligen Antwortverteilung abweicht. Und zwar durch die Komplexität der unterschiedlichen Faktoren in völlig unvorhersehbarer Richtung und Ausprägung.
Und da man eben nicht vorhersehen kann, wie ein Kabeltest mit gleichen Kabeln ausginge, muss man diesen in einer separaten Kontrollgruppe durchführen und die hierbei ermittelte Antwortverteilung quasi zur „Eichung“ verwenden („So sieht die Antwortverteilung aus, wenn ich sicher keinen Klangunterschied verursache“). Im Experiment der Gruppe mit den tatsächlich verschiedenen Kabeln werde ich dann entweder eine Antwortverteilung haben, die sich signifikant von dem der Kontrollgruppe unterscheidet (=> Kabelklang nachgewiesen), oder keinen signifikanten Unterschied zwischen beiden Gruppen (=> Kabelklang nicht nachgewiesen).

Der Vergleich zwischen einer imaginären zufälligen Antwortverteilung und der tatsächlichen Antwortverteilung bei der Negativkontrolle (die im vorliegenden Experiment übrigens auch nicht sauber als solche bezeichnet werden kann) hilft einem bei der Frage, ob ich dem Kabel eine als solche empfundene Klangveränderung zuordnen kann, ohnehin nur bedingt weiter, da sie nicht Kabelwirkung vs. Bias differenziert, sondern höchstens Bias vs. Zufallsverteilung.

Drexl (Beitrag #311) schrieb:

Du mußt Dich von der Vorstellung lösen, daß immer
P(Einzelwahrscheinlichkeit) = 1/Gesamtzahl der Ereignisse gilt.

hifi_angel (Beitrag #313) schrieb:

Nein, ich muss mich nicht von der Vorstellung lösen, denn das einspringt ja nicht meiner Vorstellung. Es sind mathematische Regeln, die ich nur kenne.

Es reicht aber nicht, die Regeln zu kennen, sondern man muss auch erkennen können, auf welchen Fall sie anzuwenden sind und auf welchen nicht.

Eine Unterlage von vielen z.B.

hier Seite 2

Jawohl, da steht unter anderem:

Definition: Haben bei einem Zufallsversuch mit n möglichen Ergebnissen all diese Ergebnisse
dieselbe Chance aufzutreten, dann ordnet man jedem dieser Ergebnisse die Wahrscheinlichkeit
p =1/n zu. Solche Versuche werden als Laplace-Versuche bezeichnet.

Wie oben von mir ausgeführt haben die Ergebnisse des Kabelblindtests mit gleichen Kabeln jedoch nicht alle dieselbe Chance, aufzutreten, sondern sind aufgrund der erwähnten Einflussfaktoren unterschiedlich wahrscheinlich. Deshalb sind die Regeln, die für Laplace-Versuche gelten, hier auch nicht einfach so anzuwenden.

Jakob1863 (Beitrag #314) schrieb:

In jedem Fall werden den Versuchsteilnehmern zwei Stimuli präsentiert und die Teilnehmer können nicht wissen, welche Antwort richtig ist.
Wenn Sie "nur" zufällig auswählen (also raten), sind die Einzelwahrscheinlichkeiten gleich, wie beschrieben P(1) = P(2) = P(3) = 1/3

Um es noch deutlicher zu machen (@hifi_angel), könnte man sagen: „Wenn Sie "nur" zufällig auswählen, z.B. die Entscheidung, welches der drei möglichen Kästchen sie ankreuzen, durch Würfeln treffen, sind die Einzelwahrscheinlichkeiten P(1) = P(2) = P(3) = 1/3.

Wenn die Versuchsteilnehmer nicht "nur" raten, wirkt ein Biaseffekt, der als systematischer Confounder die Ergebnisse verzerrt.
Über die Stärke des Verzerrungseffektes können wir naturgemäß vorab keine Angaben machen, weil uns die Datenbasis dazu fehlt

Soweit exakt mein Reden.

In dem Sturmschen Experiment erfüllt diese Negativkontrolle die gleiche Absicht wie die Placebokontrollgruppe in einer der erwähnten medizinischen Studien.

Die gleiche Absicht hat sie vielleicht schon. Erfüllen tut sie diese Aufgabe allerdings höchstens ansatzweise. In einer Studie mit Kontrollgruppe hätte man für jedes Stück eine Negativkontrolle gehabt, was insbesondere dann wichtig ist, wenn man (wie Sturm) auch noch schlussfolgern möchte, dass unterschiedlicher Kabelklang sich bei unterschiedlichen Stücken unterschiedlich stark auswirkt. Im vorliegenden Fall gab es nur bei einem einzigen Stück diese „Kontrolle“ - aber was kontrollierte sie? Dasselbe Stück wohl kaum, da dieses ja die Kontrolle war. Die anderen Stücke? Völlig unsauber, wenn ich in der selben Studie noch behaupte, dass sich verschiedene Stücke unterschiedlich auf Kabelklangwahrnehmung auswirken.

Das in medizinischen Studien eine Kontrollgruppe eingesetzt wird, ist verständlich, denn man kann in den meisten Fällen dem einzelnen Probanden nicht abwechselnd das zu untersuchende Mittel _und_ das Placebo/Standardmittel verabreichen.

Das ist ein wesentlicher Grund, aber nicht der einzige.

In einem Sensoriktest hingegen, geht das eben schon…

…ist aber auch „unsauber“, weil man damit z. B. Effekte durch Ermüdung bzw. wechselnd starke Konzentration über den Testverlauf nicht ausschließen kann.

Es ließen sich neben den bereits erwähnten Störfaktoren noch viele weitere finden. An einige wird man evtl. gar nicht denken, obwohl sie einen Einfluss haben. Wenn man all diese Effekte ausschließen will, bleibt einem gar nichts anderes übrig, als denselben Versuchsablauf an voneinander unabhängigen Gruppen (Kontroll- und Untersuchungsgruppe) durchzuführen, die natürlich auch hinreichend groß sein müssen, dass sich bestimmte interpersonelle Unterschiede statistisch ausgleichen. Und, ja, man muss sich dann auch die Mühe machen, die einzelnen Probanden nach dem Zufallsprinzip der Kontroll- bzw. der Untersuchungsgruppe zuzuordnen, damit die gleichartige Zusammensetzung hinreichend wahrscheinlich ist. Alles andere stellt einen Verzicht auf Aussagekraft dar.

Drexl (Beitrag #320) schrieb:

[@hifi_angel] Das Empfinden der Versuchsteilnehmer ist subjektiv. Obwohl objektiv kein Unterschied vorhanden ist, meinen ihn die Mehrzahl der Teilnehmer doch zu hören.

Vorsicht Drexl, über subjektiv und objektiv habe ich mit hifi_angel schon merkwürdige Dispute führen müssen…

hifi_angel (Beitrag #349) schrieb:

Jeder BT-Ansatz, dass muss ja auch nicht immer der HiFi-Bereich sein, stellt doch zunächst einmal die Wahrscheinlichkeiten fest, die ohne den Faktor Mensch sich einstellen müssten, wenn der Zufall die Regie hat.

Das stimmt eben nicht (zumindest nicht für jeden BT). Das interessiert unter Umständen ja auch überhaupt nicht. Wenn ich als Mediziner z.B. feststellen will, ob ein Wirkstoff eine ihm zugesagte Wirkung hervorruft, interessiert mich, ob er das besser tut, als wenn ich dem Patienten Placebo verabreiche. Vielleicht auch, ob er es besser tut, als wenn ich gar nix unternehme. Aber jedenfalls nicht, ob der Wirkstoff besser wirkt als in der Vorstellung „Wie wären die Heilungsraten, wenn ich sie auswürfeln könnte?“

Bei HiFi ist es für mich nicht anders: Wenn jemand behauptet: „Dieses Kabel klingt besser als jenes“, dann interessiert mich doch nicht, ob der Unterschied deutlicher ist als der Zufall, sondern ob er deutlicher ist als Einbildung, Suggestion oder Lüge. Deshalb fordere ich ja eine Kontrollgruppe, in welcher ich den Einfluss all dieser nicht dem Kabel selbst zuzuschreibenden Eigenschaften feststellen kann, um diese Ergebnisse dann als Vergleichswert heranzuziehen, nicht irgendwelche hypothetischen Zufallsverteilungen.

Bei einer Negativkontrolle verändert man den Test ja so, dass die Teilnehmer zwangsweise nur raten (ohne es zu wissen), man wechselt z.B. nicht das Kabel es ist immer das selbe Kabel , sie verhalten sich also wie der Zufall.

Wie bereits ausgeführt, verhalten sie sich eben nicht wie der Zufall.

Wenn dann in dieser Situation die Ergebnisse nicht anders aussehen als die berechneten (Zufalls-)Wahrscheinlichkeiten, dann gilt der Test als valide, d.h. die Ergebnisse aus den "regulären" Vorgängen und die darauf fußenden Aussagen sind vertrauenswürdig, d.h. ohne nennenswerten Bias.

Wenn dieser bei einem Test mit menschlichen Probanden sehr unwahrscheinliche Fall eintritt, dass sich die Ergebnisse der Negativ-Kontrolle wie in einer zufälligen Verteilung präsentieren, dann stimmt es, dass, wie Du sagst, die Ergebnisse aus den "regulären" Untersuchungsdurchgängenn ohne nennenswerten Bias zustande kommen. (Valide muss der Test deshalb übrigens immer noch nicht sein, das hängt noch von anderen Faktoren ab, aber egal.) Diesen Fall kannst du aber bei keiner Studie mit menschlichen Probanden erwarten; den Bias wird es immer geben. Es gilt nur, ihn „heraus zu rechnen“.

Und in dem Maße wie sich die Ergebnisse bei einer Negativkontrolle vom den berechneten Zufallsergebnis abweichen, offenbart sich ja der Bias-Faktor.

Du meinst die Differenz Zufallsverteilung vs. tatsächliche Verteilung der Negativ-Kontrolle? Ja, und dann? Dann berechnest Du noch die Differenz Testreiz vs. Zufallsverteilung und subtrahierst die beiden ermittelten Differenzen voneinander? Klar, so kommst Du auch zum Ergebnis. Zum gleichen Ergebnis kommst Du aber auch, in dem Du gleich die Differenz Testreiz. vs. Negativ-Kontrolle ermittelst. Somit ist die Zufallsverteilung eine uninteressante Größe.

Natürlich kann auch das Testdesign einen Bias haben. Das jedoch kann man m.E. nur "ermitteln", indem eine nach anderen Kriterien selektierte Teilnehmergruppe denselben Test wiederholen lässt.

Wieso sollte das einen Testspezifischen Bias aufdecken können?

hifi_angel (Beitrag #358) schrieb:

Aber wir wollen nicht den Menschen testen und über sein Verhalten eine Vorhersage treffen, sondern wir wollen das Objekt (die Kabel) testen!

Ich würde sagen:

Wir wollen den Einfluss des Objektes (Kabel) auf die Empfindung (bzw. deren Äußerung) des Menschens testen, und müssen daher über sein Verhalten (Empfindungsäußerung) ohne Kabeleinfluss Vorhersagen treffen. Und zwar, um differenzieren zu können, welche Empfindung durch die Beschaffenheit des Kabels verursacht wurde und welche auch ohne die Beschaffenheit des Kabels – aus welchen Gründen auch immer - aufgetreten wäre.

hifi_angel (Beitrag #358) schrieb:

Ich brauche also eine neutrale, objektive (vom Menschen unbeeinflussbare, unabhängige) Bezugsgröße!

Nein, die brauchst Du eben nicht! Was Du brauchst, ist eine Bezugsgröße, die alle „menschgemachten“ Ergebnisse - und nur diese Ergebnisse - abbildet. Dann kannst Du sagen: Alles, was beim Test darüber hinaus als Ergebnis heraus kommt, ist vom Kabel verursacht.

Deine Aussagen bezüglich „Bezugsprofil“ habe ich weiter oben quasi schon kommentiert und muss abschließend noch mal wiederholen, was ich in ähnlicher Form vor Ur-Zeiten schon gepostet habe:

Durch Verwendung einer Kontrollgruppe, die ausschließlich Negativ-Kontrollen bei ansonsten identischem Versuchsaufbau präsentiert bekommt, kann man sich die ganzen Überlegungen, ob die Abweichungen von der Zufallsverteilung statistische Relevanz haben, welche Faktoren zu den Antworten geführt haben, wenn nicht die Kabel, und vor allem jede Menge Rechnerei (es ist ohnehin bei der Auswertung solcher Tests schon genug Rechenarbeit) sparen.

Sorry für diesen longest Post ever, der wie eingangs erwähnt in vielem "wie die alte Fastnacht hinterher kommt." Aber so ist das, wenn einem das Internet zwei Tage ausfällt, und man sich am dritten Tag die Zeit zum Posten mühsam zusammen klauben muss...

Gruß und gute Nacht

Pigpreast.

[Beitrag von Pigpreast am 03. Nov 2013, 05:51 bearbeitet]

tomtiger
Administrator

#368 erstellt: 03. Nov 2013, 06:42

Hi,

Drexl (Beitrag #365) schrieb:

Wieso soll niemand erkennen, daß es sich zweimal um dasselbe Objekt handelt und alle raten? Ja, wirklich niemand erkennt, daß zweimal dasselbe Objekt präsentiert wurde. Ansonsten würde ja die Auswahlmöglichkeit "keine Unterschied" häufiger gewählt als die anderen.

weil dieser (und viele andere Tests) genau das zeigen. Die Leute wollen einen Unterschied hören, deshalb werden sie einen Unterschied hören. Ob er da ist oder nicht. Deshalb ist die Auswertung solcher Tests um so schwieriger, man müsste da die Antworten viel genauer analysieren, also solche Summenprozentangaben es erlauben. Das funktioniert nur für die Frage "Was gefällt Dir besser, das rote oder das grüne Irgendwas?".

LG Tom

Pigpreast
Inventar

#369 erstellt: 03. Nov 2013, 12:06

Achtung, Missverständniss-Gefahr! Kammerklang wirft hifi_angel vor, dass dieser unrichtigerweise davon ausginge, bei gleichen Stimuli müssten die Probanden einer zufälligen Verteilung entsprechend antworten. Drexl zitiert Kammerklang und fragt "Wie kommt ihr darauf, daß die Wahrscheinlichkeiten gleich verteilt sind?" Dieses Missvertändnis wurde von Kammerklang zwischenzeitlich in Beitrag #366 richtiggestellt.

Du (Tomtiger) zitierst jetzt Drexl, und Deine Antwort lässt mich darauf schließen, dass Du ihn zumindest anders verstanden hast, als ich es tue:

Seine Frage. "Wieso soll niemand erkennen, daß es sich zweimal um dasselbe Objekt handelt und alle raten?" ist Ausdruck seines Unverständnisses darüber, dass hifi_angel, Kammerklang und evtl. andere ("ihr") davon ausgehen, dass die Probanden bei gleichen Stimuli einer zufälligen Verteilung entsprechend antworten (raten) müssten. Den zweiten Teil seines von dir zitierten Ausspruchs ("Ja, wirklich niemand erkennt, daß zweimal dasselbe Objekt präsentiert wurde. Ansonsten würde ja die Auswahlmöglichkeit "keine Unterschied" häufiger gewählt als die anderen.") interpretiere ich als vom ersten Satz unabhängige Feststellung, dass tatsächlich der fehlende Unterschied von niemandem erkannt wurde. Stützen tut er diese Annahme auf den Umstand, dass die ermittelte Verteilung tatsächlich näher an einer Zufallsverteilung ist, als es bei erkannter Unterschiedslosigkeit sein müsste.

Was ich jetzt nicht verstehe, ist, auf welchen Teil von Drexls Aussage, sich Deine (Tomtiger) Antwort bezieht. Welchen Widerspruch soll sie vermitteln bzw. aufklären?

Die Leute wollen einen Unterschied hören, deshalb werden sie einen Unterschied hören. Ob er da ist oder nicht. Deshalb ist die Auswertung solcher Tests um so schwieriger, man müsste da die Antworten viel genauer analysieren, also solche Summenprozentangaben es erlauben. Das funktioniert nur für die Frage "Was gefällt Dir besser, das rote oder das grüne Irgendwas?"

Hierbei ist wichtig zu wissen, was mit dem Test überhaupt untersucht werden soll. Ob es eine nur dem Objekt zuzuschreibende Wirkung gibt? Dann muss ich geeignete Negativkontrollen (am besten in Form einer Kontrollgruppe) verwenden und verweise auf die ellenlangen Ausführungen meines letzten Beitrages. Oder sollen die Wirkungen, die unabhängig von den Eigenschaften des Objektes bei dessen Verwendung auftreten können, untersucht werden? Dann wird es (ähnlich, wie wenn man Placebowirkungen in der Medizin - also Wirkungen, die es gar nicht geben "dürfte" - untersuchen will) schon deutlich schwieriger. Absolut unzulässig ist es jedoch (zumindest so wie Sturm es tut), in ein und der selben Studie die "Negativkontrolle" einmal als Kontrolle für die Ergebnisse der "regulären" Testung anzuführen und ein anderes Mal aus der "Kontrolle" selbst Schlussfolgerungen über deren Ergebnisse zu ziehen.

hifi_angel
Inventar

#370 erstellt: 03. Nov 2013, 14:04

Pigpreast (Beitrag #367) schrieb:

hifi_angel (Beitrag #358) schrieb:

Ich brauche also eine neutrale, objektive (vom Menschen unbeeinflussbare, unabhängige) Bezugsgröße!

das nenne ich mal einen innovativen Vorschlag!

Die anderen wissen ja immer nur genau was alles falsch ist, wie es richtig geht wissen sie aber nicht, (sogn. Bedenkenträger)

Also wenden wir deinen Vorschlag mal auf den Test von Herrn Sturm an.

Z.B. würde die Kontrollgruppe das Ergebnis produzieren, sagen wir mal, 35-25-40 und beim "echten" Test käme 20-35-45 raus.

Wie geht es jetzt weiter?

hifi_angel
Inventar

#371 erstellt: 03. Nov 2013, 15:54

Kammerklang schrieb:

Und wie kannst Du auch noch dreist behaupten, jeder Test, der ein von Deiner bloßen Annahme gleichverteilter Antworten abweichendes Ergebnis zeige, bilde nicht einen möglicherweise ganz natürlichen Bias ab, sondern beweise vielmehr seine prinzpielle Untauglichkeit die natürlicherweise vom Zufall vorgegebene Gleichverteilung korrekt abzubilden? Geht's noch? Hast Du der Natur Vorschriften zu machen, wie sie gefälligst zu funktionieren hat?

Herr Sturm schreib in seine schriftlichen Hausarbeit, S.40 / Beispiel 3

ln diesem Fall ist die Verbindung identisch geblieben, für die Validität des Versuchs ein wichtiger Punkt, denn die etwa gleich starke Verteilung tritt tatsächlich nur in diesem Beispiel auf.

Also:

Und wie kann Herr Sturm auch noch dreist behaupten, jeder Test, der ein von seiner bloßen Annahme gleich verteilter Antworten abweichendes Ergebnis zeige, bilde nicht einen möglicherweise ganz natürlichen Bias ab, sondern beweise vielmehr seine prinzipielle Untauglichkeit die natürlicherweise vom Zufall vorgegebene Gleichverteilung korrekt abzubilden? Geht's noch? Hat Herr Sturm der Natur Vorschriften zu machen, wie sie gefälligst zu funktionieren hat?

Das ist ja ungeheuerlich und an Dreistigkeit nicht mehr zu überbieten! Und das auch noch in einer wissenschaftlichen Arbeit im Rahmen der Magisterprüfung!

Wieso machen die Wissenschaftler der Natur Vorschriften, warum beachten sie nicht einfach die Vorschriften von Kamnmerklang und alles wäre gut.

hifi_angel
Inventar

#372 erstellt: 04. Nov 2013, 03:13

@ Pigpreast,

solange du noch überlegst (ggf. ist ja auch wieder dein Internetzugang ausgefallen) wie es jetzt weitergeht, also in der Situation bei der die Kontrollgruppe ein Ergebnis von 35-25-40 aufweist gegenüber dem „echten“ Testergebnis von 20-35-45, fällt mit noch folgendes auf:

Das Ergebnis der Kontrollgruppe hängt ja sehr stark von der Zusammensetzung der Teilnehmer ab. Also der resultierende Bias aller Teilnehmer kann ja von Kontrollgruppe zu Kontrollgruppe erheblich schwanken, was ja dann für dein Modell eine mittlere Katastrophe bedeutet.
Andererseits kann man vor diesem Hintergrund ja auch nicht vorherbestimmen, wie viele Kontrollgruppen man zusammenstellen muss um die maximale Bias-Schwankungsbreite sicher bestimmen zu können, um dann ein Mittelmaß aus dieser Schwankungsbreite als Standard zu übernehmen.

Aber wir können ja schon einmal in jedem Fall die maximal auftretenden Fälle fixieren.

Die erste Angabe steht ja für „man hört keinen Unterschied“, die zweite für „das Kabel 1 klingt besser als 2“ und die dritte Angabe steht ja für „das Kabel 2 klingt besser als 1“.

Wenn wir jetzt ausschließlich absolute Hardcore-Holzohren in der Kontrollgruppe hätten, die einfach keinen Unterschied hören wollen, dann käme ja das eine Extremergebnis 100-0-0 raus.

Bei absoluten Hardcore-Goldohren, die aus Prinzip immer einen Unterschied hören, käme das andere Extremergebnis 0-50-50 raus. Die 50-50 deshalb, weil es könnte ja sowohl Kabel 1 sein als auch Kabel2, da die Goldohren ja nicht wirklich was zu hören bekommen in dem Kontrollvorgang.

Der Mittelwert, also wenn wir eine ausgeglichene Gruppe hätten, der Normalzustand, würde demnach 50-25-25 betragen.

Könnte man das nicht auch als Standardansatz verwenden?

Pigpreast
Inventar

#373 erstellt: 04. Nov 2013, 11:55

@hifi_angel:

Ich habe tatsächlich immer noch ein Internet-Problem zu Hause und antworte von einem Rechner, auf den ich nur unregelmäßig und kurzzeitig zugreifen kann. Ich möchte Deine Frage, da es ja jetzt etwas konstruktiver zwischen uns zu werden scheint, durchaus beantworten. Kann allerdings etwas dauern, da ich die Posts erstmal in Word kopiere und dann offline beantworte um die Antwort, wenn ich wieder Zugang zum Web habe, zu posten. Also bitte etwas Geduld, damit ich meine Antworten nicht schon wieder überarbeiten muss, sobald ich sie posten will.

Und hier doch noch mal etwas aus meinem Sarkasmus- und Polemik-Schränkchen:

Jakob1863 (Beitrag #314) schrieb:

das unterschiedliche Fachbereiche auch unterschiedliche Methoden verwenden, liegt angesichts unterschiedlicher (

) Voraussetzungen doch eigentlich auf der Hand, nicht wahr?

Ja, da geht mir ein Licht auf: Die Physik stellt sich die Kernfrage „Welche Gesetzmäßigkeiten kann ich aus dem ableiten, was ich messe?“, die medizinische Forschung wird geleitet von der Kernfrage „Was kann meine Therapie und welche Patienten haben einen Nutzen davon?“ Die Marktforschung ist primär und hauptsächlich interessiert an der Kernfrage: „Was kann ich wem wie am besten verkaufen?“

Wenn dieses die Hintergedanken sind, die jeder entsprechend seiner Profession permanent mit sich herum trägt, erklärt das so einiges. Zum einen die Beschaffenheit der jeweiligen Untersuchungen inklusive deren Qualität, zum anderen so manches Streitgespräch hier…

Jakob1863
Gesperrt

#374 erstellt: 04. Nov 2013, 13:24

@ Hifi_Angel,

um es nochmals zu wiederholen, das Problem entsteht nur durch die willkürliche Festlegung, daß für die Entscheidung _unter Bias_ gelte, die Ratewahrscheinlichkeit _unter Bias_ müsse P(A) = P(NichtA) = 0.5 sein.

Deshalb das frühere Beispiel mit dem Würfel und der Versuchsgruppe, die z.B. vielleicht eine "Abneigung" gegen die Zahl eins mitbringt, woraus nach deinem Ansatz für die Ratewahrscheinlichkeit zu gelten habe P(1) = P(Nicht1) = 0.5 .

Wie bereits geschrieben, ist im klassischen Ansatz die Ausweichantwort (in der englischsprachigen Literatur auch "tie" genannt) ein seit Jahrzehnten diskutiertes Thema und das klassische Verfahren kennt 3 Möglichkeiten:
-) man läßt die Ausweichantworten bei der Auswertung unter "den Tisch fallen", wertet sie also als ungültige Antworten
-) man unterstellt, die Ausweichantworten wären nach Ratewahrscheinlichkeit auf die anderen beiden Antworten verteilt worden, d.h. gemäß p=0.5

-) man unterstellt, die Ausweichantworten wären proportional der Verteilung auf die anderen beiden Antworten verteilt worden, d.h. auch die unentschlossenen Teilnehmer würden sich ebenso entscheinden wie es die anderen ebenfalls getan haben

Denn bei einem forced choice Ansatz hätte es die Ausweichantworten überhaupt nicht gegeben.

Das es bei diesen Möglichkeiten immer Nachteile gibt - die erste Möglichkeit führt z.B. zu einem Verlust an Teststärke - liegt auf der Hand, aber bezogen auf unseren Fall folgt immer, daß die Negativkontrolle im Sturmschen Hörversuch tatsächlich nicht signifikant von einem Rateergebnis abweicht.
Literatur mit einigen Beispielen und Diskussion der Verfahren (verkürzt):

how to handle the neutral vote in consumer testing
ein alternatives Verfahren mit Vergleich zum "traditionellen Ansatz":

Analyzing paired comparison tests

Einen moderneren Ansatz mit Diskussion früherer Methoden findet man hier:

Accounting for no difference/preference responses or ties in choice experiments

Die Autoren schlagen ähnliches wie im Sturmschen Versuch vor, nämlich die Feststellung einer sog. "identicallity norm", soll heißen eine Verteilung, gewonnen aus einer Negativkontrolle, bei der der gleiche Stimulus zweimal präsentiert wird.
Interessant ist die im Artikel enthaltene Beschreibung einer derartigen Negativkontrolle in 4 Versuchen (es ging um einen Geschmackstest, bei dem jeweils das gleiche Produkt präsentiert wurde, und die Beurteilung in verschiedenen Kategorien abgefragt wurde; bei der Rubrik "Prefer A " oder "Prefer B" oder "no preferences" lag die Antwortverteilung in allen 4 Versuchen mit insgesamt ~1800 Teilnehmern sehr nahe bei 40:40:20 , was uns aus dem Sturmschen Versuch bekannt vorkommen könnte.

Gruß

[Beitrag von Jakob1863 am 04. Nov 2013, 18:36 bearbeitet]

8erberg
Inventar

#375 erstellt: 04. Nov 2013, 14:04

Stöhn!

#angaga#
Inventar

#376 erstellt: 04. Nov 2013, 14:13

8erberg (Beitrag #375) schrieb:

Stöhn!

Ich wette Jakob wäre auch in der Lage zu beweisen, dass die Erde eine Scheibe ist!

Gruß A.

hifi_angel
Inventar

#377 erstellt: 04. Nov 2013, 14:14

@ Jakob,

lass uns doch erst einmal das Modell von Pigpreast weiterverfolgen. Das ist doch ein interessanter und in der Argumentation ein in sich schlüssiger und logischer Ansatz.
Wenn wir die Diskussion wieder von vorne anfangen, also wieder da starten wo wir schon mal waren, führt uns da doch nicht weiter. Wir werden wieder in der Sackgasse landen, denn an der jeweiligen Argumentation hat sich doch nichts verändert.
Der vollkommen neue Ansatz von Pigpreast erspart uns doch die "bissige" Diskussionen welche P(x) Annahme wohl die richtige sei, ohne das Ziel aus den Augen zu verlieren.

Pigpreast
Inventar

#378 erstellt: 04. Nov 2013, 14:19

Jakob1863 (Beitrag #374) schrieb:

Denn bei einem forced choice Ansatz hätte es die Ausweichantworten überhaupt nicht gegeben.

Wie kann man bei einer Studie, die u.a. untersuchen soll, ob ein Unterschied hörbar ist, überhaupt auf die Idee kommen, die Antwort "kein Unterschied" weg zu lassen?! Forced-Choice-Ansätze sind sinnvoll, wenn die Ausweich-Antwort sich auf etwas irrelevantes bezieht. Z.B.: "Hätten sie lieber einen BMW, einen Mercedes oder einen Audi?" Da ist es evtl. hilfreich bzw. sinnvoll, die Antwortmöglichkeit "Keines der drei" weg zu lassen. Aber doch nicht, wenn der Möglichkeit "Kein Unterschied" eine zentrale Rolle bezüglich der aufgestellten Hypothese zukommt.

So langsam bekomme ich das Gefühl, mein sarkastischer Kommentar in Beitrag #373 ist gar nicht so abwegig.

[Beitrag von Pigpreast am 05. Nov 2013, 01:10 bearbeitet]

Amperlite
Inventar

#379 erstellt: 04. Nov 2013, 14:27

Pigpreast (Beitrag #378) schrieb:

Wie kann man bei einer Studie, die u.a. untersuchen soll, ob ein Unterschied hörbar ist, überhaupt auf die Idee kommen, die Antwort "kein Unterschied" weg zu lassen?!

Das geht schon. Wenn tatsächlich kein Unterschied hörbar ist, dann müssen sich die Antworten gleichmäßig/zufällig auf die möglichen Antwortmöglichkeiten verteilen und somit kann man es später herausrechnen.
Für eine brauchbare Zuverlässigkeit benötigt das natürlich eine entsprechend hohe Anzahl an Test-Durchgängen.
Meiner Meinung nach ist das mit den üblichen 10-20 Durchgängen nicht zu garantieren und ich würde so einem Fall die Antwortmöglichkeit "Kein Unterschied" drin lassen.

Pigpreast
Inventar

#380 erstellt: 04. Nov 2013, 15:14

Amperlite (Beitrag #379) schrieb:

Pigpreast (Beitrag #378) schrieb:

Wie kann man bei einer Studie, die u.a. untersuchen soll, ob ein Unterschied hörbar ist, überhaupt auf die Idee kommen, die Antwort "kein Unterschied" weg zu lassen?!

Das ist eben, wie einige andere und ich mehrfach darzulegen versuchten, eben nicht so sicher. Die Fifty-Fifty-Verteilung ist ihrerseits eine ebenfalls zu überprüfende Annahme. Sie ist zwar naheliegend, aber keinesfalls selbstverständlich vorhanden. Gut, wenn die Fifty-Fifty-Verteilung bei der Negativ-Kontrolle tatsächlich auftritt, kannst Du die abeichende Antwortverteilung bei den echten Stimuli als vom Kabel verursacht annehmen. Es ist aber bei menschlichen Probanden so gut wie immer mit einem Bias zu rechnen, so dass es in den seltensten Fällen zu einer zufallsartigen Verteilung bei der Negativkontrolle kommt. Dann müsstest Du die ganze Studie in Frage stellen (selbst wenn sie nicht so viele andere Mängel hätte wie die Sturm-Arbeit).

Aber hifi_angel wartet noch auf eine Antwort. Deshalb geh ich erst mal in meine Kemenate zum tippen.

Drexl
Inventar

#381 erstellt: 04. Nov 2013, 16:01

hifi_angel (Beitrag #370) schrieb:

Z.B. würde die Kontrollgruppe das Ergebnis produzieren, sagen wir mal, 35-25-40 und beim "echten" Test käme 20-35-45 raus.

Wie geht es jetzt weiter?

Man bildet ein Konfidenzintervall (z.B. mit -niveau 95%) und überprüft, ob sich die Intervalle der gleichen Antworten überlappen. Da die Stichprobe sehr klein ist (107 Personen) ist das Intervall entsprechend breit. Wenn die gesamte Gruppe (n = 107) auch den Kontrollversuch durchführt, ergeben sich 95%-Intervalle von (auf ganze Zahlen gerundet)

35-25-40: [26-44] - [17-33] - [31-49] bzw.
20-35-45: [12-28] - [26-44] - [36-54]

Nur wenn sich die direkt übereinanderstehenden Intervalle nicht überlappen, können wir mit 95%iger Sicherheit sagen, daß die Testgruppe tatsächlich anders ggü. der Kontrollgruppe gehört hat. Das ist hier aber für keine der drei Antworten der Fall.

Drexl
Inventar

#382 erstellt: 04. Nov 2013, 16:04

Pigpreast (Beitrag #378) schrieb:

Aber doch nicht, wenn der Möglichkeit "Kein Unterschied" eine zentrale Rolle bezüglich der aufgestellten Hypothese zukommt.

Naja, beim ABX-Test muß man sich auch entscheiden. Ein "weiß nicht" gibt es dort nicht.

C-tecx
Stammgast

#383 erstellt: 04. Nov 2013, 16:25

Ein "Weiß nicht" gibt es auch nicht beim Kabeltest. Sondern ein "ich höre keinen Unterschied". Bei einem Test wo dieser Zustand durchaus vorkommen kann, weil bspw. gar kein Kabel getauscht worden ist, ist es doch wenig sinnvoll, wenn der Proband zwangsweise "lügen" muss. Zumal der Test eben prüfen soll, ob man einen Unterschied hört.

Bei dem Auto Test ist es was anderes. Ich muss mich für ein Auto entscheiden auch wenn ich vielleicht gar keins möchte. Ich werde mich dann aber zumindest unterbewusst für eines entscheiden welches mir am liebsten ist. Ich kann aber nicht sagen es gehe um einen Test um zu sehen, wie viele Probanden sich ein neues Auto wünschen und dann als Antwort nur Auswahlmöglichkeiten gebe die zwangsweise ein neues Auto beinhalten. Die Anwort: "ich wünsche mir kein neues Auto" lasse ich also weg.

Ich sehe es ähnlich wie Pigpreast. Die Technik hat sicherlich in bestimmten Testverfahren seine Vorzüge aber für diesen Test (Kabelklang) halte ich die Vorgehensweise für nicht geeignet.

Jakob1863
Gesperrt

#384 erstellt: 04. Nov 2013, 17:17

@ pgpreast,

vielleicht weniger dem Sarkasmus frönen und mit der so gewonnenen Zeit die Literatur durcharbeiten...?!

Wie früher geschrieben, bezeichnet man die "forced-choice-Variante" als kriterienfreie Prozedur, da man auf diese Weise das inherente Kriterienproblem (jede Versuchsperson setzt unwillkürlich einen Schwellwert bei der Entscheidung ob noch gleich oder schon unterschiedlich an) vermeidet.

Die Auswertung zeigt am Ende, ob die Nullhypothese zurückgewiesen werden kann, resp welche Wahrscheinlichkeiten mit den einzelnen Hypothesen verknüpft sind.

Und ja, unterschiedliche Anforderungen führen _selbstverständlich_ zu unterschiedlichen methodischen Ansätzen, biasgeprägte Einschätzungen der jeweiligen Absichten helfen nachvollziehbarerweise nicht wirklich.
Man könnte ja ähnlich süffisant auch anmerken, daß es bei Medizinstudien auch nur darum ginge, eine neue (ähnlich nutzlos bis schädlich wie die ältere) Behandlungsmethode zum höheren Preis als Fortschritt zu verkaufen.

Oder bei der Marktforschung (diesmal hier ähnlich euphemistisch formuliert) sagen, es ginge nur darum das für den Verbraucher beste Produkt herauszuarbeiten.

Das im Vergleich Pharmaziestudien z.B. mit sehr großen Stichprobenumfängen arbeiten, kann man damit begründen, daß auch sehr seltene Nebenwirkungen erfasst werden sollen.
Bei einer Studie, die Präferenz oder Unterschiedlichkeit klären/bestätigen soll, ist dieser Aspekt naturgemäß nicht wichtig.

Eine Kontrollgruppe als verbindliches Element zu fordern ist ebenso zweifelhaft, denn das unterschlägt ja das Vergleichbarkeitsproblem vollkommen. Randomisierung ist ja gut und schön, aber am Ende muß man schon noch nachweisen, daß die beiden Gruppen wirklich überaus ähnlich sind.
Wird die Rechenarbeit wirklich geringer, nur weil die Zahl der Negativkontrolldurchgänge ansteigt?

Daß man dadurch die Anforderungen nochmals eine erhebliches Stück nach oben dreht, liegt auf der Hand.

Ob und wie die Schlußfoglerungen Sturms hinsichtlich der Hypothesen berechtigt sind, ist nach wie vor nicht zu beurteilen, weil uns seins Auswertungskriterien fehlen.
Da bleibt nur, zu schauen, was nach gängigen Verfahren/Kriterien vertretbar ist/wäre.

Die Verknüpfung von Kabelqualität und "audiophiler Aufnahmequalität" ist mE ein Beispiel für eine typische post hoc Hypothese.
Das allerding durch die "wilde" Vermutung zu toppen, daß deshalb auch ein Negativkontrollresultat jeweils vom Musikstück abhängig sein könne, weshalb es zu jedem Stück eine Negativkontrolle geben müsse, ist allerdings ebenso zweifelhaft.

Die Diskussion zeigt aber in jedem Fall, weshalb "Jakob" (einer "ketzerischen" Frage hifi_angels folgend) nicht in der Lage ist, einen "idealen" Test vorzuschlagen- es gibt schlicht keinen _idealen_ Test, der alle Kommentatoren (ahnungslos oder nicht) zufrieden stellen könnte und gleichzeitig auch noch "vernünftig" durchführbar ist.

Gruß

[Beitrag von Jakob1863 am 04. Nov 2013, 17:29 bearbeitet]

bapp
Hat sich gelöscht

#385 erstellt: 04. Nov 2013, 17:27

geht in Ordnung, sowieso, genau....

Aha, ein Rodgau-Kenner...

Nein - eher ein Henscheid-nicht-Kenner!

Amperlite
Inventar

#386 erstellt: 04. Nov 2013, 17:59

Die Diskussion zeigt aber in jedem Fall, weshalb "Jakob" nicht in der Lage ist, einen "idealen" Test vorzuschlagen- es gibt schlicht keinen _idealen_ Test, der alle Kommentatoren (ahnungslos oder nicht) zufrieden stellen könnte und gleichzeitig auch noch "vernünftig" durchführbar ist.

Du machst also gar keinen Vorschlag, weil es den idealen Test nicht geben kann?
Nein, so trivial bist du nicht. Deine Gründe liegen sicherlich woanders.

Oder hast du auch das Musik hören sein lassen, weil es den "idealen" Verstärker nicht geben kann?

#angaga#
Inventar

#387 erstellt: 04. Nov 2013, 18:09

Amperlite (Beitrag #386) schrieb:

...........

Gruß A.

Jakob1863
Gesperrt

#388 erstellt: 04. Nov 2013, 20:38

hifi_angel (Beitrag #377) schrieb:

Es stehen ja noch ein paar Behauptungen "im Wege", angefangen von der sozusagen "versehentlichen" Negativkontrolle über die irgendwie beabsichtigte, aber falsche Negativkontrolle bis hin zu, "Test war sinnlos/nicht valide" weil die Negativkontrolle das bekannte Resultat brachte.

Sind wir uns denn nun einig, daß die Behauptungen nicht korrekt waren?

@ Amperlite,

es war nun einmal kritisiert worden, daß ich keinen "idealen" Test vorschlagen könne; Vorschläge zu sinnvollen Testabläufen oder Modifikationen habe ich forumsübergreifend geradezu ausufernd gepostet.

Gruß

hifi_angel
Inventar

#389 erstellt: 04. Nov 2013, 21:54

Der Test war nicht sinnlos, zumindest für nicht für Herrn Sturm, war der Test doch ein Teil der Magisterprüfung.
Und für uns ist er doch auch dienlich, denke mal an all die Erkenntnisse die durch die Beschäftigung mit diesem Test nun sich einstellen werden.

Der Test war jedoch nicht valide, wie ich aufzeigen konnte.
Und die Behauptung von Herrn Sturm bezüglich der zweiten Hypothese war / ist unrichtig ebenso wie deine Annahmen.

Und warte doch mal ab, viele Wege führen nach Rom.

Und ich habe auch nichts dagegen, wenn du aufgrund deiner Interessenlage weitere Störfeuer anzetteln möchtest oder neue Brandherde legen möchtest.

Du kannst auch gerne die Frequenz erhöhen und ein breiteres Publikum "aktiveren".
Die Konvergenz in der Sache, die Erkenntnis, dass der Test alles andere als ein Indiz für Kabelklang gelten kann, lässt sich aber dadurch nicht (mehr) verhindern. Auch wenn der Test sich für dich erst 12 Jahren nach der Testdurchführung nun doch als Kuckucksei entblößt.

Pigpreast
Inventar

#390 erstellt: 04. Nov 2013, 23:33

Drexl ist mathematisch wesentlich fitter als ich (meine wissenschaftliche Arbeit liegt auch schon ein paar Jährchen zurück und wir hatten damals Statistiker, die diesen Teil der Arbeit für uns erledigt haben) und hat in Beitrag #381 mittels Konfidenzintervallen schon dargelegt, dass sich eine genauere Betrachtung erübrigt. Nichtsdestotrotz möchte ich mein mühsam zwischen zahlreichen Notarzteinsätzen zusammengetipptes Geschreibsel nicht vorenthalten:

hifi_angel (Beitrag #370) schrieb:

Pigpreast (Beitrag #367) schrieb:

hifi_angel (Beitrag #358) schrieb:

Ich brauche also eine neutrale, objektive (vom Menschen unbeeinflussbare, unabhängige) Bezugsgröße!

das nenne ich mal einen innovativen Vorschlag!images/smilies/insane.gif

So innovativ ist der nicht. In medizinischen Wirksamkeitsstudien ist er seit ewigen Zeiten Standard und im Forum habe ich den Vorschlag schon vor Tagen gepostet, aber sei’s drum…

hifi_angel (Beitrag #372) schrieb:

Das Ergebnis der Kontrollgruppe hängt ja sehr stark von der Zusammensetzung der Teilnehmer ab.

Wie das Ergebnis der Untersuchungsgruppe übrigens auch. Nur kommt da eben noch die Kabelwirkung (wenn es denn eine gibt) dazu.

Also der resultierende Bias aller Teilnehmer kann ja von Kontrollgruppe zu Kontrollgruppe erheblich schwanken, was ja dann für dein Modell eine mittlere Katastrophe bedeutet.

Vor allem kann er von Kontroll- zu Untersuchungsgruppe schwanken, was noch eine größere Katastrophe wäre.

Im Idealfall ist die Probandenanzahl der Kontrolluntersuchung genau so groß wie die Probandenanzahl der „echten“ Untersuchung. Die Zuteilung zu den Gruppen erfolgt randomisiert, beispielsweise per Münzwurf, so dass bei hinreichend großer Probandenzahl beide Gruppen hinsichtlich ihrer Zusammensetzung annähernd identisch sind.

Wann ist die Probandenzahl hinreichend groß? Die Frage ist berechtigt, sie stellt sich jedoch generell, wenn du statistisch signifikante Ergebnisse erzielen willst. In medizinischen Studien ist die Anforderung an die Signifikanz, mithin die Probandenzahl meist so hoch, dass man die Vergleichbarkeit von Kontroll- und Interventionsgruppe (nach randomisierter Zuteilung) ohnehin annehmen kann.

hifi_angel (Beitrag #372) schrieb:

Andererseits kann man vor diesem Hintergrund ja auch nicht vorherbestimmen, wie viele Kontrollgruppen man zusammenstellen muss um die maximale Bias-Schwankungsbreite sicher bestimmen zu können, um dann ein Mittelmaß aus dieser Schwankungsbreite als Standard zu übernehmen.

Ich weiß nicht, ob du das Prinzip verstanden hast. Du musst nicht den Bias bestimmen. Du musst nur sicherstellen, dass er in Kontroll- und Untersuchungsgruppe gleich groß ist. Das ist er automatisch, wenn die beiden Gruppen gleichartig sind und die gleiche Versuchsanordnung durchlaufen. Sinn der Übung sind quasi zwei „identische“ Studien, die sich nur in einem einzigen Punkt unterscheiden: Maßnahme vs. Scheinmaßnahme. Wenn du sicher bist, dass das der einzige Unterschied ist, dann kannst Du auch davon ausgehen, dass der Ergebnisunterschied durch die Maßnahme verursacht wurde.

hifi_angel (Beitrag #372) schrieb:

Wenn wir jetzt ausschließlich absolute Hardcore-Holzohren in der Kontrollgruppe hätten, die einfach keinen Unterschied hören wollen, dann käme ja das eine Extremergebnis 100-0-0 raus.

Bei absoluten Hardcore-Goldohren, die aus Prinzip immer einen Unterschied hören, käme das andere Extremergebnis 0-50-50 raus. Die 50-50 deshalb, weil es könnte ja sowohl Kabel 1 sein als auch Kabel2, da die Goldohren ja nicht wirklich was zu hören bekommen in dem Kontrollvorgang.

Der Mittelwert, also wenn wir eine ausgeglichene Gruppe hätten, der Normalzustand, würde demnach 50-25-25 betragen.

Könnte man das nicht auch als Standardansatz verwenden?

Nein. Denn deine Annahme ist hypothetisch. Man kann ja nicht sicher sein, ob es wirklich diese 100%-Goldohren bzw. diese 100%-Holzohren gibt und schon gar nicht, ob die Zwischenstufen dieser beiden Extreme in der Bevölkerung (bzw. in meiner Probandenpopulation oder in dem Klientel, auf die ich die Ergebnisse übertragen will), gleichmäßig verteilt sind.

Ferner gibt es ja wie schon gesagt eine Unzahl anderer Störfaktoren, die das Ergebnis verzerren und an die du vielleicht gar nicht denkst. Wenn du die sicher „ausschalten“ willst, bleibt Dir gar nichts anderes übrig, als über Scheinmaßnahmen-Tests eine Bezugsgröße zu schaffen, mit der Du die Ergebnisse der Maßnahmen-Tests vergleichst. Und dafür brauchst Du die „unbeeinflusste Grundlinie“ gar nicht.

Etwas anderes wäre es, wenn Du Dich für die ganzen Verfälschungen selbst interessierst, die nicht auf die Maßnahme (Kabel) an sich zurückzuführen sind. Wenn Du quasi den Placebo-Effekt an sich untersuchen willst. Dann wäre es evtl. hilfreich, eine Bias-freie Grundverteilung zu kennen. Aber die Untersuchung von nicht erklärbaren Phänomenen führt m. E. ohnehin ins Uferlose, deshalb will ich da gar nicht weiter drauf eingehen.

hifi_angel (Beitrag #370) schrieb:

Also wenden wir deinen Vorschlag mal auf den Test von Herrn Sturm an.

hifi_angel (Beitrag #372) schrieb:

Die erste Angabe steht ja für „man hört keinen Unterschied“, die zweite für „das Kabel 1 klingt besser als 2“ und die dritte Angabe steht ja für „das Kabel 2 klingt besser als 1“.

hifi_angel (Beitrag #370) schrieb:

Z.B. würde die Kontrollgruppe das Ergebnis produzieren, sagen wir mal, 35-25-40 und beim "echten" Test käme 20-35-45 raus.

Wie geht es jetzt weiter?

Ich möchte vorweg schicken, dass der Studienaufbau in einer medizinischen Wirksamkeitsstudie sowieso an einigen Punkten anders wäre, und das deshalb einiges an der gleich folgenden „Auswertung“ hinken wird.

Nichtsdestotrotz:

Nehmen wir an, Kabel 1 wäre das „Standard-Kabel“ und Kabel 2 wäre das „HighEnd-Kabel“. (Ich weiß jetzt nicht mehr, ob es bei Sturm auch so oder andersherum war, da ich auf die Arbeit momentan nicht zugreifen kann. Ist aber auch egal, nehmen wir das jetzt einfach mal an. Die Probanden müssen es übrigens auch nicht wissen - es ist sogar besser, wenn sie es nicht wissen, da man dann die Reihenfolge auch mal wechseln kann, um diesbezügliche Störeffekte auszuschließen – wichtig ist nur, dass die Auswertenden die Antworten den jeweiligen Kabeln zuordnen können.)

Die Untersuchungsgruppe bekommt tatsächlich die beiden verschiedenen Kabel im Wechsel präsentiert, während die Kontrollgruppe immer nur das „Standard-Kabel“ zu hören bekommt, wobei sie jedoch glaubt, ebenfalls verschiedene präsentiert zu bekommen.

Ergebnisse:

(Auch hier, ich bitte um Entschuldigung, habe ich die originalen Sturm-Hypothesen nicht parat)

Zunächst die Hypothese „Das HighEnd-Kabel klingt besser als das Standardkabel.“

Antwortmöglichkeit 3 („das Kabel 2 klingt besser als 1“): In Kontrollgruppe 40%, in Untersuchungsgruppe 45%

(45 - 40) : 40 = 0,13

=> Gegenüber der Kontrollgruppe sagen in der Untersuchungsgruppe 13% mehr Probanden, dass das HighEnd-Kabel besser klingt. (In einer klinischen Studie würde man sagen: Der Wirkstoff zeigt gegenüber Placebo 13% mehr erwünschte Wirkung.)

Antwortmöglichkeit 2 („das Kabel 1 klingt besser als 2“): In Kontrollgruppe 25%, in Untersuchungsgruppe 35%

(35 – 25) : 25 = 0,40

=> Gegenüber der Kontrollgruppe sagen in der Untersuchungsgruppe 40% mehr Probanden, dass das Standard-Kabel besser klingt. (= dass das HighEnd-Kabel schlechter klingt. In einer klinischen Studie würde man sagen: Der Wirkstoff zeigt gegenüber Placebo 40% mehr unerwünschte Wirkung.)

Nun die Hypothese „Es wird in jedem Fall ein Unterschied gehört werden.“

Antwortmöglichkeiten 2 + 3: In Kontrollgruppe 40% + 25% = 65%, in Untersuchungsgruppe 45% + 35% = 80%

(80 – 65) : 65 = 0,23

=> Gegenüber der Kontrollgruppe sagen in der Untersuchungsgruppe 23% mehr Probanden, dass sie einen Unterschied zwischen den Kabeln hören. (Für klinische Studie i.d.R. unerheblich. Für die Klangqualität einer HiFi-Anlage m. E. auch.)

Zu prüfen wäre jetzt noch, ob die Ergebnisse auch statistisch signifikant sind. (Für Statistik-Unkundige: Signifikant sind die Ergebnisse nicht automatisch dann, wenn die Unterschiede eindeutig sind. Genauso wenig muss das Ergebnis nicht-signifikant sein, wenn der zu zeigende Unterschied gering ist. Fehlende Unterschied-Größe kann durch hohe Gesamt-Probandenanzahl ausgeglichen werden. Das Signifikanzniveau kann man mit bestimmten Rechenoperationen der Wahrscheinlichkeitsrechnung bestimmen, wobei man vereinfachend sagen kann: Je höher die Probandenanzahl, desto höher das Signifikanzniveau. Man erhält dann eine Zahl, die angibt, mit wievielprozentiger Wahrscheinlichkeit das Ergebnis auch durch Zufall entstanden sein könnte ["Irrtumswahrscheinlichkeit"], welche logischerweise möglichst klein sein sollte, üblicherweise < 0,05.) Edit: Diesen Teil hat Drexl in Beitrag #381 quasi schon vorweg genommen, wenn auch mittels Konfidenzintervall (welches möglichst groß sein sollte, üblicherweise 95%, was für das vorliegende Beispiel nicht erfüllt wurde).

In einer medizinischen Wirksamkeitsstudie würde man (Signifikanz vorausgesetzt) jetzt noch die „Numbers to treat“ bestimmen, d.h. die Anzahl von Patienten, die ich mindestens behandeln muss, damit statistisch wahrscheinlich mindestens einer die erwünschte Wirkung zeigt. Übertragen auf den Kabeltest könnte man sagen: „Wie viele HiFi-Hörer müssen an ihrer Anlage das Standardkabel gegen das HighEnd-Kabel tauschen, damit wenigstens einer einen besseren Klang empfindet (der nicht nur durch Suggestion etc. verursacht sein würde)?“

Man kann aber auch ohne diese Berechnungen schon sagen, dass das HighEnd-Kabel, wäre es ein Medikament, volle Kanne durchgefallen wäre. Allein schon, weil die Nebenwirkung (empfundene Klangverschlechterung) im Verhältnis zur erwünschten Wirkung (empfundene Klangverbesserung) viel zu groß ist – selbst wenn man in dem Beispiel HighEnd-Kabel und Standard-Kabel vertauscht.

Ohnehin würde man sich bei einer so hohen Placebo-Wirkung fragen, ob die echte Maßnahme es überhaupt wert ist, angewandt zu werden. Aber das ist beim Thema HiFi ja ähnlich.

Gruß

Pigpreast

[Beitrag von Pigpreast am 04. Nov 2013, 23:52 bearbeitet]

Pigpreast
Inventar

#391 erstellt: 05. Nov 2013, 01:18

Drexl (Beitrag #382) schrieb:

Pigpreast (Beitrag #378) schrieb:

Aber doch nicht, wenn der Möglichkeit "Kein Unterschied" eine zentrale Rolle bezüglich der aufgestellten Hypothese zukommt.

Naja, beim ABX-Test muß man sich auch entscheiden. Ein "weiß nicht" gibt es dort nicht.

Guter Einwand. Allerdings ist der

ABX-Test auch völlig anders aufgebaut als die Sturm-Studie und im Prinzip so simpel, dass ich mich frage, wieso man hiervon nicht häufiger etwas hört/liest.

Pigpreast
Inventar

#392 erstellt: 05. Nov 2013, 02:19

Jakob1863 (Beitrag #384) schrieb:

@ pgpreast,

vielleicht weniger dem Sarkasmus frönen und mit der so gewonnenen Zeit die Literatur durcharbeiten...?! 8)

So oft und langanhaltend bin ich doch gar nicht sarkastisch, dass ich in der gewonnen Zeit auch nur einen Bruchteil der von Dir vorgeschlagenen Literatur durcharbeiten könnte.8) Und nach dem enttäuschenden Erlebnis der Lektüre der Sturm-Studie weiß ich meine primär gar nicht mal so geringe Neugier auf die von Dir nun verlinkten Artikel durchaus im Zaum zu halten.

Das im Vergleich Pharmaziestudien z.B. mit sehr großen Stichprobenumfängen arbeiten, kann man damit begründen, daß auch sehr seltene Nebenwirkungen erfasst werden sollen.

Beim primären Wirksamkeitsnachweis spielt das erstmal eine untergeordnete Rolle.

Bei einer Studie, die Präferenz oder Unterschiedlichkeit klären/bestätigen soll, ist dieser Aspekt naturgemäß nicht wichtig.

Nichtsdestotrotz hätte eine höhere Probandenzahl auch bei der Sturm-Studie eher statistisch signifikante Ergebnisse hervorbringen können.

Eine Kontrollgruppe als verbindliches Element zu fordern ist ebenso zweifelhaft...

Ich habe mit Kontrollgruppen-Studien einfach die meiste Erfahrung, will mich da aber gar nicht festbeißen. Vielleicht geht es js tatsächlich mit eingestreuten Negativkontrollen, aber sicher nicht in der Art wie in der Sturm-Arbeit.

...denn das unterschlägt ja das Vergleichbarkeitsproblem vollkommen. Randomisierung ist ja gut und schön, aber am Ende muß man schon noch nachweisen, daß die beiden Gruppen wirklich überaus ähnlich sind.

Dazu habe ich in Beitrag #390 schon etwas geschrieben.

Wird die Rechenarbeit wirklich geringer, nur weil die Zahl der Negativkontrolldurchgänge ansteigt?

Meine diesbezügliche Aussage war dahingehend gemeint, dass ich mit identischen Versuchsabläufen in einer Kontroll- und einer Interventionsgruppe nicht mehr genötigt bin, eine hypothetische "Nulllinie" zu bestimmen, dann den Bias aus der Vielzahl aller möglichen Einflussfaktoren zu ermitteln, um diesen Bias dann aus den gemessenen Werten wieder heraus zu rechnen.

Daß man dadurch die Anforderungen nochmals eine erhebliches Stück nach oben dreht, liegt auf der Hand.

Völlig richtig. Sichere Aussagen haben ihren Preis.

Letztlich muss ich aber auch feststellen, dass Deine Einwände überwiegend einen latent destruktiven Charakter aufweisen. Es geht immer nur darum, etwas in Frage zu stellen, ohne einen konstruktiven Gegenvorschlag. Wenn ein solcher kommt, scheint er meist auch nur dazu zu dienen, etwas anderes in Frage zu stellen oder Deine Diskussionsgegner zu überfordern. Worauf Du letztlich hinaus willst, bleibt im Ungewissen.

Jakob, Jakob, Du bist mir unheimlich. Deine Kommentare zeugen ja (zumindest für den Bereich, den ich überblicken kann) durchaus von Sachverstand, aber könntest Du bitte einmal ein kurzes Statement dazu abgeben, was Dein Standpunkt und Dein eigentliches Anliegen in diesem Thread ist?

Um mit (gutem?) Beispiel voran zu gehen: Mein Standpunkt ist, dass ich bei HiFi bislang auf unumstrittene Dinge vertraue (nachdem ich in vergangener Zeit auch schon Voodoo-ähnlichen HiFi-Produkten erlegen bin), so wie ich mich im sonstigen Leben auch eher nach dem richte, was wissenschaftlich als erwiesen gilt, wohl wissend, dass man sich diesbezüglich auch irren kann. Daher ließe ich mich auch möglicherweise eines besseren überzeugen, sei es durch wissenschaftlich ernstzunehmende Nachweise oder durch ein bloßes Aha-Erlebnis. Mein wesentliches Anliegen ist jedoch, dazu beizutragen, dass zwischen Voodoo-Anhängern und Voodoo-Gegnern eine Verständigung möglich wird. Eine Sprachregelung, die es beiden Seiten ermöglicht, sich mit der Gedankenwelt der jeweils anderen auseinanderzusetzen, zu kommunizieren und sie zu verstehen, ohne zwangsläufig die eigene Sichtweise aufgeben zu müssen.

Und Du?

dommii
Hat sich gelöscht

#393 erstellt: 05. Nov 2013, 02:39

Die Grundsätzlich destruktive Tendenz und sein allgemeiner Standpunkt erklären sich durch den Eintrag in seiner Signatur.

Ich bin absolut kein Fan von Jakobs genereller Diskussionskultur, trotzdem kann ich seinen Ausführungen gegen die "kein Unterschied"-Antwort zum großen Teil zustimmen. Bei entsprechendem Testdesign z.B. als AB-Präferenz-Test kann man innerhalb des Testdurchgangs die Negativkontrolle direkt mit durchführen, indem man nicht wechselt werden Bias-Effekte und/oder unsauberer Testaufbau aufgedeckt. Man hat zwar mehr Arbeit bei der Auswertung, aber nicht das Problem mit der Kontrollgruppe.

[Beitrag von dommii am 05. Nov 2013, 02:41 bearbeitet]

kammerklang
Stammgast

#394 erstellt: 05. Nov 2013, 02:57

hifi-angel schrieb:

Der Test war jedoch nicht valide, wie ich aufzeigen konnte.

Ist ja drollig.
Der Sturm Test selber ist doch genau das Gegenteil: im Rahmen seines Ansatzes valide.
Und genau deshalb lässt sich auch schlußfolgern, dass Sturm eine falsche Schlußfolgerung zieht.
Dass er zu einem falschen Ergebnis kommen will, das seine validen Zahlen in Wahrheit gar nicht signifikant hergeben.
Was Du dagegen aufzeigen konntest ist, wie manche Cranks ticken: renitent behaupten man hätte etwas "gezeigt" obwohl man in Wahrheit nur beharrlich alle trifftigen Gegenargumente ignoriert.
Aber lassen wir das. Es hat keinen Sinn.

kammerklang
Stammgast

#395 erstellt: 05. Nov 2013, 04:41

@dommii:
Zustimmung!

Hätte sich in einem der vielen bisherigen Blindtests ein eindeutiges Ergebnis pro Kabelklang gezeigt, wäre es längst bekannt geworden (und ausgeschlachtet. Z.B. Jakob würde keine Gelegenheit auslassen, seine ausgezeichneten statistischen Fähigkeiten damit zu demonstrieren, es genüsslich vorzurechnen

). Aus den negativen Ergebnissen lässt sich bestenfalls ableiten, dass Kabelklang, falls er doch existiert, nur in so geringem Ausmaß vorkommen kann, das es die bisherigen Tests nicht erfasst haben.

Um auch dieser letzten Möglichkeit auf die Spur zu kommen, könnte man versuchen ausgefeiltere und empfindlichere Testverfahren zu benutzen, wie sie in der Sinnesphysiologie zur Bestimmung von JND's eingesetzt werden. Diese Verfahren sind zwar kontraintuitiv und würden mit Sicherheit von vielen Musikliebhabern als praxisfremd und daher untauglich abgelehnt, ich könnte mir aber vorstellen, dass damit im ein oder anderen Fall tatsächlich minimale hörbare Unterschiede zwischen Kabeln (oder Verstärkern) nachzuweisen wären. (Über deren Praxisrelevanz man dann trefflich streiten könnte, und die, wenn sie tatsächlich vorkommen sollten, wohl kaum etwas mit dem Preis zu tun hätten.)

Statt in eher wenigen und dafür langen Hördurchgängen zum Opfer der eigenen Einbildungskraft zu werden, setzt man bei JND-Tests auf viele schnelle Durchgänge mit erzwungener eindeutiger Antwort, d.h. am besten ohne eine "ich weiß nicht/nehme keinen Unterschied wahr" Option. Mit vielen Durchgängen sprich vielen Zahlen, lässt sich auch viel besser Statistik machen. Der Sturmsche forced-choice Test war daher prinzipiell gar kein schlechter Ansatz, der auch von dem ganzen Hokuspokus (Regale, CDs präparieren usw.) nicht zu beeinträchtigen gewesen wäre. Aber die Empfindlichkeit wäre ohne die unglückliche Ausweichantwort und mit noch mehr und dafür noch kürzeren Durchgängen, bei denen die Teilnehmer dann auch kaum eine Chance hätten sich groß zu synchronisieren, sicher besser gewesen. Und eine bessere statistische Auswertung samt Angabe möglicher Fehlergrenzen hätte ein solcher Test auch verdient. Aber so genau wollte es vermutlich keiner der Beteiligten wissen, und das ist, wahrscheinlich aus guten Gründen, bis heute so geblieben...

[Beitrag von kammerklang am 05. Nov 2013, 04:53 bearbeitet]

8erberg
Inventar

#396 erstellt: 05. Nov 2013, 10:25

Hallo,

na ja, es bleibt dem Jakob ja noch immer die Schreiberei von Fritz Fey aus '"Studio Magazin" von 2008, der ja von der Kabelmafia wie eine tibetanische Gebetsmühle immer wieder gedreht wird...

Dieses Thema hat wieder hübsch gezeigt wie ein Thema von den Goldöhrchen bzw. ihren Dealern verquasselt wird, Nebelbomben geworfen werden und statistische Spitzfindigkeiten aufgerufen werden. Der arme Endverbraucher, der sich auf einen passenden Verkäufer verlässt ist verlassen und viele Euronen ärmer...

Handfestes, konkretes, eindeutig nachweisbares und damit etwas was "greifbar" ist wird von den Kabelheinis auch nicht in 100 Jahren geliefert werden und wäre - wenn wir auch nur eine mögliche Größenordnung annehmen würden - wirklich nicht entscheidend.

Wenn jemand mit dem Klang seiner Anlage unzufrieden ist hat er eine Menge "Baustellen" denen er sich widmen kann, auf die Idee die Kabel anzuguggen käm ich wirklich nur in besonderen Fällen z.B. beim Plattenspieler. Aber auch da schlägt die Kabelmafia grausam zu:, angebliche "High-End"-Kabel versauen beim Laien den Klang weil die Dealer nicht mal die Grundlagen der Phonoübertragung kapiert haben.... selber zuoft erlebt.

Ein Fazit? nö, denn ich erwarte jede Sekunde den Einschlag einer neuen Nebelbombe....

Peter

[Beitrag von 8erberg am 05. Nov 2013, 10:26 bearbeitet]

Pigpreast
Inventar

#397 erstellt: 05. Nov 2013, 10:41

Nachdem ich mich noch einmal mit diversen Testvarianten ohne Ausweichantwortmöglichkeit befasst habe, bin ich gar nicht mehr generell der Ansicht, dass diese Tests für Klangunterschiedsnachweise untauglich sind. Allerdings ist das Fehlen der Ausweichantwort bei den betreffenden Tests meist sogar unabdingbar, damit der Test überhaupt funktionieren kann. Die diesbezügliche Crux an der Sturm-Arbeit ist jedoch, dass sie ursprünglich wohl als ein solcher Ansatz gedacht, war, dann aber eine Ausweichantwort eingefügt wurde, um die Durchführbarkeit nicht zu gefährden. Testteilnehmer hatten sich während der Vortests lautstark zu Wort gemeldet und beschwert, dass es ja gar keinen Unterschied gäbe und so die anderen Testteilnehmer gestört.

Dieses Problem hätte man besser dergestalt behoben, dass man in der Anweisung für die Probanden den simplen Satz eingefügt hätte: "Wenn sie keinen Unterschied hören, kreuzen sie bitte dennoch immer eine der beiden Möglichkeiten an. Dies ist vom Testaufbau so vorgesehen." Dann hätte man den Forced-Choice-Ansatz evtl. weiter verfolgen können. Stattdessen hat man einfach eine Ausweichantwort eingefügt, ohne dem jedoch in anderen Punkten Rechnung zu tragen. D .h. man hat einen möglicherweise etablierten (validierten) Testansatz zerstört, ohne einen anderen validierten Testansatz zu übernehmen. Die Folgen sind hier lang und breit diskutiert worden.

Pigpreast
Inventar

#398 erstellt: 05. Nov 2013, 10:49

dommii (Beitrag #393) schrieb:

Die Grundsätzlich destruktive Tendenz und sein allgemeiner Standpunkt erklären sich durch den Eintrag in seiner Signatur.

Du meinst, gegenaufklärerisch wirken, alles in Frage stellen, möglichst viel Verwirrung stiften, um dann dem Kunden gegenüber als Heilsbringer auftreten zu können? Der Eindruck drängt sich mir auch auf und 8erbergs Beitrag #396 geht ja in die selbe Richtung. Allerdings bin ich immer noch naiv genug zu glauben, dass die wenigsten Menschen so perfide sind, dergleichen in voller Absicht zu tun und sich dessen bewusst zu sein. Meist steckt ja doch eine wie auch immer geartete "Überzeugung" dahinter. Und die, werter Jakob, würde mich jetzt einfach mal interessieren.

Pigpreast
Inventar

#399 erstellt: 05. Nov 2013, 11:18

kammerklang (Beitrag #394) schrieb:

Der Sturm Test selber ist doch genau das Gegenteil: im Rahmen seines Ansatzes valide.

Das bezweifle ich immer noch

Dass er zu einem falschen Ergebnis kommen will

Auch diese Aussage verwirrt mich. Die Ergebnisse, die er vorgibt ermittelt zu haben, können ja größtenteils gar nicht in seinem Interesse liegen. Wieso sollte er sie wollen?

Abschließend (ich werde die nächsten Tage vermutlich wieder ohne Internet sein) kann ich mich jedoch Deinen Ausführungen in Beitrag #395 dahingehend anschließen, dass auch ich glaube: Wenn es wirklich eindeutig Kabelklang-beweisende Tests gegeben hätte, wären die auch nachhaltig so präsentiert worden, dass es darüber keinen Streit mehr gäbe.

Unbewiesenes ist damit noch lange nicht wegbewiesen. Somit ist es weiterhin eine reine Glaubensfrage. Ich persönlich glaube nicht an Unbewiesenes, da es jeweils nur eine Erklärung von einer unendlichen Anzahl weiterer möglicher Erklärungen ist. Aber jeder soll nach seiner Facon glücklich werden. Wer gerne an Unbewiesenes glauben möchte und für sich tatsächlich einen höheren Klanggenuss dabei empfindet, soll das tun. Meinethalben soll er auch abstruse Theorien propagieren, die er zur Aufrechterhaltung seines Glaubens braucht. Die lasse ich ihm, da ich jedem Menschen Respekt schuldig bin. Nachvollziehen muss ich sie dennoch nicht.

[Beitrag von Pigpreast am 05. Nov 2013, 17:36 bearbeitet]

Drexl
Inventar

#400 erstellt: 05. Nov 2013, 11:24

kammerklang (Beitrag #394) schrieb:

Dass er zu einem falschen Ergebnis kommen will, das seine validen Zahlen in Wahrheit gar nicht signifikant hergeben.

Naja, einige Testergebnisse sind schon signifikant. Das 95%ige Konfidenzniveau der Tests beträgt zwischen +-8% bis +-10% (Antwortwahrscheinlichkeiten lagen zwischen ~20%/80% und 50%). Wenn man das berücksichtigt, gibt es schon einige Tests, bei denen sich die Antworten "Kabel 1" und "Kabel 2" signifikant voneinander abheben.

Ich habe aber den Testaufbau bereits mehrfach kritisiert: Mehrere Personen nehmen gleichzeitig teil (mit gegenseitiger auch umbewußter Beeinflussung), die Negativkontrolle hätte für alle Tests durchgeführt werden sollen oder wenigstens die Reihenfolge Kabel1/Kabel2 zwischen jeder Zehnergruppe alternieren.

Daß beim Kabelklang ein einfacher ABX-Test "ungeeignet" ist, kann ich ja noch akzeptieren. Schließlich liegen dann noch zusätzliche Steckkontakte und ein pöhses Relais im Signalweg.

dommii
Hat sich gelöscht

#401 erstellt: 05. Nov 2013, 11:55

Pigpreast (Beitrag #399) schrieb:

Somit ist es weiterhin eine reine Glaubensfrage.

Nicht ganz, ohne gesicherte Erkenntnisse auf dem Gebiet der Elektrotechnik könnten wir uns z.B. gerade nicht unterhalten. Von daher gilt im allgemeinen: Wer ungewöhnliches behauptet muss es auch beweisen.

da ich jedem Menschen Respekt schuldig bin.

Respekt muss man sich verdienen, zumindest imho.

stoske
Inventar

#402 erstellt: 05. Nov 2013, 12:25

> Respekt muss man sich verdienen

Respekt sollte man grundsätzlich haben. Vor Allem und Jedem.
Vertrauen muss man sich verdienen.

dommii
Hat sich gelöscht

#403 erstellt: 05. Nov 2013, 13:21

Das sehe ich nicht so. Tolleranz sollte man grundsätzlich zeigen, Grundrechte sollte man jedem zusprechen, aber Respekt muss man sich (nicht nur) bei mir verdienen.

[Beitrag von dommii am 05. Nov 2013, 13:21 bearbeitet]

stoske
Inventar

#404 erstellt: 05. Nov 2013, 13:39

Das könnte ein Grund dafür sein, dass die allgemeine Haltung der
Gesellschaft ziemlich respektlos ist. Interessant wäre dann noch
die Frage, auf welche Art man sich denn "Respekt" verdienen könnte?
Vielleicht kommt man erst dann auf die Idee, dies in Frage zu stellen,
wenn man merkt, dass das gar nicht geht? Und man es nur deshalb
verdient wissen will, um es prinzipiell nicht eingehen zu müssen?

dommii
Hat sich gelöscht

#405 erstellt: 05. Nov 2013, 14:22

Respektloses Verhalten ist etwas anderes als keinen Respekt entgegenbringen. Mein Anstand gebietet mir ... [dank NUBs darf man sich hier selbst etwas anssuchen] zu tollerieren und ignorieren, sie sind immernoch Menschen mit entsprechenden Grundrechten. Sollten sie aber als Nepper in Gebieten wildern die mich tangieren bekommen sie Gegenwind.

Ansonsten kann eine einfache Koexistenz ohne jeglichen Respekt bestehen, diesen muss man sich nunmal (nicht nur) bei mir durch entsprechendes Handeln verdienen, was bei entsprechenden Vorraussetzungen wunderbar klappt.

Deshalb geht auch dein implizierter Vorwurf das ich Respektentgegenbringen prinzipiell nicht eingehen will in die Leere. Es ist nämlich garnicht so schwer sich (nicht nur) bei mir Respekt zu verdienen, wenn man gewisse Verhaltensregeln befolgt.