Statistik

Design Patterns, Erklärungen zu Algorithmen, Optimierung, Softwarearchitektur
Forumsregeln
Wenn das Problem mit einer Programmiersprache direkt zusammenhängt, bitte HIER posten.
Antworten
Stephan Theisgen
Beiträge: 94
Registriert: 29.07.2003, 11:13

Statistik

Beitrag von Stephan Theisgen »

Hi!

Ich habe folgendes Problem:
Angenommen ich habe zwei Gruppen, sagen wir mal Frauen und Männer, und ich kenne die Verteilung der Größe der Frauen (Normalverteilung, Mittelwert und Standardabweichung gegeben) und die Verteilung der Größe der Männer (das gleiche gegeben). Wenn ich jetzt von einer Person nur ihre Größe kenne, wie berechne ich dann die Wahrscheinlichkeit, dass es sich um einen Mann bzw. um eine Frau handelt (wir gehen mal davon aus, dass sich die Größenverteilungen geschlechterspezifisch unterscheiden).

Ich hätte jetzt gerne eine Funktion (die mir schnell, muß in Echtzeit gehen) sagt bei der Person handelt es sich mit 78%iger Warscheinlichkeit um eine Frau und zu 12%iger Wahrscheinlichkeit um einen Mann.

Das kann nicht so kompliziert sein, und ich weiß auch, dass ich das schon mal konnte. Aber meine Statistikkenntnisse sind etwas eingerostet.

Ich hoffe mir kann hier jemand weiterhelfen.

Viele Grüße
Stephan
Zuletzt geändert von Chromanoid am 10.05.2011, 13:12, insgesamt 1-mal geändert.
Grund: Symbol gestzt.
Benutzeravatar
Top-OR
Establishment
Beiträge: 330
Registriert: 02.03.2011, 16:32
Echter Name: Jens H.
Wohnort: Esslingen/Dessau
Kontaktdaten:

Re: Statistik

Beitrag von Top-OR »

Das was du suchst, heißt (so vermute ich) k-nearest neighbor algorithm (KNN - nicht mit Künstlichen Neuronalen Netzen verwechseln).

Ich hatte beim Studium sogar mal ein Progarmm zu GENAU diesem Beispiel (Geschlecht anhand Größe und Gewicht bestimmen) gebaut, finde es aber auf die Schnelle nicht.

EDIT: Hahaaa, hier isses, sogar noch mit Folie. Bitte NICHT rumspreaden oder verbreiten - DANKE. Ich werde den Download in ein paar Tagen Offline nehmen. Den Source finde ich leider wirklich nicht mehr...
--
Verallgemeinerungen sind IMMER falsch.
Benutzeravatar
Chromanoid
Moderator
Beiträge: 4261
Registriert: 16.10.2002, 19:39
Echter Name: Christian Kulenkampff
Wohnort: Lüneburg

Re: Statistik

Beitrag von Chromanoid »

Wenn du ne Verteilung hast müsste es (wenn das Geschlecht gleichverteilt ist) immer das Geschlecht sein, bei dem die Wahrscheinlichkeit für die entsprechende Größe höher ist. Du müsstest die Wahrscheinlichkeiten an der entsprechenden Stelle mit ihrer Summe normieren und dann hast du die Wahrscheinlichkeit für das jew. Geschlecht.
Benutzeravatar
Top-OR
Establishment
Beiträge: 330
Registriert: 02.03.2011, 16:32
Echter Name: Jens H.
Wohnort: Esslingen/Dessau
Kontaktdaten:

Re: Statistik

Beitrag von Top-OR »

Oh, es ist nur eine Dimension gegeben, Größe. O_o Ich werd mich erstmal für son Kurs anmelden: "Lesen" oder so. Soll son neumodischer Trend sein. Mal sehen, was da dran ist ... :mrgreen:

@Chromanoid: Du machst es dir wieder schön einfach, was? :-P
--
Verallgemeinerungen sind IMMER falsch.
Stephan Theisgen
Beiträge: 94
Registriert: 29.07.2003, 11:13

Re: Statistik

Beitrag von Stephan Theisgen »

@Top-OR: Vielen Dank und ich werde mir das jetzt mal in Ruhe ansehen. Ich habs runtergeladen, Du kannst also den Link getrost wieder löschen.
Alexander Kornrumpf
Moderator
Beiträge: 2116
Registriert: 25.02.2009, 13:37

Re: Statistik

Beitrag von Alexander Kornrumpf »

Kinder Kinder.

Wenn du
a) P(Geschlecht = weiblich)
b) P(Größe<Wert)
c) P(Größe<Wert | Geschlecht = weiblich)

kennst, sagt dir der Satz von Bayes

P(Geschlecht = weiblich | Größe<Wert) = (P(Größe<Wert | Geschlecht = weiblich) * P(Geschlecht = weiblich)) / P(Größe<Wert)

c) kennst du lt deiner Angabe
b) kannst du leicht ausrechnen weil du auch die Verteilung für Männer kennst (Satz von der totalen Wahrscheinlichkeit)

P(Größe<Wert) = P(Größe<Wert | Geschlecht = weiblich) * P(Geschlecht = weiblich) + P(Größe<Wert | Geschlecht = männlich) * P(Geschlecht = männlich)

a) Müsstest du aus einer Bevölkerungsstatistik bekommen oder wie Chromanoid gesagt hat mit 50% approximieren.

All das gilt natürlich nur wenn es außer Männlich und Weiblich keine Geschlechter kennt.

Zaubern, schätzen oder lernen muss man da gar nichts das alles bekannt ist.

P.S. Das ganze kürzt sich wenn du so willst zu 1/(1+ ( P(Größe<Wert | Geschlecht = männlich) * P(Geschlecht = männlich))/(P(Größe<Wert | Geschlecht = weiblich) * P(Geschlecht = weiblich))) ist gerade ein bisschen blöd im Forum darstellbar. Wenn die Geschlechter gleich wahrscheinlich sind musst du also gar nichts mehr umrechnen.
Benutzeravatar
Top-OR
Establishment
Beiträge: 330
Registriert: 02.03.2011, 16:32
Echter Name: Jens H.
Wohnort: Esslingen/Dessau
Kontaktdaten:

Re: Statistik

Beitrag von Top-OR »

Stephan Theisgen hat geschrieben:@Top-OR: Vielen Dank und ich werde mir das jetzt mal in Ruhe ansehen. Ich habs runtergeladen, Du kannst also den Link getrost wieder löschen.
Gerne, aber, wie hier schon schon gesagt:
Wenn du denn schon die Verteilungsparameter/Wahrscheinlichkeiten hast (was du ja auch sagst), wäre es wirklich sinnvoller, das Ganze rechnerisch/logisch zu bestimmen.


Der von mir gepostetete Ansatz ist eher was, um vorhandene Beispieldaten unter Auswertung mehrerer Kriterien zu durchforsten und danach relativ schnell eine Entscheidung zu treffen.
Ich hatte mich nur tierisch gefreut, da es beim Lesen von "Männer-Frauen-Entscheidungsproblem" und "Statistik" (ich verbinde das Ausbildungsbedingt immer etwas mit Data Mining) plötzlich bei mir ganz laut geklingelt hat: Ding-Dong!

Es stand aber scheinbar keiner draußen ... :-(
--
Verallgemeinerungen sind IMMER falsch.
Benutzeravatar
Chromanoid
Moderator
Beiträge: 4261
Registriert: 16.10.2002, 19:39
Echter Name: Christian Kulenkampff
Wohnort: Lüneburg

Re: Statistik

Beitrag von Chromanoid »

Alexander Kornrumpf hat geschrieben:P.S. Das ganze kürzt sich wenn du so willst zu 1/(1+ ( P(Größe<Wert | Geschlecht = männlich) * P(Geschlecht = männlich))/(P(Größe<Wert | Geschlecht = weiblich) * P(Geschlecht = weiblich))) ist gerade ein bisschen blöd im Forum darstellbar. Wenn die Geschlechter gleich wahrscheinlich sind musst du also gar nichts mehr umrechnen.
Mit Gleichverteilung wird es dann das, was ich Eingangs erwähnt habe ;)
Alexander Kornrumpf
Moderator
Beiträge: 2116
Registriert: 25.02.2009, 13:37

Re: Statistik

Beitrag von Alexander Kornrumpf »

Wird es das? Ich konnte es aus dem was du geschrieben hast nicht herauslesen, bin aber sicher dass du das gleiche gemeint hast, weil es ja auch die Lösung ist :)
Benutzeravatar
Chromanoid
Moderator
Beiträge: 4261
Registriert: 16.10.2002, 19:39
Echter Name: Christian Kulenkampff
Wohnort: Lüneburg

Re: Statistik

Beitrag von Chromanoid »

1/(1+ ( PGM * 0.5)/(PGW * 0.5)) = PGW/(PGW+PGM)

BTW: Was haltet ihr von einem LaTex (&Weitere) Formel zu HTML Konverter in JavaScript? Sollte recht schnell in phpBB einzubinden sein. http://www.mathjax.org/
Alexander Kornrumpf
Moderator
Beiträge: 2116
Registriert: 25.02.2009, 13:37

Re: Statistik

Beitrag von Alexander Kornrumpf »

mit der Formel in der Hand hab ich deinen Prosasatz jetzt verstehen können. Ohne hatte ich keinen Schimmer was du meintest. Naja bisschen Herleitung hat noch niemand geschadet.

(Pro Latex Plugin)
Benutzeravatar
Chromanoid
Moderator
Beiträge: 4261
Registriert: 16.10.2002, 19:39
Echter Name: Christian Kulenkampff
Wohnort: Lüneburg

Re: Statistik

Beitrag von Chromanoid »

Bezüglich meines wirren Satzes und der allg. Herleitung hast du natürlich Recht :)
Antworten