Anmelden

Vollständige Version anzeigen : Diplomarbeit, Excel, und wie ich es hasse



Filzstift
09-03-2015, 12:10
Hallo hallo!
ich schreibe gerade meine Diplomarbeit (endlich alle notwendigen Bewilligungen bekommen, puuuh) auf der Medizin und nein, das wird keine Umfrage;)

Ganz ein praktisches Problem, aber meine Betreuerin ist gerade auf Ausbildung in UK und nicht greifbar.
Folgendes: Ich möchte das Outcome von Nierentransplantationspatienten mit Blick auf Malignome anschauen, praktischerweise sitze ich hier in einem ziemlich großen Transplantzentrum. Unpraktischerweise hat seit der Einführung der elektronischen Datenverarbeitung niemand eine einheitliche Datenbank erstellt. Ich sitze hier nun vor einem guten halben Dutzend Exceltabellen, zusammengestellt von 3 verschiedenen, teilweise bereits nicht mehr hier arbeitenden Ärzten und möchte die wichtigsten Eckdaten daraus zu einer zusammenfassen, die ich dann bearbeiten möchte. an sich kein unmögliches unterfangen, aber bei über 1600 patienten von hand sehr mühsam.

Ich wollte daher fragen: kennt jemand eine zeitsparende möglichkeit, ähnliche Datensätze in Excel zusammenzuführen? trotz unterschiedlicher reihenfolge der Patienten, teilweise fehlenden, teilweise zusätzlichen?
ich weiß, das ist viel, aber ich bin für jeden tipp dankbar. die konsolidierungsfunktion scheint nicht so richtig zu klappen.

Danke!

tempestas
09-03-2015, 12:25
Ohne genauere Darstellung der Datensätze (Aufbau) wird das niemand sagen können. Gibt es einheitliche Anker in den Tabellen (Patientennamen o.ä.?) Sind es eindeutige Anker, oder taucht Lieselotte Schmidt mehrfach auf (als wirklich zwei verschiedene Personen?).

Aber grundsätzlich gibt es im Bereich kleinerer Datenmengen fast nichts, das man mit Excel nicht hinbekommt.

Filzstift
09-03-2015, 12:40
die einzige gemeinsamkeit sind tatsächlich die nachnamen.
ich würde ja einfach zusammenkopieren (hat einiges auch weitergebracht) aber in einigen tabellen fehlen einige namen, einige sind zusätzlich vorhanden, die reihenfolge ändert sich auch. ich kenne mich leider viel zu wenig mit excel aus, sonst könnte ich wahrscheinlich was sinnvolleres damit anstellen.

die fragestellung ist die, dass ich gerne in einer tabelle z.b. die kalte ischämiezeit, CMV infektion ja/nein, expanded criteria donor ja/nein, und so zeugs zusammengefasst hätte, aber die jeweiligen daten befinden sich in unterschiedlichen mappen.

freakyboy
09-03-2015, 12:55
Du könntest die Tabellen die ein bestimmtes Wort bzw. einen bestimmten Wert enthalten durchsuchen und alle entsprechenden Zeilen in eine neue Tabelle kopieren. Bin aber noch gerade unschlüssig, ob das einfach so geht oder ob du dazu ein VBA Skript benötigst. Falls du eins bräuchtest, dann findest du sicherlich online Vorlagen die du dann nur noch auf dein Problem übertragen müsstest.

Fry_
09-03-2015, 13:21
Hast Du access zur Verfügung ? Da kannst du die Dateien, auch einzelne Arbeitsblätter, erstmal einbinden, Dir nen Überblick verschaffen und die Daten dann ggf zusammenschieben/kopieren/mit Scripten verwursten.
So würde ich das machen. Bietet besseren Überblick über Datentypen, Feldnamen etc, als wenn du das dateiweise mit Excel machen musst.

fang_an
09-03-2015, 13:43
puh, interessante frage für das KKB. habe mich gerade gefragt was Fedor da machen würde? sich durchkämpfen oder ein makro schreiben? ...

das einfache sortieren ist zu schwach: Markieren, Daten->Sortieren, oder?
gerade wenn unterschiedliche mappen ... stimmen die zeilen überein?: wenn ja dann alles in einer tabelle kopieren und dann sortieren...

Filzstift
09-03-2015, 14:02
Access ist eine idee, ich schau mal ob ich noch eine kopie habe.
Die Statistikabteilung der Uni bietet nur für angestellte Beratungen an, studierende können nur das Seminar "Einführung in die Datenverarbeitung für Diplomanden" besuchen. Hab ich gemacht, es ging nur um 0815-Aufgaben im SPSS...

Fry_
09-03-2015, 14:44
Access ist eine idee, ich schau mal ob ich noch eine kopie habe.
Die Statistikabteilung der Uni bietet nur für angestellte Beratungen an, studierende können nur das Seminar "Einführung in die Datenverarbeitung für Diplomanden" besuchen. Hab ich gemacht, es ging nur um 0815-Aufgaben im SPSS...

Nu ja, den Kram lernt man tatsächlich am besten über echte Aufgaben.
Vor allem, welches Rangehen wann am ökonomischsten ist, denn irgendwo muss man immer abwägen zwischen Fleißarbeit und Programmlogik - am besten erstmal 50 oder 100 Datensätze per Hand verarbeiten und dabei die Uhr mitlaufen lassen.
Automatisches Splitten von Textfeldern im Stil von "Nachname, Vorname" zu "Nachname" und "Vorname" lässt sich noch halbwegs elegant regeln.
Mit Excel wäre das sowas wie LINKS(A1;FINDEN(",";A1)-1)
Erfahrungsgemäß sind aber ein Haufen Daten dann doch als "Vorname, Nachname" oder "Vorname Nachname" im Datensalat. Auch sowas kann man per Script zumindest auf Knopfdruck lösen lassen, aber Text- bzw arrayoperationen mit VBA sind kein Vergnügen. Wird dann ggf mehr Arbeit zum Scripten als "per Hand".

Andreas Stockmann
09-03-2015, 15:09
Nimm von allen Tabellen die Überschriften Zeile, kopiere sie untereinander.
Erstelle daraus eine Master Überschrift, anschließend kopierst Du.

Damit Du nicht durcheinander kommst, löscht Du von den zu kopierenden Datensätzen (temporär) die "störenden" Spalten, markierst die Zellen der "übrig" gebliebenen Spalte und arbeitest Dich so Stück für Stück durch.

Denn dadurch erhaltenden Datensatz kannst Du dann ganz bequem durch das sortieren nach bestimmten Werten strukturieren. So würde ich anfangen...



CU

tempestas
09-03-2015, 15:22
die einzige gemeinsamkeit sind tatsächlich die nachnamen.
ich würde ja einfach zusammenkopieren (hat einiges auch weitergebracht) aber in einigen tabellen fehlen einige namen, einige sind zusätzlich vorhanden, die reihenfolge ändert sich auch. ich kenne mich leider viel zu wenig mit excel aus, sonst könnte ich wahrscheinlich was sinnvolleres damit anstellen.

die fragestellung ist die, dass ich gerne in einer tabelle z.b. die kalte ischämiezeit, CMV infektion ja/nein, expanded criteria donor ja/nein, und so zeugs zusammengefasst hätte, aber die jeweiligen daten befinden sich in unterschiedlichen mappen.

Datensätze, bei denen die Namen fehlen sind trotzdem verwendbar? Eigentlich sind doch die Namen irrelevant, oder?

Falls du es mit Namen sortieren möchtest, würde ich als erstes alle Namen (sind die immer gleich gelagert, also z.B. "NACHNAME, VORNAME" in einer Zelle, oder sind die auch da variierend?) kopieren und untereinander in eine neue Tabelle ballern. Dann markieren, "data", "remove duplicates", dann sortieren a bis z. Dadurch hast du schonmal eine umfängliche Trigger Basis. Die Datensätze ohne Namen musst du am besten vorher Benamen, sei es "N/A 1-20"...

Sind die Spaltenüberschriften / Köpfe denn gleich in den verschiedenen Tabellen? Damit meine ich nicht die Reihenfolge sondern rein die Überschrift?

Klaus
09-03-2015, 16:20
Such Dir Kontakte zum Informatik-Fachbereich einer grossen Universität, und hol' Dir da Hilfe beim Erstellen einer richtigen Datenbank mit Oracle, Microsoft SQL-Server o.ä. (nix gestümpertes bitte). Das ist eigentlich einfach, aber das predige ich hier bei einem der grössten IT-Unternehmen der Welt auch schon seit Jahren ohne Ergebnis, für bisher mit Excel-Wüsten verwaltete existentiell wichtige Projektdaten.

Prinzipiell kann und sollte man die Excel-Daten der jeweiligen Quellen in ein einheitliches Format mit allen wichtigen Informationen exportieren / übertragen. Und das dann mit geeigneten Skripten in eine gut strukturierte Datenbank mit normalisierten Tabellen und so etwas wie einem durchdachten Datenmodell überführen. Sowas sollte ein Student kurz vor dem Diplom im Grunde in einer guten Woche oder zwei hinbekommen, wobei das komplexer und länger werden kann wenn er auch Bilddaten und dergleichen verwalten soll.

Das ganze dann brauchbar mit Auswertungen und einer Oberfläche unterstützen wird dann wieder eine längere Angelegenheit. Das ist aber ein prima Thema für eine IT-Diplomarbeit, ggf. auch für eine Doktorarbeit wenn man das umfangreicher und grundsätzlicher gestaltet. Alleine wuselst Du Dir da einen Wolf und es kommt nicht viel sinnvolles dabei raus, mit der Gefahr dass Du die Datenbasis verfälschst und zu falschen Ergebnissen kommst. Wenn es um lebende Patienten geht mit potentiell gefährlichen Folgen.

Bei der Aktion aber bitte strikt auf Einhaltung von gesetzlichen Vorgaben zu Datenschutz, Datensicherheit und Perönlichkeitsrechten achten. Die Klarnamen müssen eigentlich als erstes anonymisiert und durch einen numerischen Schlüssel ersetzt werden mit dem man ohne eine vom Rest der DB getrennte Zuordnungstabelle nichts anfangen kann. Rückschlüsse müssen unmöglich sein. Der Name alleine reicht als Schlüssel nicht aus, da muss dann was genaueres her (Name, Geb.-Datum, plus ggf. etwas das wirklich eindeutig ist), insofern man nicht nur eine statistische Erhebung machen möchte. In dem Fall kann man die Klarnamen dann auch einfach verwerfen, so dass man eine komplett anonyme Datenbasis bekommt, was auch rechtlich dann einfacher zu handhaben ist.

Filzstift
09-03-2015, 16:35
Such Dir Kontakte zum Informatik-Fachbereich einer grossen Universität, und hol' Dir da Hilfe beim Erstellen einer richtigen Datenbank mit Oracle, Microsoft SQL-Server o.ä. (nix gestümpertes bitte). Das ist eigentlich einfach, aber das predige ich hier bei einem der grössten IT-Unternehmen der Welt auch schon seit Jahren ohne Ergebnis, für bisher mit Excel-Wüsten verwaltete existentiell wichtige Projektdaten.

Prinzipiell kann und sollte man die Excel-Daten der jeweiligen Quellen in ein einheitliches Format mit allen wichtigen Informationen exportieren / übertragen. Und das dann mit geeigneten Skripten in eine gut strukturierte Datenbank mit normalisierten Tabellen und so etwas wie einem durchdachten Datenmodell überführen. Sowas sollte ein Student kurz vor dem Diplom im Grunde in einer guten Woche oder zwei hinbekommen, wobei das komplexer und länger werden kann wenn er auch Bilddaten und dergleichen verwalten soll.

Das ganze dann brauchbar mit Auswertungen und einer Oberfläche unterstützen wird dann wieder eine längere Angelegenheit. Das ist aber ein prima Thema für eine IT-Diplomarbeit, ggf. auch für eine Doktorarbeit wenn man das umfangreicher und grundsätzlicher gestaltet. Alleine wuselst Du Dir da einen Wolf und es kommt nicht viel sinnvolles dabei raus, mit der Gefahr dass Du die Datenbasis verfälschst und zu falschen Ergebnissen kommst. Wenn es um lebende Patienten geht mit potentiell gefährlichen Folgen.

Bei der Aktion aber bitte strikt auf Einhaltung von gesetzlichen Vorgaben zu Datenschutz, Datensicherheit und Perönlichkeitsrechten achten. Die Klarnamen müssen eigentlich als erstes anonymisiert und durch einen numerischen Schlüssel ersetzt werden mit dem man ohne eine vom Rest der DB getrennte Zuordnungstabelle nichts anfangen kann. Rückschlüsse müssen unmöglich sein. Der Name alleine reicht als Schlüssel nicht aus, da muss dann was genaueres her (Name, Geb.-Datum, plus ggf. etwas das wirklich eindeutig ist), insofern man nicht nur eine statistische Erhebung machen möchte. In dem Fall kann man die Klarnamen dann auch einfach verwerfen, so dass man eine komplett anonyme Datenbasis bekommt, was auch rechtlich dann einfacher zu handhaben ist.

Absolut richtig. Hier auf der Medizin wirst du leider komplett alleingelassen.
Mit diesen exceltabellen will ich sowieso nicht weiter arbeiten, allerdings muss ich erst einmal Ordnung in das ganze zeug bekommen.
Datenschutz ist ganz klar eine selbstverstandlichkeit.

Filzstift
09-03-2015, 16:36
Datensätze, bei denen die Namen fehlen sind trotzdem verwendbar? Eigentlich sind doch die Namen irrelevant, oder?

Falls du es mit Namen sortieren möchtest, würde ich als erstes alle Namen (sind die immer gleich gelagert, also z.B. "NACHNAME, VORNAME" in einer Zelle, oder sind die auch da variierend?) kopieren und untereinander in eine neue Tabelle ballern. Dann markieren, "data", "remove duplicates", dann sortieren a bis z. Dadurch hast du schonmal eine umfängliche Trigger Basis. Die Datensätze ohne Namen musst du am besten vorher Benamen, sei es "N/A 1-20"...

Sind die Spaltenüberschriften / Köpfe denn gleich in den verschiedenen Tabellen? Damit meine ich nicht die Reihenfolge sondern rein die Überschrift?

Leider alles verschieden. Wie gesagt, von unterschiedlichen Oberärzten angelegt. Ich frag mich eh langsam worauf ich mich da eingelassen hab.

Klaus
09-03-2015, 16:43
Mit systematischem Arbeiten ist das grundsätzliche Übertragen von Excel-Daten in eine SQL-Datenbank eine Sache von ein paar Tagen. Schwierig wird erst das Erstellen sinnvoller Auswertungen, Schnittstellen und Weboberflächen o.ä., da kann man sich lange mit beschäftigen.

Klick mich, ich bin ein verwunschener Prinz (https://www.google.de/search?q=Excel+in+SQL+datenbank+%C3%BCbertragen&hl=de)

Fry_
09-03-2015, 17:13
Such Dir Kontakte zum Informatik-Fachbereich einer grossen Universität, und hol' Dir da Hilfe beim Erstellen einer richtigen Datenbank mit Oracle, Microsoft SQL-Server o.ä. (nix gestümpertes bitte). Das ist eigentlich einfach, aber das predige ich hier bei einem der grössten IT-Unternehmen der Welt auch schon seit Jahren ohne Ergebnis, für bisher mit Excel-Wüsten verwaltete existentiell wichtige Projektdaten.
....

So was passiert z.B. , wenn man nen Admin (!) hat der bei den Buchstaben "SQL" Gänsehaut kriegt und was von "Frickelei" nuschelt. Alles schon erlebt.

freakyboy
09-03-2015, 17:16
Was der Bauer nicht kennt... :p

Klaus
09-03-2015, 18:04
Die Technologie ist aus den 80er Jahren und sowas von Standard, und leicht zu verwenden. Klar, um den DB-Server für grosse Datenmengen richtig aufzusetzen muss man ein bischen denken und wissen, das zu benutzen ist aber primitiv. Bei 1600 Einträgen hat man das Problem aber gar nicht, dafür reicht auch MySQL. Aber wie gesagt, das ist ein dankbares IT-Fachthema, und da gibt es ja auch ein Studienfach zu, dann kostet das auch kein Geld. Wir verwalten in einer einfach strukturierten Datenbank übrigens 800 Millionen Transaktionen pro Tag (die Abrechnungsdaten eines bekannten Mobilfunkunternehmens :)), da hat man dann andere Probleme.

Gast
09-03-2015, 20:18
die einzige gemeinsamkeit sind tatsächlich die nachnamen.
ich würde ja einfach zusammenkopieren (hat einiges auch weitergebracht) aber in einigen tabellen fehlen einige namen, einige sind zusätzlich vorhanden, die reihenfolge ändert sich auch. ich kenne mich leider viel zu wenig mit excel aus, sonst könnte ich wahrscheinlich was sinnvolleres damit anstellen.

die fragestellung ist die, dass ich gerne in einer tabelle z.b. die kalte ischämiezeit, CMV infektion ja/nein, expanded criteria donor ja/nein, und so zeugs zusammengefasst hätte, aber die jeweiligen daten befinden sich in unterschiedlichen mappen.

Wenn ich das richtig verstanden habe, hast Du in den verschiedenen Mappen verschiedene Informationen zu den gleichen Patienten. (Wobei nicht alle Patienten in allen Mappen vorkommen).
Da wäre mein erster Ansatz einen Patientenstamm zu erstellen, d.h. eine neue Tabelle, die jeden Patienten nur einmal enthält.
Dann legst Du in dieser Tabelle Spalten an, für die Informationen, die Du hinterher haben willst.
Diese Spalten füllst Du dann aus den Mappen mit den Informationen z.B. mit Verweisfunktionen.
Dazu musst Du einen eindeutigen Schlüssel für jeden Patienten finden (wenn Name, Vorname nicht reicht, z.B. Geburtsdatum). Ideal wäre eine eindeutige Versicherungsnummer oder dergleichen.
Die Schwierigkeit bei Namen als Teil eines Schlüssels sind natürlich unterschiedliche Schreibweisen der gleichen Person.
Da muss man dann am Ende eventuell manuell nachbearbeiten.