data mining op OSX

Hallo iedereen,

voor mijn werk maak ik gebruik van SPSS 12 voor windows om in grote database bestanden te grasduinen, rapportages te maken, etc.
Kennen jullie nog andere tools voor MacOSX t.b.v. datamining? Ik weet dat SPSS ook voor MaxOSX verkrijgbaar is (zij het in een lagere versie, nl. 11) Maar wat ik bij SPSS vooral mis, is de mogelijkheid om in gerelateerde tabellen te zoeken: je moet telkens alle variabelen in 1 grote tabel bijeen brengen.
Nu werk ik dus nog op een windhoos, maar wellicht kan ik over naar een powerbook als ik voldoende tools weet voor macosx, dus jullie begrijpen: ik wil deze kans niet voorbij laten gaan!!!

groet!

Misschien kun je iets opzetten aan de hand van PHP en MySQL... Heb je ook gelijk een webgerelateerd. Hoewel je daar misschien niet op zit te wachten. Ik heb er geen grote ervaringen mee, maar het moet zeker kunnen.

Roel

SQL is niet iets waar ik me in wil verdiepen, maar wat ik wel graag zou willen hebben is een tool die SQL-taal kan genereren, zeg maar een soort grafische schil eromheen. Dit soort tools heb je zat voor windhoos, ... maar nu dus nog Mac OSX ...

De datamining paketten Insightfull miner en SAS enterprise miner draaien niet onder OSX. SAS wel onder unix, maar of de module enterprise miner dat ook doet weet ik niet.

MySQL is inprincipe geschikt voor datamining, maar het doet natuurlijk niets anders dan de dataleveren aan een statistisch pakket. Je moet dus een statistisch pakket vinden met een pipeline structuur, dwz de data wordt in brokken verwerkt waarna de resultaten worden samengevoegd, maar dat ken ik niet voor OSX.

Voor kleine datasets kun je R gebruiken, maar dat programma heeft geen pipeline structuur. Alle berekeningen moeten in het werkgeheugen plaatsvinden. Ga er dus van uit dat je een X aantal keer de grootte van je dataset aan geheugen nodig hebt. Je kunt nog behoorlijk grote hoeveelheden aan met een aantal GB geheugen, maar dat grootte van je dataset die je kunt verwerken is eindig.

"pipeline’’ pakketten (als SAS en I-Miner, niet SPSS, S-Plus en R) kunnen in principe oneindig grote hoeveelheden data aan, maar die ken ik niet voor OSX. Ik hoor het graag als er wel mogenlijkheden zijn. Zelf programmeren in PHP is geen optie voor matrix algebra met serieuze hoeveelheden data.

Als je datahoeveelheden dus niet te groot zijn -> R. Wat voor data heb je? Hoeveel rijen / kolommen?

Groet, Arjan

Er is ook Stata voor de Mac OS X. ik weet niet of dat geschikt is. Zelf gebruik ik R, en zal ook nog wel SPSS aanschaffen. Het Department of Statistics in UCLA (www.stat.ucla.edu) gebruikt vrijwel uitsluitend Macs. Zij hebben misschien een idee. Vraag de admin

Voor statistieken is SPSS prima, dat gebruik ik nu ook, maar wellicht is het goed om die universiteit 'ns te mailen.

Het gaat trouwens om bestanden die in tekstformaat liggen tussen de 200 en 500 MB, en tussen de 1,2 en 5 miljoen records. Als ik een sorteeraktie doe op het grootste bestand in SPSS op mijn 1,2 Ghz pentium kan ik ruim 10-15 min. koffie drinken…

groet’n,