Competitie: Nieuwsgroepen
Bij deze competitie draait het om het classificeren van tekst.Klasse 1 zijn berichten over computer hardware, klasse 2 over auto's en motoren, klasse 3 over politiek.
De features zijn de woorden die meer dan 15 keer voorkomen in de dataset, een feature heeft waarde 1 als het woord in een bericht voor komt, en anders 0. Dit geeft 4672 features. De features zijn gewogen met Inverse Document Frequency, waarbij stopwoorden als "the" een laag gewicht krijgen. Vervolgens zijn de features met Principal component analysis gereduceerd tot 20 features, om zo het zoeken met kNN sneller te maken.
Er zijn 3500 berichten, 1000 in de trainingsset, en 2500 in de testset.
Beoordeling: 75% accuracy, 25% reductie.
Scorebord
( ! ) Warning: count(): Parameter must be an array or an object that implements Countable in /var/www2/cs/live/htdocs/personal/tvanlaarhoven/teaching/2012/rd2/competition.php on line 127 | ||||
---|---|---|---|---|
Call Stack | ||||
# | Time | Memory | Function | Location |
1 | 0.0001 | 393864 | {main}( ) | .../competition.php:0 |
2 | 0.0017 | 431888 | View->write( ) | .../competition.php:286 |
3 | 0.0017 | 431888 | View->write_html( ) | .../Template.php:170 |
4 | 0.0024 | 433704 | View->write_body( ) | .../Template.php:207 |
5 | 0.0024 | 433704 | View->write_competition( ) | .../competition.php:42 |
6 | 0.0024 | 433704 | View->write_scoreboard( ) | .../competition.php:67 |
Team | Datum | Accuracy | op verborgen deel | Reductie | Tijd | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Competitie website Research & Development 2, 2012
Unhandled exception[] operator not supported for strings |