klObs @ Tuesday, 19. July 2011 um 10:10
pentacast 33: Text information retrieval
★★★★☆
Wie schön wäre es, wenn man sich nicht mehr selbst durch die unzähligen, länglichen Harry Potter Bücher quälen müsste, nur um zu wissen, warum auf 4-chan immer diese Witze über die Nase von Lord Voldemort gemacht werden.
Diesem Problem könnten in Zukunft die Jungs und Mädels aus der Wissenschaft der Text Information Retrieval abhilfe bringen. Sie probieren dem Computer Prosa-Texte zum Frass vorzuwerfen und aus diesen die Informationen für Computer verwertbar zu extrahieren.
Wir freuen uns über Feedback: bitte an mail@c3d2.de, @pentaradio (identi.ca) oder an @pentaradio (twitter) schicken, denten oder tweeten.
Download
- Ogg Vorbis Audio, 52.1 MB
- MPEG-Audio, 74.9 MB
Hören
Shownotes
- WP: Natural Language Processing (NLP)
- WP: Information Retrieval
- WP: Stochastik
- 24C3: Linguistic Hacking: How to know what a text in an unknown language is about?
- WP: Mehrwortterm
- WP: Tagger
- WP: Grammatik
- WP(EN): Brill Tagger
- Tree Tagger
- WP(EN): Chunking
- WP: Phrase
- WP: Named entity
- Word net
- WP: RDF
- WP: OWL
- WP: Michael Ballack
- WP: DBpedia
- WP: SPARQL
- WP: Taxonomie
- WP: Stemming
- WP: Lemmatizing
- Natural Language Toolkit für Python
- Apache OpenNLP
- Apache UIMA
- WP: Hidden Markov Modell
- WP: Log Likelihood
- WP: Morphem
- Porter stemmer
- Tagger for German Language
- Dirk Lewandowski: Web Information Retrieval
3 Comments
Das heißt "retrieval". Mit "ie".
Schlauberger added these pithy words on Tuesday, 19. July 2011 um 19:57Ja, das war wohl ein typo, der sich durchgeschleust hat...
Aus Gründen der Persistenz würde ich den aber jetzt mal drinnen lassen...
klobs added these pithy words on Wednesday, 20. July 2011 um 13:29Hi,
schöner Podcast, sehr interessanter Inhalt. Teilweise ein wenig springend, aber insgesamt ist ein guter Überblick zum Thema gelungen.
koeart added these pithy words on Friday, 22. July 2011 um 10:29