TDDE16 |
Text Mining, 6 hp
/Text Mining/
För:
CS
D
DAV
IT
U
|
|
Prel. schemalagd
tid: 34
Rek. självstudietid: 126
|
|
Utbildningsområde: Teknik
Huvudområde: Datateknik, Datatvetenskap, Informationsteknologi Nivå (G1,G2,A): A
|
|
Mål:
IUAE-matris
Kurses övergripande mål är att ge en introduktion till kvantitativ analys av text, med speciell fokus på maskininlärningsmetoder för textdokument. Kursdeltagarna ska lära sig de huvudsakliga stegen i kvantitativ textanalys: i) effektiv utvinning av text, ii) lingvistisk processing av text till en form som lämpar sig för iii) statistiska maskininlärningsmetoder som bl a används för iv) textprediktion.
Efter genomgången kurs ska den studerande kunna:
Använda grundläggande metoder för information extraction och information retrieval av textuella data
använda textbehandlingsmetoder för att förbereda textdokument för statistisk modellering
använda relevanta maskininlärningsmetoder för textanalys och korrekt tolka resultaten från en sådan analys
använda maskininlärningsmodeller för textprediktion
utvärdera maskininlärningsmodeller för textanalys
|
|
Förkunskaper: (gäller studerande antagna till program som kursen ges inom, se 'För:' ovan) Matematisk analys; Linjär algebra; Sannolikhetslära och statistisk; Maskininlärning; Grundläggande programmering.
OBS! Tillträdeskrav för icke programstudenter omfattar vanligen också tillträdeskrav för programmet och ev. tröskelkrav för progression inom programmet, eller motsvarande.
|
|
Påbyggnadskurser Bayesianska metoder, SprÃ¥kteknologi
|
|
Organisation: Undervisningen består av föreläsningar, datorlaborationer och ett individuellt projektarbete. Föreläsningar används för att introducera begrepp och teori som studenterna sedan använder i praktisk problemlösning vid och datorlaborationer och i projektarbetet.
|
|
Kursinnehåll: Introduktion och översikt av kvantitativ textanalys med tillämpningar. Informationsutvinning, Web crawling, Information retrieval, Tf-idf, Vektorrumsmodeller, Textbehandling, Bag of words, N-grams, Gleshet och utjämning för texttillämpningar, dokumentklassificering, sentiment analysis, Modelutvärdering, Topicmodeller.
|
|
Kurslitteratur: Bird, S., Klein, E., and Loper, E., Natural Language Processing with Python, Oâ?TReilly, 2009.
Jurafsky, D., Martin, J. H., Speech and Language Processing, 2nd international edition. Pearson, 2008.
|
|
Examination: |
LAB1
PRA1
|
Datorlaborationer (U,G) Projekt (U,3,4,5) |
3 hp 3 hp
|
|
|
UPG1 består av datorlaborationer som prövar studenternas förmåga att omsätta teoretisk kunskap till praktisk problemlösning inom text mining.
PRA1 är ett individuellt projektarbete där kursdeltagaren löser ett verkligt problem med textanalys. Projektet dokumenteras och utvärderas i form av en skriftlig projektrapport. |
|