studiehandbok@lith
 

Tekniska högskolan vid Linköpings universitet

 
 
År : 2017
 
TDDE16 Text Mining, 6 hp
/Text Mining/

För:   CS   D   DAV   IT   U  

 

Prel. schemalagd tid: 34
Rek. självstudietid: 126

  Utbildningsområde: Teknik

Huvudområde: Datateknik, Datatvetenskap, Informationsteknologi   Nivå (G1,G2,A): A

  Mål:  IUAE-matris
Kurses övergripande mål är att ge en introduktion till kvantitativ analys av text, med speciell fokus på maskininlärningsmetoder för textdokument. Kursdeltagarna ska lära sig de huvudsakliga stegen i kvantitativ textanalys: i) effektiv utvinning av text, ii) lingvistisk processing av text till en form som lämpar sig för iii) statistiska maskininlärningsmetoder som bl a används för iv) textprediktion.

Efter genomgången kurs ska den studerande kunna:
  • Använda grundläggande metoder för information extraction och information retrieval av textuella data
  • använda textbehandlingsmetoder för att förbereda textdokument för statistisk modellering
  • använda relevanta maskininlärningsmetoder för textanalys och korrekt tolka resultaten frÃ¥n en sÃ¥dan analys
  • använda maskininlärningsmodeller för textprediktion
  • utvärdera maskininlärningsmodeller för textanalys


  •   Förkunskaper: (gäller studerande antagna till program som kursen ges inom, se 'För:' ovan)
    Matematisk analys; Linjär algebra; Sannolikhetslära och statistisk; Maskininlärning; Grundläggande programmering.

    OBS! Tillträdeskrav för icke programstudenter omfattar vanligen också tillträdeskrav för programmet och ev. tröskelkrav för progression inom programmet, eller motsvarande.

      Påbyggnadskurser
    Bayesianska metoder, Språkteknologi

      Organisation:
    Undervisningen består av föreläsningar, datorlaborationer och ett individuellt projektarbete. Föreläsningar används för att introducera begrepp och teori som studenterna sedan använder i praktisk problemlösning vid och datorlaborationer och i projektarbetet.

      Kursinnehåll:
    Introduktion och översikt av kvantitativ textanalys med tillämpningar. Informationsutvinning, Web crawling, Information retrieval, Tf-idf, Vektorrumsmodeller, Textbehandling, Bag of words, N-grams, Gleshet och utjämning för texttillämpningar, dokumentklassificering, sentiment analysis, Modelutvärdering, Topicmodeller.

      Kurslitteratur:
    Bird, S., Klein, E., and Loper, E., Natural Language Processing with Python, Oâ?TReilly, 2009.
    Jurafsky, D., Martin, J. H., Speech and Language Processing, 2nd international edition. Pearson, 2008.


      Examination:
    LAB1 PRA1
    Datorlaborationer (U,G)
    Projekt (U,3,4,5)
    3 hp
    3 hp
     
    UPG1 består av datorlaborationer som prövar studenternas förmåga att omsätta teoretisk kunskap till praktisk problemlösning inom text mining.
    PRA1 är ett individuellt projektarbete där kursdeltagaren löser ett verkligt problem med textanalys. Projektet dokumenteras och utvärderas i form av en skriftlig projektrapport.



    Undervisningsspråk är Engelska.
    Institution: IDA.
    Studierektor: Ann-Charlotte Hallberg
    Examinator:
    Ansvarig programnämnd: Data&Medie

    Engelsk kursplan


    Tekniska högskolan vid Linköpings universitet


    Informationsansvarig: TFK , val@tfk.liu.se
    Senast ändrad: 04/26/2017