Metinsel bilgiler üzerinden bilgi çıkarımı ve analizi veri bilimi içerisinde önemli bir başlık olarak belirmektedir.Dijital kanallardan yayılan metin tabanlı mesajların işlenmesi ve çok sayıda dokümandan oluşan kümelerden yararlı bilgi çıkarımı gibi konular metin madenciliğinin önemli motivasyonlarını oluşturmaktadır. Metin madenciliğini diğer veri madenciliğinden ayıran hususların incelenmesi ve genel kapsamının ortaya konulması ile başlayan program, bilgi getirimi (information retrieval) temel kapsamının tanıtımı ile devam etmektedir.
Büyük hacimli metinsel bilgilerin üzerinde efektif arama/tarama/indeksleme ve örüntü keşfine yönelik öne çıkan algoritmalar ve veri yapılarının tanıtımı sonrasında, metin gösterimi konusunda genellikle tercih edilen “kelime dağarcığı” (bag of words) modeli, ve bu modelin temel problemi olan yüksek boyutluluk irdelenmekte, olası yaklaşımlar üzerine bilgi sağlanması amaçlanmaktadır. Doğal dil işleme metin madenciliğinin temel iki konusundan biri olup, program dahilinde bu konunun temel kapsamı tanıtılarak, zorlukları ve sağladığı avantajlar üzerinde durulmaktadır. Türkçe için mevcut doğal dil işleme kaynaklarının gösterimi de bu kapsamda sunulmaktadır.
Metin madenciliğinin en önemli noktalarından biri, öznitelik çıkarımı olup, bu konu için kümeleme ve sınıflandırma dahilinde olası metodların irdelenmesi, ve ilgili algoritmaların tanıtılması gerçekleştirilmekte, sonrasında endüstriyel uygulamalarda ihtiyaç duyulan metin benzerliği (textual similarity) üzerinde bilgi sunulmaktadır. Metin madenciliğinin kullanıldığı örnek senaryolar üzerinde tartışmalar ile program nihayetlenmektedir