歡迎來到培訓無憂網(wǎng)! 闁荤姴娲ˉ鎾斥枍閵夈劊浜归柨鐕傛嫹 | 闂佺ǹ绻愮粔鐑藉垂閸屾埃鏋栭柕濞垮劚閺傗偓
課程詳情 學校簡介 學校地址 申請試聽
關鍵詞:python爬蟲培訓多少錢
課程名稱:Python爬蟲及文本分析學術應用
課程類目:Python
課程類型:正式課
授課形式:現(xiàn)場+遠程
免費試聽:是
適合基礎:零基礎學員
上課人數(shù):60
班級名稱:基礎班
上課時間:周一到周日9-18點
開班時間:每月開課
課時數(shù)量:40
本課程致力于講授完整的結構化數(shù)據(jù)、文本數(shù)據(jù)的獲取、存儲、讀取、處理和分析過程,我們期望課程可以幫助到廣大的用戶,包括所有想要使用python編程語言實現(xiàn)數(shù)據(jù)獲取和文本分析的在校師生、以及致力于將數(shù)據(jù)分析與挖掘的價值廣泛運用到實際場景的商業(yè)人士。
不再單一依靠開源公開數(shù)據(jù)網(wǎng)站的數(shù)據(jù),適當擺脫對國 家統(tǒng)計年鑒、wind數(shù)據(jù)庫、知網(wǎng)數(shù)據(jù)的依賴,能夠從更多元的渠道獲取數(shù)據(jù),使用python更高效的處理數(shù)據(jù),并用更前沿的技術分析和挖掘數(shù)據(jù)信息,為我們的科研工作減輕中間工作負擔。
01章概述 爬蟲與文本分析概述
01-01結構化數(shù)據(jù)/文本數(shù)據(jù)的獲取方法概述
01-02高效的編程語言實現(xiàn)結構化數(shù)據(jù)處理與文本分析的價值
02章編程基礎
02-01python編程基礎(標準數(shù)據(jù)類型,控制流,自定義函數(shù),類,os文件處理模塊)
02-02python重要數(shù)據(jù)科學計算庫(Numpy,Pandas,Matplotlib,Pyecherts,wordcloud)
03章數(shù)據(jù)獲取
03-01爬蟲基礎(網(wǎng)絡爬蟲簡介,爬蟲的基本原理,HTML 簡介,數(shù)據(jù)存儲)
03-02網(wǎng)頁抓�。ㄊ褂� Urllib網(wǎng)頁抓取,requests實戰(zhàn))
03-03BeautifulSoup4(簡介,安裝,BS 對象的種類,遍歷文檔樹,搜索文檔樹)
03-04Xpath(什么是Xpath,Xpath開發(fā)工具,Xpath常用規(guī)則)
03-05動態(tài)渲染頁面抓�。⊿elenium的安裝,基本使用,聲明瀏覽器對象,訪問頁面,定位元素,節(jié)點交互,動作鏈,執(zhí)行 JavaScript,獲取節(jié)點信息,延時等待,前進后退,Cookies,選項卡管理,異常處理)
03-06爬蟲實戰(zhàn)(網(wǎng)站的爬取,基電商評價文本爬�。�
04章數(shù)據(jù)存儲與讀取
04-01可供讀取數(shù)據(jù)類型介紹(excel、pdf、txt、html、mysql數(shù)據(jù)庫文件介紹)
04-02數(shù)據(jù)的存儲(將數(shù)據(jù)存儲到excel表,txt文本,word文檔)
04-03數(shù)據(jù)的讀�。╬ython批量讀取多個多子表excel,python讀取txt文件,word文檔)
05章數(shù)據(jù)處理
05-01正則表達式(什么是正則表達式,正則表達式匹配規(guī)則,re模塊的使用)
05-02文本處理常用方法(字符串的不變性,排序行,段落格式化,二進制轉化為ASCII,重復字詞過濾,提取郵件地址,提取URL地址,大寫轉換,符號化,刪除停用詞,同義詞與反義詞處理,文本翻譯,單詞替換,拼寫檢查,WordNet接口,語料訪問,標記單詞,塊和裂口,塊分類,文本分類,雙字母組,文字改寫,文字換行,頻率分布,文字摘要,詞干算法,約束搜索)
05-03結構化數(shù)據(jù)處理--數(shù)據(jù)清洗(numpy數(shù)值計算要點串講,Pandas數(shù)據(jù)處理串講,python統(tǒng)計圖表展示)
06章文本分析實戰(zhàn)
06-01重要的庫(jieba庫簡介)
06-02關鍵詞提�。P鍵詞任務概述,TF-IDF算法原理,相似文章推薦原理介紹,實例:紅樓夢文本分析的實現(xiàn),文件與詞庫的讀取,完成分詞與詞云圖的繪制)
06-03文本分類(新聞素材介紹,新聞內(nèi)容的關鍵詞提取,詞向量轉化與ngram模型,樸素貝葉斯算法完成新聞分類)