Turning DataintoInsighthttps://www.youtube.com/watch?v 6jDjeNJrN14

Peerapong E.(aka. PE)Professional Petroleum EngineerSpecialized in Production OptimizationInventor of Optimization Intellectual PropertyEducation Msc, Petroleum Engineering (Optimization),Texas A&M University [Fulbright Scholarship] Certified Rapidminer AnalystWork Experience PTT Group RD&T Gold Award Team Leader PTTEP, Data Sci Team Leader, PTTEP DigitalTransformation Founder of FB page Elephant DataThailand (ขี่ช้างจับข้ อมูล) Founder of DEXTRACT solution3

Charity Workshop: Battle of Top Data-SciSoftwareFB Page: ขี่ช้างจับข้ อมูลwww.elephant-analytics.com

ที่มาของ charity workshop ��Web scraping Workshop ในระดับ introduction เพื่อช่วยให้ บคุ คลทัว่ �ดสินใจเลือก application ที่เหมาะสม เปรี �ง software หลายๆตัว ในการแก้ ปัญหาแบบเดียวกัน เพื่อดูโครงสร้ างของ programming language และ demoapplication Free event นาเงินบริจาคให้ การกุศลทังหมด้ Slide ทังหมด้จะ upload ให้ ใน FB เพจ ขี่ช้างจับข้ อมูล นะครับFB Page: ขี่ช้างจับข้ อมูลwww.elephant-analytics.com

�นบริ จาคทั้งหมด ไม่หกั ค่าใช้จ่าย บริ �ื่อช่วยซื ้อเครื่ B Page: ขี่ช้างจับข้ �ลูกเหรี ยง เพื่อเป็ ��นใต้ ��ริจาคให้ สตั ว์พกิ าร ที่มลู �สัตว์พกิ าร6www.elephant-analytics.com

Why Programming?FB Page: ขี่ช้างจับข้ อมูลwww.elephant-analytics.com

Programming trendfor new generation8

It will be 3rd language for Thai studentLogical ThinkingCode with drag &drop(Scratch)Basic Programmingwith PythonWrite applicationwith Python9https://www.blognone.com/node/102435

Why is it sohard to startsomething

The very first questions before getting ��จากเรื่ องจริ ง หลายๆครั้งนาย ก. (นามสมมุต)ิ6 months later พี อยากเรียนเขียน 02Read10:05เป็นไงบ้าง 9:05เอาดิ �รียนตัวไหนดีนาย ก. �าจะเรียนเขียน program ไงงานยุ่งว่ะ � T TRead09:14Python � 6R มี function stat เยอะ syntax ไม่ยากRead10:06RapidMiner ทา data sci ได้ไม่ต้องเขียน codeRead10:06แล้วมาทาVisualize Power BI สวยๆ � มีเรียน online 07Read10:07FB Page: ขี่ช้างจับข้ 09:17สึดดดด �ยยยยมาๆ งั้นจัด Workshop สอน Intro phant-analytics.com

Learning curveFB Page: ขี่ช้างจับข้ อมูลhttp://spatial-ecology.net/?p 725www.elephant-analytics.com

WhichApplications toget started?

KDnuggets Poll 20182018 KDnuggets Poll:What software you used forAnalytics, Data Mining, DataScience, Machine Learningprojects in the past 12 months?About lFB Page: ขี่ช้างจับข้ อมูลwww.elephant-analytics.com

“Not competition, but collaboration”

หา อฟฟิ ศวิเคราะห์ ราคาคอนโด ใน กรุงเทพ และ แนวโน้ มราคาในอนาคต

Data Sci WorkflowData collectionData CleaningData MiningVisualizationRequireIntensiveCodingData GeekExpensive VarioussoftwareBusiness UserThis WorkshopGet bigpicture ofworkflow Comparevarioussoftware

Searching Condo Ver 0.4

Searching condo for Thailand 4.0Condo price: Hipflat.comData collectionData CleaningData MiningVisualizationCollect price from all condo with Python web scraping

Scikit Learn in PythonData collectionData CleaningData MiningVisualizationSimple Machine Learning ExampleSame Data set and algorithm, Various Method

Data Cleansing and MiningData collectionData CleaningLinear RegressionData MiningVisualizationMultivariate Linear RegressionSimplified Workflow using Multivariate Linear Regression*Only regression part, no cross-validation, feature engineering *

Every web has it’s own insightCondo price: Hipflat – Sales PriceData Visualization with Power BI

Full loop data analytics workshopData collectionData CleaningData MiningVisualizationData Visualization with Power BI

Our Instructors

ion to the eventWeb Scraping for data preparationMachine Learning ExamplePeerapong09:40Introduction to Rapidminer studioMachine Learning ExampleDr. Eakasit10:20Break10:40Power of Analytics with RMachine Learning ExampleDr. Kanokwan11:20Introduction to Power BIData Visualization and analyticsRapheephan11:50Games (with free gift)12:00FinishFB Page: ขี่ช้างจับข้ อมูลInstructorwww.elephant-analytics.com

Python as an opensource programming26

The Infinity Libraries27

Section#1 Python Python Anaconda Package Introduction Demo : Web Scraping with BeautifulSoup Demo : Multivariate Linear Regression Optional Demo : Web Scraping with Selenium28

Anaconda Package29

Anaconda is Umm, yes it is; but it’s not anaconda we mention here30

Without the interface (IDE)Text file (.py)This is the conventionalway to run PythonRunning script incommand promptการรัน Python แบบดังเดิ้ ม ที่เห็น Geek รันกัน �ี่ง่ายกว่านัน้31

Anaconda is Yes!!!Everyone candevelopOriginallysupportPython, R isadded later Anaconda is a free and open source distribution of the Python and Rprogramming languages for data science and machine learning relatedapplicationsWith anaconda, (most of) Python environment is ready to use That aims to simplify package management and deployment. The Anaconda distribution is used by over 6 million users, and itincludes more than 250 popular data science packages suitable forWindows, Linux, and MacOS.[5]The pre-installed “infinity stones”32

Download Anacondawww.anaconda.com33

Open via Anaconda Navigator34

Open via Anaconda NavigatorWe will use the Jupyternotebook for this workshopFor practical development,recommend Spyder35

Top-Down conventionalstyle codingNotebook Shellstyle codingIDE สองตัวที่จะใช้ ใน class คือ Spyder และ Jupyter เพื่อทาให้ ชีวิตง่ายขึ ้น36

Spyder IDESpyder แบ่งแยก Partition ของการทางาน คล้ ายๆ Rstudio ��ยน R มา)37http://sjbyrnes.com/python/

Jupyter NotebookJupyter จะใช้ เป็ นหลักใน workshop นี ้ จะเน้ นการสอดแทรก Text และ รัน code ทีละ -ssh/

Top-Down conventionalstyle codingNotebook Shellstyle codingเปรี ยบเทียบหน้ าตา Spyder รันรวดเดียวจบ Jupyter รันทีละ cell39

จุดเริ่ �ห์ขอ้ �40

The Fundamental Step of DataTurning Unstructured Data to be Structured41

Python for ScrapingWhat is web scraping?Web scraping is a technique for gathering data or information on web pages. A scraper is ascript that parses an html site. Scrapers are bound to fail in cases of site re-design.As much as there’re many libraries that support web scraping, we will delve into webscraping using python libraries.Why python?Python is one of the most popular languages for web crawling. In this tutorial, I will usebeautiful soup since it is easy and highly uction-to-web-scraping-87edf94ac692Scraping คือการเอา data จาก Website ดึงมาอยูใ่ �รถใช้ งานต่อได้ เช่น Excel, CSV, Text42

Key Idea in this workshopExtractionWeb ้ น Technique ในการดึงข้ �บต่างๆ แล้ วนามาเก็บไว้ ใน Excel โดยใช้ Jupyter Notebook เป็ นตัวช่วย43

Web Scraping in PythonBeautifulSoup Quick Easy toimplement webscraping Entry library for webscrapingFB Page: ขี่ช้างจับข้ อมูลSelenium Automated webtesting automation Can perform humanlike task Can handle web wthjavascriptScrapy Framework for largescale web scrapingwww.elephant-analytics.com

Html code inside the web Right Click at any place on the web page Select inspect element HTML code show upข้ างใน Web ถูกเขียนด้ วย HTML structureFB Page: ขี่ช้างจับข้ อมูลwww.elephant-analytics.com

Workshop Extract multiple elements from Hipflat usingbeautifulsoup libraryFB Page: ขี่ช้างจับข้ อมูลwww.elephant-analytics.com

Let’s do the exerciseSC-14 Hipflat AbstractsFB Page: ขี่ช้างจับข้ อมูลwww.elephant-analytics.com

Export data to Excelwith openpyxl libraryFB Page: ขี่ช้างจับข้ อมูลwww.elephant-analytics.com

Openpyxl libraryOpenpyxl is a Python library for reading andwriting Excel 2010 Xlsx (will use in this workshop) xlsm xltx xltmhttps://openpyxl.readthedocs.io/en/stable/FB Page: ขี่ช้างจับข้ อมูลLibrary เพื่อให้ Python ติดต่อกับ Excelwww.elephant-analytics.com

Idea FlowchartNew URL:For loopfunc Scrape- Input URL- Operation Web scraping- Output Data from webfunc PrintExcel- Input data to be printed- Operation print to excel and saveFB Page: ขี่ช้างจับข้ อมูลwww.elephant-analytics.com

Let’s do the exerciseScraping and save to ExcelSC-15 Hipflat Full LoopFB Page: ขี่ช้างจับข้ อมูลwww.elephant-analytics.com

Machine Learning Project: Condo PricePredictionProj-03 CondoPricePredictionFB Page: ขี่ช้างจับข้ อมูลwww.elephant-analytics.com

Common form of Data MiningUse Correlation to Classify TypeFB Page: ขี่ช้างจับข้ อมูลUse Correlation to predict“Number”www.elephant-analytics.com

Multivariated Linear RegressionLinear RegressionMultivariated Regressiony f(x)y f(x1,x2,x3,x4, )FB Page: ขี่ช้างจับข้ อมูลwww.elephant-analytics.com

Multivariated Linear RegressionModel MatchingInput:- Year BuiltOutput:- Sale Price- Number of Floor- Distance to BTS/MRT Station- Distance to Siam ParagonPrediction- Use the model to predicted sales price of30th floor condo- At predefined location (100 locations)- Year built from 2018 – 2025FB Page: ขี่ช้างจับข้ อมูลwww.elephant-analytics.com

Workshop on Python MultivariatedRegrssionPJ-3A ScikitLearnFB Page: ขี่ช้างจับข้ อมูลwww.elephant-analytics.com

