본문 바로가기

분류 전체보기95

오랜만에 시간적 여유가 생겼다. 보호되어 있는 글 입니다. 2021. 7. 16.
Python Pandas 데이터 분석 groupby 사용법 파이썬에서 데이터 분석, 처리를 할 때 많이 팬더스(Pandas) 사용합니다. 그중에서 groupby를 사용해야 하는 경우가 있어 정리를 하게 되었습니다. Python Pandas groupby # 라이브러리 import import pandas as pd import numpy as np DataFrame으로 샘플 데이터 작성 df = pd.DataFrame({ 'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'], 'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'], 'price': [100, 200, 250, 300, 150, 200, 400], 'quantity': [1, .. 2021. 7. 15.
[Python] seaborn 데이터 시각화 총정리 seaborn은 matplotlib 처럼 그래프를 그리는 기능이다. ( matplotlip의 활용에 대해 알고 싶다면 아래 링크를 참고하자.) http://growthj.link/python-matplotlib%ec%9c%bc%eb%a1%9c-%ea%b7%b8%eb%9e%98%ed%94%84-%ea%b7%b8%eb%a6%b4-%eb%95%8c-%ea%bf%80%ed%8c%81/ matplotip으로도 대부분의 시각화는 가능하지만, 최근에는 다음과 같은 이유로 seaborn이 더 많이 쓰인다. 1. seaborn에서만 제공되는 통계 기반 plot 2. 특별하게 꾸미지 않아도 깔끔하게 구현되는 기본 color 3. 더 아름답게 그래프 구현이 가능한 palette 기능 4. pandas 데이터프레임과 높은 호.. 2021. 7. 15.
Seaborn(SNS)를 사용한 파이썬 데이터 시각화 기초 matplotlib Seaborn 홈페이지 데이터 과학을 공부하는 데 있어 필수적인 데이터 시각화에 대해서 공부하도록 하겠습니다. 오늘은 Seaborn 과 matplotlib를 사용하여 데이터를 시각화하는 방법에 대해서 알아보겠습니다. 데이터는 기존 라이브러리에서 제공하는 데이터를 바탕으로 진행하도록 하겠습니다. 데이터에 따른 그래프 우선 데이터의 형태에 따라 어떤 종류의 그래프를 사용하는 것이 좋은지 알아보겠습니다. 1차원 데이터 + 실수값, 실수 분포 플롯 -> 커너밀도, 러그, rugplot, kdeplot, distplot 카테고리별 데이터의 양 확인 -> countplot 다차원 데이터 (변수가 여러 개) -> 2차원 실수형 데이터 : 스캐터 플롯(jointplot) -> 3차원 이상의 실수형 데이터 : pairp.. 2021. 7. 14.
순서도(flowchart) 순서도(flowchart)란 어떠한 일을 처리하는 과정을 순서대로 간단한 기호와 도형으로 도식화한 것을 의미합니다. 이러한 순서도는 여러 분야에서 프로세스나 문제의 분석, 기획, 디자인, 설계나 관리 등에서 폭넓게 활용되고 있습니다. 순서도 기호 순서도에 사용되는 대표적인 기호는 다음과 같습니다. 단말 순서도의 시작과 끝을 나타냄. 흐름선 순서도 기호 간의 연결 및 작업의 흐름을 표시함. 준비 작업 단계 시작 전 해야 할 작업을 명시함. 처리 처리해야 할 작업을 명시함. 입출력 데이터의 입출력 시 사용함. 의사 결정 비교 및 판단에 의한 논리적 분기를 나타냄. 표시 화면으로 결과를 출력함. 출처 : http://www.tcpschool.com/codingmath/flowchart 2021. 7. 13.
주피터 노트북Jupyter Notebook 매직 명령어 주피터 노트북을 이용하다 보면 파일 처리 등을 위해 파일 탐색기 작업 등을 수행하게 되는데, 이 때 매직(Magic) 명령어를 이용하면 주피터 노트북 상에서 보다 쉽게 사용이 가능합니다. 매직 명령어 설명에 앞서 주피터 노트북에서 프롬프트(Shell)를 이용하는 방법을 간단히 살펴 봅시다. 명령 프롬프트(Shell) 이용하는 방법 코드 셀에서 앞에 '!'를 붙이고 명령 프롬프트에서 사용하는 명령어를 입력하면 됩니다. 예를 들면 IP 구성 확인을 위해서는 코드 셀에 !ipconfig -all 입력 후 코드 셀을 실행(Ctrl + Enter)하면, 명령 프롬프트에서 실행하는 것과 똑같은 결과가 노트북에서 실행되는 것을 볼 수 있습니다. 파이썬을 하면서 import 에러가 발생하면 우리는 pip install.. 2021. 7. 13.
[Python] pass, continue, break 차이점 1. pass : 실행할 코드가 없는 것으로 다음 행동을 계속해서 진행. 2. continue : 바로 다음 순번의 loop를 수행. 3. break : 반복문을 멈추고 loop 밖으로. 출처 : https://chancoding.tistory.com/7 2021. 7. 13.
def함수와 lambda함수 비교 출처 : https://dojang.io/mod/page/view.php?id=2359 2021. 7. 13.
html 태그 정리 https://www.advancedwebranking.com/html/ The average web page from top twenty Google results Apparently, an average web page uses twenty-eight different element types: The twenty-eight elements used on most pages, ordered by appearance frequency: www.advancedwebranking.com egoing님이 WEB1강의에서 소개해주신 사이트입니다. 웹페이지에서 많이 사용되는 태그들의 평균을 낸 사이트인데, 태그 말고도 여러 가지 정보들이 있어 참고하기 좋습니다. 자주 사용되는 HTML tag 통계 이 사이트를 .. 2021. 7. 13.
CSS 선택자) '.class ul ' 과 '.class > ul' 의 차이점 .class ul : class 라는 class 의 모든 ul 하위 선택자에 적용 .class > ul : class 라는 class 의 바로 아래 자식 ul 선택자만 적용 2021. 7. 13.
BeautifulSoup4 크롤링 사용법 정리 1. 라이브러리 설치 터미널에 아래 명령어를 입력하여 라이브러리를 설치합니다. $ pip install beautifulsoup4 이런식으로 설치됨 2. 라이브러리 로딩 및 홈페이지 접속 설치 후 라이브러리를 불러온다. 그리고 접속하고 싶은 주소를 version_url에 넣어서, 해당 홈페이지의 내용을 불러온다. 코드 설명 한글은 url로 인식하지 못하기 때문에 urllib.parse.quote(value) 로 유니코드로 변환 '웹 표준'이라는 한글이 '%EC%9B%B9%20%ED%91%9C%EC%A4%80' 식으로 변경됨 urllib.request.urlopen(version_url) 으로 해당 사이트 로드 BeautifulSoup(html, 'html.parser', from_encoding='utf.. 2021. 7. 13.
데이터 구조 데이터를 책이라고 한다면, 데이터구조는 책을 보관하는 책장이나 서랍 캐비닛 등 에 비유할 수 있다. R에서 주로 사용하는 데이터 구조는 벡터(vector), 데이터프레임(dataframe), 리스트(list) 등 3가지다. 이외에도 매트릭스(matrix)와 어레이(array)가 있다. 5가지 데이터구조를 그림으로 표현하면 다음과 같다 (Figure: 4.1). 1. 벡터 c() 1차원의 데이터구조다. 개별 값(요소)를 1차원의 공간에 배치하는 데이터구조다. c()함수로 벡터를 만든다. ‘c’는 combine 혹은 concatenate로서 값들을 ’결합하다’ 혹은 ’연결시키다’는 의미다. fruit_v 2021. 7. 13.
Python 의 List 와 Tuple List 가장 일반적인 iterable 자료형이라고 했습니다. List는 값을 다루는 부분에 있어 매우 자유롭습니다. List를 만들 때는 아래처럼 대괄호([ ])로 감싸 주고 각 요소들은 쉼표로 구분합니다. l = [] # 빈 리스트 l = [1, 2, 3] # 대괄호로 감싸고, 쉼표로 구분 l = [1, 2, 'hi!'] # 어떤 자료형이든 사용할 수 있음 l = [1, 2, [1, 2, 3]] # 다중 리스트 l.append(4) # 값 추가 print(l) # [1, 2, [1, 2, 3], 4] view rawlist.py hosted with ❤ by GitHub 인덱싱과 슬라이싱 Python에선 List에 접근하기 위해 타 프로그래밍 언어들의 배열 접근 방식과 비슷한 인덱싱이라는 개념을 지원.. 2021. 7. 13.
JSON 이란? JSON(제이슨[1], JavaScript Object Notation)은 속성-값 쌍( attribute–value pairs and array data types (or any other serializable value)) 또는 "키-값 쌍"으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포맷이다. 비동기 브라우저/서버 통신 (AJAX)을 위해, 넓게는 XML(AJAX가 사용)을 대체하는 주요 데이터 포맷이다. 특히, 인터넷에서 자료를 주고 받을 때 그 자료를 표현하는 방법으로 알려져 있다. 자료의 종류에 큰 제한은 없으며, 특히 컴퓨터 프로그램의 변수값을 표현하는 데 적합하다. 본래는 자바스크립트 언어로부터 파생되어 자바스크립트의 구문 형식을 따르.. 2021. 7. 13.
디렉토리(directory) 컴퓨팅에서 파일을 분류하기 위해 사용하는 이름공간 파일 시스템안에서 파일과 다른 하부 디렉토리들로 구성된다. 수많은 컴퓨터에서 디렉토리는 폴더(folder) 또는 카탈로그(catalog)라고도 한다. https://ko.wikipedia.org/wiki/%EB%94%94%EB%A0%89%ED%86%A0%EB%A6%AC 2021. 7. 11.