일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 코딩테스트
- 자료구조
- 자바의정석
- BFS
- 항해99
- 코테
- DB
- generic class
- spring
- javascript
- Algorithm
- dfs
- til
- js
- 공개키 암호화
- 알고리즘
- jsp
- 크루스칼
- sql
- JPA
- 99클럽
- 가상컴퓨팅
- dbms
- Queue
- 암호학
- 생성자
- 개발자취업
- python
- Java
- 코딩테스트준비
- Today
- Total
목록분류 전체보기 (137)
PLOD
Hadoop은 비정형 데이터를 관리하기 위해 생겨난 자바기반 프레임워크이다. 정형데이터는 RDBMS가 관리 할 수 있지만 비정형 데이터는 데이터의 크기와 또 그 데이터를 처리하고 보관하기 위한 비용이 크기 때문에 Hadoop이 생겨남 ,Hadoop은 분산처리를 위한 오픈소스 프레임워크이다 -> Hadoop 은 RDBMS와 상호보완적 특징을 가진다 1. 하둡의 장점 1) 오픈소스 프로젝트 -> SW license 비용부담이 적어짐 2) Commodity Hardware 3) Scale - out 아키텍쳐 4) 테이터 복제를 통해 데이터 유실이나 장애 복구 가능 5) 여러 대의 서버에 분산 저장 및 데이터가 자 데이터 분신 저장하고 각 서버에서 동시에 데이터 처리 -> Data Locality - 데이터 근..
빅데이터 : 빅데이터는 기존의 데이 터 처리 소프트웨어가 처리하기 힘들정도로 거대하고 복잡한 데이터셋을 말한다 빅데이터의 3요소 1. velocity(속도) : 데이터를 모으고 분석하는 시간이 단축됨, 빠른 속도로 생성되는 디지털 데이터에 대한 실시간 처리와 누적되온 데이터에 대한 장기적인 접근이 필요함 2. volumn(크기) : 어마어마하게 많은 데이터와 데이터 형태들을 제공함, 일반적으로 수십 수백 페타바이트 이상, 기존의 데이터 웨어하우스에서 처리하기 힘들다 - > 분산컴퓨팅 기법 필요 3.variety(다양성) : 다양한 데이터 타입들을 제공함, 정형, 반정형, 비정형 데이터가 있다 1) 정형 : 고정된 필드에 저장되는 데이터, 기존의 데이터와 유사해 쉽게 보관, 분석, 처리 가능 2) 반정형 ..
슬라이싱은 python에서 배열의 값을 효과적으로 가져올 때 사용한다. 슬라이싱은 Array[시작할 첫번째 인덱스 : 출력할 마지막 순서(번째)] 이다. 결과 : arr이라는 배열이 있을 때 기본형태는 아래와 같습니다 start는 시작 위치이고 end는 슬라이싱을 끝낼위치로 포함하지 않는다. step은 몇개씩 끊어서 가져올지 방향을 정한다. 리스트에 대해 slice[ ]를 활용하면 일부 범위, 조건에 해당하는 원소들을 가져올수 있다. arr[start : end : step] for loop과 굉장히 유사하게 동작하고 start index에서 시작하여 end index 직전까지 step씩 뛰며 전진한다 전체 원소를 뒤집고 싶다면(reverse), start, end를 모두 비우고 step에 -1만 적으면..
- DBMS 에서 query를 처리하는 과정 1. 입력받은 쿼리를 parser와 translator 가 relational-algebra 형태로 변환한다,(query -> relational - algebra) 2. optimizer가 데이터의 통계정보를 바탕으로 쿼리 실행 계획을 세운다 3. evaluation engine이 세워진 계획을 바탕으로 쿼리를 실행하여 결과를 반환한다. - Query Optimization : 모든 평가 계획 들 중 가장 적은 금액을 선택한다. 가격은 tuple의 개수 , tuple의 사이즈 같은 정보들로 결정된다. - Query Cost : Cpu, network도 가격에 영향을 주지만 영향을 주는 범위가 매우적다 , seek의 개수, seek-cost, block -re..
- 좋은 디자인 조건 1) 속성간의 관계가 명확 2) 데이터 베이스 중복 해결 3) 데이터베이스 무결성 확립 -Anomaly(이상) 1)insertion Anomaly(삽입이상) : 데이터 삽입 시 의도와 다른 값들도 삽입됨 2)Deletion Anomaly(삭제이상) : 데이터 삭제 시 의도와 다른 값들도 연쇄 삭제 3)Update Anomaly(갱신이상) : 속성값 갱신 시 일부 튜플만 갱신되어 모순 발생 -> 원인은 redundancy(중복) 때문 해결책은 decomposition(분해 : 정규화)이다 . -정규화 : 관계형 데이터 베이스의 설게에서 중복(redundancy)를 최소화(minimize) 하게 데이터를 구조화 하는 프로세스 -Decomposition ex) 학생 엔티티를 학생 엔티티와..