'분류 전체보기' 카테고리의 글 목록 (19 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록분류 전체보기 (137)

PLOD

[Hadoop]Hadoop and HDFS

Hadoop은 비정형 데이터를 관리하기 위해 생겨난 자바기반 프레임워크이다. 정형데이터는 RDBMS가 관리 할 수 있지만 비정형 데이터는 데이터의 크기와 또 그 데이터를 처리하고 보관하기 위한 비용이 크기 때문에 Hadoop이 생겨남 ,Hadoop은 분산처리를 위한 오픈소스 프레임워크이다 -> Hadoop 은 RDBMS와 상호보완적 특징을 가진다 1. 하둡의 장점 1) 오픈소스 프로젝트 -> SW license 비용부담이 적어짐 2) Commodity Hardware 3) Scale - out 아키텍쳐 4) 테이터 복제를 통해 데이터 유실이나 장애 복구 가능 5) 여러 대의 서버에 분산 저장 및 데이터가 자 데이터 분신 저장하고 각 서버에서 동시에 데이터 처리 -> Data Locality - 데이터 근..

computer science/Cloud computing 2022. 11. 2. 14:40

[Cloud computing] definition of Big Data , cloud computing

빅데이터 : 빅데이터는 기존의 데이 터 처리 소프트웨어가 처리하기 힘들정도로 거대하고 복잡한 데이터셋을 말한다 빅데이터의 3요소 1. velocity(속도) : 데이터를 모으고 분석하는 시간이 단축됨, 빠른 속도로 생성되는 디지털 데이터에 대한 실시간 처리와 누적되온 데이터에 대한 장기적인 접근이 필요함 2. volumn(크기) : 어마어마하게 많은 데이터와 데이터 형태들을 제공함, 일반적으로 수십 수백 페타바이트 이상, 기존의 데이터 웨어하우스에서 처리하기 힘들다 - > 분산컴퓨팅 기법 필요 3.variety(다양성) : 다양한 데이터 타입들을 제공함, 정형, 반정형, 비정형 데이터가 있다 1) 정형 : 고정된 필드에 저장되는 데이터, 기존의 데이터와 유사해 쉽게 보관, 분석, 처리 가능 2) 반정형 ..

computer science/Cloud computing 2022. 11. 2. 13:37

[python] slicing(슬라이싱) 기본

슬라이싱은 python에서 배열의 값을 효과적으로 가져올 때 사용한다. 슬라이싱은 Array[시작할 첫번째 인덱스 : 출력할 마지막 순서(번째)] 이다. 결과 : arr이라는 배열이 있을 때 기본형태는 아래와 같습니다 start는 시작 위치이고 end는 슬라이싱을 끝낼위치로 포함하지 않는다. step은 몇개씩 끊어서 가져올지 방향을 정한다. 리스트에 대해 slice[ ]를 활용하면 일부 범위, 조건에 해당하는 원소들을 가져올수 있다. arr[start : end : step] for loop과 굉장히 유사하게 동작하고 start index에서 시작하여 end index 직전까지 step씩 뛰며 전진한다 전체 원소를 뒤집고 싶다면(reverse), start, end를 모두 비우고 step에 -1만 적으면..

개발 공부/Python 2022. 11. 1. 07:33

[DB] Query Processing + query cost

- DBMS 에서 query를 처리하는 과정 1. 입력받은 쿼리를 parser와 translator 가 relational-algebra 형태로 변환한다,(query -> relational - algebra) 2. optimizer가 데이터의 통계정보를 바탕으로 쿼리 실행 계획을 세운다 3. evaluation engine이 세워진 계획을 바탕으로 쿼리를 실행하여 결과를 반환한다. - Query Optimization : 모든 평가 계획 들 중 가장 적은 금액을 선택한다. 가격은 tuple의 개수 , tuple의 사이즈 같은 정보들로 결정된다. - Query Cost : Cpu, network도 가격에 영향을 주지만 영향을 주는 범위가 매우적다 , seek의 개수, seek-cost, block -re..

개발 공부/Database 2022. 10. 30. 14:42

[DB] Normalization(정규화)

- 좋은 디자인 조건 1) 속성간의 관계가 명확 2) 데이터 베이스 중복 해결 3) 데이터베이스 무결성 확립 -Anomaly(이상) 1)insertion Anomaly(삽입이상) : 데이터 삽입 시 의도와 다른 값들도 삽입됨 2)Deletion Anomaly(삭제이상) : 데이터 삭제 시 의도와 다른 값들도 연쇄 삭제 3)Update Anomaly(갱신이상) : 속성값 갱신 시 일부 튜플만 갱신되어 모순 발생 -> 원인은 redundancy(중복) 때문 해결책은 decomposition(분해 : 정규화)이다 . -정규화 : 관계형 데이터 베이스의 설게에서 중복(redundancy)를 최소화(minimize) 하게 데이터를 구조화 하는 프로세스 -Decomposition ex) 학생 엔티티를 학생 엔티티와..

카테고리 없음 2022. 10. 29. 10:30

[DB]실무 데이터 모델링 프로세스

1. 데이터 모델링의 3가지 관점 1) 데이터 관점 : 업무가 어떤 데이터와 관련이 있는지 또는 데이터 간의 관계는 무엇인지 모델링 2) 프로세스관점 : 업무에서 실제 하는 일은 무엇인지 또는 어떻게 해야 하는지에 대해 모델링 하는 방법 3) 상관관점 : 업무가 처리하는 일의 방법에 따라 데이터는 어떻게 영향을 받고 있는지 모델링 하는 방법

개발 공부/Database 2022. 10. 28. 15:37

이전 Prev 1 ··· 16 17 18 19 20 21 22 23 Next 다음

목록분류 전체보기 (137)

PLOD

티스토리툴바