전체 글(394)
-
spark 함수
lambda: 이름 없는 함수 1. map(lamda row: (row.TakeofLocation,1)) -> row라는 이름으로 행을 받아서 key값을 row.TakeofLocation으로 value값을 1로 2. reducebykey(lambda a, b:a+b) -> key값이 같은 a와 b가 들어왔을 때 둘의 key값을 더해라 3. sortBy(lambda r:-r[1]) -> key,value쌍을 r이라 칭하고 1번째 원소는 value , 0번째 원소는 key -> -붙인 이유는 음수로 변환시켜서 내림차순으로 정렬하기 위해 4. RDD에서 한줄씩 읽은 문장을 공백을 기준으로 단어 하나씩 저장하고 싶다면 -> map이 아니라 flatMap함수를 사용해야 한다. -> flatmap(lambda wo..
2023.10.06 -
2. Frequent Itemset Mining & Association Rules
Market-Basket Model items: 마켓에서 파는 물건들 baskets: 각각의 item들의 부분집합 association rules : 예) 우유를 사면 콜라도 사는 경향이 있다. {milk} -> {coke} Frequent Itemsets : 빈번하게 자주 함께 나오는 item들의 집합 support for itemset I : itemset I를 포함하는 basket의 수 -> threshold(임계점) s를 주어, s번 이상 등장해야 frequent itemset이라 부른다. Confidence of association rule : {I}-> {j}의 확률 -> 신뢰도가 높을수록 좋은 연관법칙. conf(I->j) = I와 j를 함께 담고 있는 basket의 수 / I만 담고 있는..
2023.10.05 -
데이터 마이닝- 1. intro
데이터 마이닝 큰 데이터집합으로부터 의미 있는 정보를 추출하는 일 데이터 마이닝 method Descriptive methods: 데이터를 묘사하기 위해 인간이 해석가능한 패턴을 찾는 방법 Predictive methods: 알려지지 않은 것, 미래값을 예측하는 방법 * Issue 1. 네트워크로 데이터를 복사하는 건 오래 걸린다 -> 해결방안 계산을 데이터가 있는 곳으로 보낸다. 데이터를 중복해서 여러 곳에 보관한다. -> 분산 컴퓨팅 spark/Hadoop이 이 문제를 해결할 수 있는 모델 -> 저장 인프라 제공 프로그래밍 모델 제공: MapReduce 2. 만약 노드가 실패한다면, 어떻게 데이터를 영구적으로 보관할까? -> 해결방안 분산 파일 시스템 -> 가능한 패턴 1. 큰 파일 2. 거의 업데이..
2023.09.28 -
3. 지식표현과 추론 -논리
논리 문장들에 대한 추론을 위해 기호를 사용하여 표현하고 기호의 조작을 통해 문장들의 참 또는 거짓을 판정하는 분야 아리스토텔레스- 삼단 논법 부울- 명제 논리 프리게 - 술어 논리 명제 논리 명제: 참, 거짓을 판정할 수 있는 문장 명제를 P,Q와 같은 기호로 표현 명제 기호의 진리값을 사용하여 진리값(T,F) 결정 기본 명제: 하나의 진술로 이루어진 명제 복합 명제: 기본 명제들이 결합되어 만들어진 명제 논리식: 명제를 기호로 표현한 형식 리터럴: 명제 기호 P 또는 명제 기호의 부정 ㄱP 절(clause): 리터럴들이 논리합으로만 연결되거나 논리곱으로만 연결된 논리식 논리곱 정규형(CNF): 논리합 정들이 논리곱으로 연결되어 있는 논리식 논리합 정규형(DNF): 논리곱 절들이 논리합으로 연결되어 있..
2023.09.28 -
3. 지식표현과 추론
데이터 관측된 아직 가공되지는 않은 것 오류나 잡음을 포함 가능 정보 데이터를 가공하여 목적이나 의미를 갖도록 한 것 지식 정보를 취합하고 분석하여 사람이 이해한 것 암묵지: 형식을 갖추어 표현하기 어려운 지식 형식지: 형식을 갖추어 표현될 수 있는 지식 절차적 지식: 문제해결의 절차 기술 선언적 지식: 대상의 성질,특성이나 관계 서술 컴퓨터를 통한 지식 표현 및 처리 - 정형화된 형태로 표 지혜 지식보다 높은 수준의 통찰 규칙 조건부의 지식을 표현하는 IF-THEN 형태의 문장 ~하면, ~하다. IF부분: 조건부(원인, 상황) THEN부분: 결론(결과, 추천, 지시) 규칙을 통한 지식표현 전략: 일련의 규칙들로 표현. 이전 단계의 판정결과에 따라 다음 규칙 결정 휴리스틱: 최적을 항상 보장하지 않고 바..
2023.09.28 -
2. 탐색과 최적화 - 최적화
최적화 : 허용되는 값들 중에서 주어진 기준을 가장 잘 만족하는 것을 선택하는 것 목적함수 : 최소 또는 최대가 되도록 만들려는 함수 1) 조합 최적화 : 주어진 항목들의 조합으로 해가 표현되는 최적화 문제 예) 순회 판매자 문제. 목적함수: 경로의 길이 1-1)대표적인 예 - 유전 알고리즘 : 생물의 진화를 모방한 집단 기반의 확률적 탐색 기법 대표적 진화 연산. *후보해(개체) 표현: 염색체로 *모집단: 동시에 존재하는 염색체들의 집합 *적합도 함수: 후보해가 문제(환경)의 해로서 적합한지를 평가하는 함수 *부모 개체 선택: 높은 적합도의 개체가 새로운 개체를 생성할 확률이 높도록 선택. 적합도에 비례하는 선택확률. *유전 연산자: 새로운 개체 생성 교차(교배) 연산자, 돌연변이 연산자 적용 1-2)..
2023.09.22