진행단계
-
2020.07.20 진행단계진행단계 2020. 7. 20. 22:25
1. 업종코드 dictionary & Embedding - 758개의 업종코드(소분류기준) - 알파벳 순으로 정렬한 뒤 대분류, 중분류에 대한 Score Matrix를 생성. - SVD를 활용하여 X=USVt형태로 만들고 U행렬 각 행의 0번째 1번째 값을 벡터로 사용. - 계산한 벡터로 Cosine 유사도를 측정한 결과 대분류만 같아도 유사도가 1(같음)이 나오는 오류 발생. - 0번째 벡터가 같고 1번째 벡터가 다르나 1번째 벡터의 값이 0번째 벡터에 비해 너무 작은 값이어서 영향을 못주는 것으로 추정. - 벡터의 크기를 14~16으로 설정할 시 중분류까지 같은 경우 1.0 대분류만 같을경우 약 0.67의 유사도를 보임. - 13이하일시 중분류 1.0, 대분류 약 0.97의 유사도를 보임. - 17이..
-
2020.07.15 진행단계진행단계 2020. 7. 15. 19:04
1. 중복 데이터 제거 - 상호의 대부분이 지점명을 포함하고 있음. - 지점명을 상호명에서 뺀 후 겹치는 상호명을 제거 - 지점명이 따로 데이터화 안되어 있는 경우 분류하지 못하는 문제 발생 2. 상호명에 쓰인 글자 카탈로그화 - 2275개의 글자, 유니코드 순으로 정렬(아마도) - 각종 특수기호(띄어쓰기 포함), 외국어(영어, 일본어, 한자) 포함 - 자주 쓰이지 않는 글자(예: 랖, 뷴, 딪 등등)의 경우 sigmoid함수를 통해 확률을 극단적으로 낮추고 자주 쓰이는 글자의 경우 확률을 보다 높히고 글자들 간의 확률 밀도를 좁게 만들 예정 3. 상호 데이터 db화 - 상호데이터를 sql 데이터베이스에 저장