분류 전체보기
-
2020.07.15 진행단계진행단계 2020. 7. 15. 19:04
1. 중복 데이터 제거 - 상호의 대부분이 지점명을 포함하고 있음. - 지점명을 상호명에서 뺀 후 겹치는 상호명을 제거 - 지점명이 따로 데이터화 안되어 있는 경우 분류하지 못하는 문제 발생 2. 상호명에 쓰인 글자 카탈로그화 - 2275개의 글자, 유니코드 순으로 정렬(아마도) - 각종 특수기호(띄어쓰기 포함), 외국어(영어, 일본어, 한자) 포함 - 자주 쓰이지 않는 글자(예: 랖, 뷴, 딪 등등)의 경우 sigmoid함수를 통해 확률을 극단적으로 낮추고 자주 쓰이는 글자의 경우 확률을 보다 높히고 글자들 간의 확률 밀도를 좁게 만들 예정 3. 상호 데이터 db화 - 상호데이터를 sql 데이터베이스에 저장
-
2020.07.10 1차 회의록회의록 2020. 7. 10. 18:10
1. 스터디 2. 기능설계 3. 정기 회의 일정 선정 4. 개발 일정 및 역할 재분담 5. 회식메뉴 1. 스터디 - 머신러닝 개요 및 딥러닝 기초 이론 스터디 - RNN 기초이론 스터디 2. 기능설계 2.1 한글 임베딩 - Training Set의 글자를 카탈로그화 후 유니코드 순으로 One-hot Encoding하여 Model의 input으로 사용(약 1by10,000 크기 예상) 2.2 업종분류코드 활용 방안 및 임베딩 - 대, 중, 소로 총 3가지 계층으로 표현되므로 업종 간의 유사도를 벡터화하여 활용 - 임베딩의 기준은 추후 선정 예정 2.3 기존 데이터에 분위기 attribute 추가 - 웹을 제작하여 기존 데이터를 사용자에게 보여주고 데이터의 분위기를 사용자에게서 받음 3. 정기회의 일정 선정..