-
2020.07.15 진행단계진행단계 2020. 7. 15. 19:04
1. 중복 데이터 제거
- 상호의 대부분이 지점명을 포함하고 있음.
- 지점명을 상호명에서 뺀 후 겹치는 상호명을 제거
- 지점명이 따로 데이터화 안되어 있는 경우 분류하지 못하는 문제 발생
2. 상호명에 쓰인 글자 카탈로그화
- 2275개의 글자, 유니코드 순으로 정렬(아마도)
- 각종 특수기호(띄어쓰기 포함), 외국어(영어, 일본어, 한자) 포함
- 자주 쓰이지 않는 글자(예: 랖, 뷴, 딪 등등)의 경우 sigmoid함수를 통해 확률을 극단적으로 낮추고 자주 쓰이는 글자의 경우 확률을 보다 높히고 글자들 간의 확률 밀도를 좁게 만들 예정
3. 상호 데이터 db화
- 상호데이터를 sql 데이터베이스에 저장
'진행단계' 카테고리의 다른 글
2020.08.06 진행단계 (0) 2020.08.06 2020.07.27 진행단계 (0) 2020.07.27 2020.07.20 진행단계 (2) 2020.07.20