ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 2020.07.15 진행단계
    진행단계 2020. 7. 15. 19:04

    1. 중복 데이터 제거

     - 상호의 대부분이 지점명을 포함하고 있음.

     - 지점명을 상호명에서 뺀 후 겹치는 상호명을 제거

     - 지점명이 따로 데이터화 안되어 있는 경우 분류하지 못하는 문제 발생

     

    2. 상호명에 쓰인 글자 카탈로그화

     - 2275개의 글자, 유니코드 순으로 정렬(아마도)

     - 각종 특수기호(띄어쓰기 포함), 외국어(영어, 일본어, 한자) 포함

     - 자주 쓰이지 않는 글자(예: 랖, 뷴, 딪 등등)의 경우 sigmoid함수를 통해 확률을 극단적으로 낮추고 자주 쓰이는 글자의 경우 확률을 보다 높히고 글자들 간의 확률 밀도를 좁게 만들 예정

     

    3. 상호 데이터 db화

     - 상호데이터를 sql 데이터베이스에 저장

    '진행단계' 카테고리의 다른 글

    2020.08.06 진행단계  (0) 2020.08.06
    2020.07.27 진행단계  (0) 2020.07.27
    2020.07.20 진행단계  (2) 2020.07.20
Designed by Tistory.