-
2020.07.20 진행단계진행단계 2020. 7. 20. 22:25
1. 업종코드 dictionary & Embedding
- 758개의 업종코드(소분류기준)
- 알파벳 순으로 정렬한 뒤 대분류, 중분류에 대한 Score Matrix를 생성.
- SVD를 활용하여 X=USVt형태로 만들고 U행렬 각 행의 0번째 1번째 값을 벡터로 사용.
- 계산한 벡터로 Cosine 유사도를 측정한 결과 대분류만 같아도 유사도가 1(같음)이 나오는 오류 발생.
- 0번째 벡터가 같고 1번째 벡터가 다르나 1번째 벡터의 값이 0번째 벡터에 비해 너무 작은 값이어서 영향을 못주는 것으로 추정.
- 벡터의 크기를 14~16으로 설정할 시 중분류까지 같은 경우 1.0 대분류만 같을경우 약 0.67의 유사도를 보임.
- 13이하일시 중분류 1.0, 대분류 약 0.97의 유사도를 보임.
- 17이상일시 중분류 1.0, 대분류의 경우 -(마이너스)의 값을 보임.
- 의도와는 다르나 14~16에서 제일 작은 14로 결정.
- dictionary상 가까워도 분류가 다르면 유사도는 낮게 나오는 것을 확인.
'진행단계' 카테고리의 다른 글
2020.08.06 진행단계 (0) 2020.08.06 2020.07.27 진행단계 (0) 2020.07.27 2020.07.15 진행단계 (13) 2020.07.15