스크래핑
-
에러 기록 : Jsoup에러기록 2023. 12. 4. 00:01
에러 코드 C:\Users\xh\.jdks\openjdk-19.0.2\bin\java.exe -XX:TieredStopAtLevel=1 -Dspring.output.ansi.enabled=always -Dcom.sun.management.jmxremote -Dspring.jmx.enabled=true -Dspring.liveBeansView.mbeanDomain -Dspring.application.admin.enabled=true "-Dmanagement.endpoints.jmx.exposure.include=*" "-javaagent:C:\Program Files\JetBrains\IntelliJ IDEA 2022.3.1\lib\idea_rt.jar=49352:C:\Program Files\JetBr..
-
스크래핑 ScrapingSpring Boot 🍃 2023. 12. 4. 00:01
스크래핑은 웹사이트의 정보 데이터를 긁어오는 행위를 말한다. 스크래핑을 잘못하게 될 경우 소송 걸릴 수 있으니 주의 /robots.txt 스크래핑을 하려는 사이트에서 가져가길 원하지 않는 데이터의 접근 uri를 명시해둔 파일이다. 해당 파일에서 Disallow 라고 적혀있는 주소에만 접근하지 않으면 된다. robots.txt 찾는 방법 : url/robots.txt ex : https://finance.yahoo.com/robots.txt ex : https://finance.naver.com/robots.txt Jsoup을 이용한 스크래핑 예시 String url = "https://search.naver.com/search.naver?where=view&sm=tab_jum&query=%EC%8A%A4..