Back to Question Center
0

Semalt 전문가와 웹 긁기

1 answers:
웹 채취 (web harvesting)라고도하는 웹 스크래핑 (scraping)은 다음을 수행하는 데 사용되는 기법입니다.

웹 사이트에서 데이터를 추출하십시오. 웹 수확 소프트웨어는 HTTP 또는 웹 브라우저를 사용하여 웹에 직접 액세스 할 수 있습니다. 이 프로세스는 소프트웨어 사용자가 수동으로 구현할 수 있지만이 기술은 일반적으로 웹 크롤러 또는 봇을 사용하여 구현되는 자동화 된 프로세스를 수반합니다.

웹 스크래핑은 구조화 된 데이터를 검토 및 검색을 위해 웹에서 로컬 데이터베이스로 복사하는 과정입니다. 여기에는 웹 페이지를 가져 와서 해당 내용을 추출하는 작업이 포함됩니다. 페이지의 내용은 구문 분석, 검색, 재구성 및 데이터를 로컬 저장 장치에 복사 할 수 있습니다.

웹 페이지는 일반적으로 XHTML 및 HTML과 같은 텍스트 기반 마크 업 언어로 만들어지며, 둘 다 텍스트 형태로 유용한 데이터를 포함합니다. 그러나 이러한 웹 사이트 중 상당수는 자동화 된 용도가 아닌 사람의 최종 사용자 용으로 설계되었습니다. 이것이 소프트웨어 스크래핑이 만들어진 이유입니다.

효과적인 웹 스크래핑을 위해 사용될 수있는 많은 기법이있다. 휴먼 카피 앤드 페이스트

때로는 최상의 웹 스크래핑 도구 조차도 교체 할 수 없다. 인간의 수동 복사 및 붙여 넣기의 정확성과 효율성..이것은 주로 웹 사이트가 기계 자동화를 막기위한 장벽을 설정하는 상황에 적용 할 수 있습니다.

2. 텍스트 패턴 매칭

이것은 웹 페이지에서 데이터를 추출하는 데 사용되는 상당히 단순하지만 강력한 접근법입니다. UNIX grep 명령 또는 Python 또는 Perl과 같은 특정 프로그래밍 언어의 정규 표현식 기능을 기반으로 할 수 있습니다.

3. HTTP 프로그래밍

정적 및 동적 웹 페이지 모두에 HTTP 프로그래밍을 사용할 수 있습니다. 소켓 프로그래밍을 사용하면서 HTTP 요청을 원격 웹 서버에 게시하여 데이터를 추출합니다.

4. HTML 구문 분석

많은 웹 사이트는 데이터베이스와 같은 기본 구조 소스에서 동적으로 생성 된 광범위한 페이지 모음을 갖는 경향이 있습니다. 여기에서 유사한 카테고리에 속하는 데이터는 유사한 페이지로 인코딩됩니다. HTML 구문 분석에서 프로그램은 일반적으로 특정 정보 소스에서 이러한 템플릿을 감지하고 해당 내용을 검색 한 다음이를 래퍼 (wrapper)라고하는 제휴 양식으로 변환합니다. 5. DOM 파싱

이 기술에서 프로그램은 Mozilla Firefox 또는 Internet Explorer와 같은 본격적인 웹 브라우저에 내장되어 클라이언트 측 스크립트에서 생성 된 동적 컨텐츠를 검색합니다. 이러한 브라우저는 페이지 일부를 추출 할 수있는 프로그램에 따라 웹 페이지를 DOM 트리로 구문 분석 할 수도 있습니다. 6. Semantic Annotation Recognition

다룰 페이지는 의미있는 마크 업과 주석 또는 메타 데이터를 포함 할 수 있습니다.이 메타 데이터는 특정 데이터 조각을 찾는 데 사용될 수 있습니다. 이러한 주석이 페이지에 삽입 된 경우이 기술은 DOM 구문 분석의 특별한 경우로 볼 수 있습니다. 이러한 주석은 구문 계층으로 구성되어 웹 페이지와 별도로 저장되고 관리 될 수도 있습니다. 스크래퍼는 페이지를 스크랩하기 전에이 레이어에서 명령뿐만 아니라 데이터 스키마도 검색 할 수 있습니다.

5 days ago
Semalt 전문가와 웹 긁기
Reply