CN105871850A - 爬虫检测方法和系统 - Google Patents

爬虫检测方法和系统 Download PDF

Info

Publication number
CN105871850A
CN105871850A CN201610206481.0A CN201610206481A CN105871850A CN 105871850 A CN105871850 A CN 105871850A CN 201610206481 A CN201610206481 A CN 201610206481A CN 105871850 A CN105871850 A CN 105871850A
Authority
CN
China
Prior art keywords
browser
request
attribute
reptile
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610206481.0A
Other languages
English (en)
Other versions
CN105871850B (zh
Inventor
陈剑
李巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Computer Technology Shanghai Co Ltd
Original Assignee
Ctrip Computer Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Computer Technology Shanghai Co Ltd filed Critical Ctrip Computer Technology Shanghai Co Ltd
Priority to CN201610206481.0A priority Critical patent/CN105871850B/zh
Publication of CN105871850A publication Critical patent/CN105871850A/zh
Application granted granted Critical
Publication of CN105871850B publication Critical patent/CN105871850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1491Countermeasures against malicious traffic using deception as countermeasure, e.g. honeypots, honeynets, decoys or entrapment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了爬虫检测方法和系统,该方法包括:设置客户端与服务器之间的跨域服务类型;客户端的浏览器向服务器发送一数据请求;服务器根据所述数据请求的请求头检测所述浏览器的属性,并根据所述跨域服务类型和所述属性返回一检测脚本,所述检测脚本用于检测所述浏览器的特性;客户端判断所述属性是否与所述浏览器的实际属性相同,若是,客户端运行所述检测脚本,并在所述检测脚本运行失败时将所述数据请求识别为一爬虫;若否,则所述数据请求为一爬虫。本发明能够从浏览器的角度出发,能够检测用任意种类的浏览器来获取服务器端的数据的爬虫,保护了服务器不受非法请求的攻击,节省了服务器资源,降低了网络带宽消耗。

Description

爬虫检测方法和系统
技术领域
本发明涉及互联网中的爬虫检测方法和系统。
背景技术
爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。随着互联网的发展,互联网上的爬虫量日益增加,由于爬虫会伪造用户行为,不断地访问服务器以获取信息,导致爬虫会严重拖慢服务器的响应速度,还会浪费网络带宽,甚至会非法盗取信息,威胁信息财产安全,如爬虫对金融类应用的攻击。而现有技术中反爬虫的方法通常是对爬虫所在的IP(InternetProtocol,互联网协议)地址进行封锁,但这样的封锁行为难以防范分散的多个IP地址的爬虫,现有技术中还通常将服务器端返回的数据进行加密,使得爬虫所在的客户端无法破解返回的数据,但仍然存在一些爬虫开发者通过分析页面的代码来破解该加密算法,从而获得想要的数据。可见,现有技术中的反爬虫的方法仍然无法多方面地检测爬虫。
发明内容
本发明要解决的技术问题是为了克服现有技术中反爬虫的手段单一、且难以更全面更彻底地检测爬虫的缺陷,提供一种爬虫检测方法和系统。
本发明是通过下述技术方案解决上述技术问题的:
一种爬虫检测方法,其特点在于,包括:
S1、设置客户端与服务器之间的跨域服务类型;
S2、客户端的浏览器向服务器发送一数据请求;
S3、服务器根据所述数据请求的请求头检测所述浏览器的属性,并根据所述跨域服务类型和所述属性返回一检测脚本,所述检测脚本用于检测所述浏览器的特性;
S4、客户端判断所述属性是否与所述浏览器的实际属性相同,若是,进入步骤S5,若否,则所述数据请求为一爬虫;
S5、客户端运行所述检测脚本,并在所述检测脚本运行失败时将所述数据请求识别为一爬虫。
本发明通过设置跨域服务类型,使得客户端能够请求不同域的数据,而服务器端能够在响应的信息中携带不同的代码,通过将服务器端检测的浏览器的属性与浏览器的实际属性进行对比,能够检测出伪造了请求头的爬虫,而通过运行服务器端反馈的检测脚本,能够检测出使用浏览器内核模拟器等接近于真实浏览器的特性的浏览器进行访问数据的爬虫。并且,由于服务器端反馈了检测脚本,因此对于爬虫开发者而言,则无法通过分析页面代码的方式来破解服务器端返回的加密的响应消息。而对于分散了IP地址的爬虫,则也无法躲避本申请从浏览器的属性和浏览器本身的特性出发所执行的双重检测拦截,可见,本申请的检测方法从浏览器的角度出发,能够更加全面地、彻底地检测网络内的爬虫。
较佳地,所述服务器内存储有一脚本库,所述脚本库包括若干个浏览器的属性和与每一浏览器的属性对应的至少一检测脚本,步骤S3中根据所述跨域服务类型和所述属性返回一检测脚本为:
S31、服务器根据所述跨域服务类型和所述属性查询所述脚本库以获得与所述属性对应的检测脚本,并在获得的检测脚本中随机抽取一检测脚本以发送至所述客户端。
其中,浏览器的特性包括浏览器的类型和浏览器的版本所支持的功能和具有的性能,比如浏览器的动画播放功能、浏览器的安全性是否较高、浏览器的速度是否较高、浏览器是否能够兼容某些网站内容、标签浏览、内置RSS(一种用来分发和汇集网页内容的扩展性标识语音格式)支持、多会话恢复、网站的缩略图、网页翻译、立体搜索、颜色配置文件支持、网页更新提醒、阅读模式等等。可以理解,检测脚本更多的是针对浏览器的实际属性和检测到的浏览器的属性所形成的不同浏览器之间的功能差异所执行的检测,甚至是针对某个浏览器本身具有的bug(漏洞)所执行的检测。
较佳地,步骤S4中在判断结果为是时还执行以下步骤:
S5a、判断所述请求头的请求次数是否达到一次数阈值,若是,则所述数据请求为一爬虫。
通过对请求次数的判断,能够进一步针对分散IP地址的爬虫进行检测。
较佳地,所述请求头包括客户端的浏览器类型和客户端的浏览器版本,以及包括客户端的硬件平台、客户端的操作系统和客户端的用户偏好中的一项或多项,步骤S3中服务器根据所述数据请求的请求头检测所述浏览器的属性为:
S32、服务器通过NodeJS(是一个基于Chrome V8引擎的JavaScript运行环境,JavaScript是一种直译式脚本语言,V8是一个由丹麦Google开发的开源JavaScript引擎,用于Google Chrome浏览器中)的方式检测所述浏览器的属性。
较佳地,在检测到所述数据请求为一爬虫时还执行以下步骤:
S5b、服务器根据所述数据请求返回一响应消息至客户端的浏览器以显示所述响应消息,所述响应消息包括警告信息或误导信息。
也即,在检测到爬虫时,发出警告以提示非法用户请求获得服务器的数据的行为,或者直接向非法用户返回虚假的数据信息。
较佳地,所述跨域服务类型包括JSONP(是JSON with Padding的略称,它是一个非官方的协议,它允许在服务器端集成Script tags(脚本标签)返回至客户端,通过JavaScript callback(回调函数)的形式实现跨域访问)跨域服务,和/或,所述浏览器的属性包括浏览器的类别和浏览器的版本;
和/或,步骤S3还对所述检测脚本执行压缩混淆操作后将压缩混淆的检测脚本返回至客户端。
本发明还提供一种爬虫检测系统,其特点在于,包括一客户端和一服务器,所述客户端包括一设置模块、一请求模块、一第一判断模块和一运行模块,所述服务器包括一检测模块;
所述设置模块用于设置客户端与服务器之间的跨域服务类型;
所述请求模块用于通过浏览器向服务器发送一数据请求;
所述检测模块用于根据所述数据请求的请求头检测所述浏览器的属性,并根据所述跨域服务类型和所述属性返回一检测脚本,所述检测脚本用于检测所述浏览器的特性;
所述第一判断模块用于判断所述属性是否与所述浏览器的实际属性相同,若是,调用所述运行模块,若否,则所述数据请求为一爬虫;
所述运行模块用于运行所述检测脚本,并在所述检测脚本运行失败时将所述数据请求识别为一爬虫。
较佳地,所述服务器内存储有一脚本库,所述脚本库包括若干个浏览器的属性和与每一浏览器的属性对应的至少一检测脚本,所述检测模块用于根据所述跨域服务类型和所述属性返回一检测脚本为:
所述检测模块用于根据所述跨域服务类型和所述属性查询所述脚本库以获得与所述属性对应的检测脚本,并在获得的检测脚本中随机抽取一检测脚本以发送至所述客户端。
较佳地,所述服务器还包括一第二判断模块,所述第二判断模块用于判断所述请求头的请求次数是否达到一次数阈值,若是,则所述数据请求为一爬虫。
较佳地,所述服务器还包括一响应模块,所述响应模块用于在检测到所述数据请求为一爬虫时根据所述数据请求返回一响应消息至客户端的浏览器以显示所述响应消息,所述响应消息包括警告信息或误导信息。
本发明的积极进步效果在于:本发明能够从浏览器的角度出发,通过对浏览器的属性和浏览器的特性进行检测,能够检测用任意种类的浏览器,包括伪造请求头的浏览器和模拟的浏览器来获取服务器端的数据的爬虫,且通过携带检测脚本,使得爬虫开发者无法通过分析页面代码来获得服务器端返回的加密的响应消息,而对于分散了IP地址的爬虫,也无法躲避本申请从浏览器的属性和浏览器本身的特性出发所执行的双重检测拦截,并且,通过对请求次数的判断,能够进一步加强对分散IP地址的爬虫进行检测。保护了服务器不受非法请求的攻击,节省了服务器资源,降低了网络带宽消耗。
附图说明
图1为本发明实施例1的爬虫检测方法流程图。
图2为本发明实施例2的爬虫检测系统的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种爬虫检测方法,本实施例的应用场景可为:一非法用户使用一台电脑,并通过浏览器IE8访问网站A的酒店价格数据和价格的排列方式数据,如图1所示,图1中的虚线表示两个设备之间进行网络连接,包括:
步骤101、设置客户端与服务器之间的跨域服务类型;
跨域是指,由于浏览器同源策略,凡是发送请求url(Uniform ResoureLocator,统一资源定位符)的协议、域名、端口三者之间任意一与当前页面地址不同即为跨域。
所述跨域服务类型包括JSONP跨域服务,在不产生冲突的情况下,也可设置为CORS(Cross-Origin Resource Sharing跨域资源共享,是一种允许当前域(domain)的资源被其他域的脚本请求访问的机制)跨域服务。
步骤102、客户端的浏览器向服务器发送一数据请求;
该数据请求则为向网站A的服务器访问网站A的酒店价格数据和价格的排列方式的请求,由于该数据请求的载体是建立在客户端和浏览器的基础上的,因此该数据请求内必然携带有客户端和浏览器的信息,该信息通过请求头User-Agent的方式体现,所述请求头包括客户端的浏览器类型和客户端的浏览器版本,以及包括客户端的硬件平台、客户端的操作系统和客户端的用户偏好中的一项或多项。
步骤103、服务器根据所述数据请求的请求头检测所述浏览器的属性,并根据所述跨域服务类型和所述属性返回一检测脚本,所述检测脚本用于检测所述浏览器的特性;
具体地,服务器通过NodeJS的方式检测所述浏览器的属性,所述属性包括浏览器的类别和浏览器的版本,所述服务器内存储有一脚本库,所述脚本库包括若干个浏览器的属性和与每一浏览器的属性对应的至少一检测脚本,服务器根据所述跨域服务类型和所述属性查询所述脚本库以获得与所述属性对应的检测脚本,并在获得的检测脚本中随机抽取一检测脚本以发送至所述客户端。由于是从脚本库里随机抽取的检测脚本,因此爬虫开发者是无法从浏览器的页面代码层面上来破解服务器响应的数据的。
其中,还可对返回的检测脚本通过JavaScript压缩混淆工具对检测脚本做压缩混淆操作,以进一步增加爬虫开发者的破解难度。
当爬虫用户频繁更改请求头User-Agent的内容,来伪装成不同的客户端时,如伪装成浏览器IE10或浏览器Chrome时,服务器端检测到的则是伪装了的浏览器版本和浏览器类别。
步骤104、客户端判断所述属性是否与所述浏览器的实际属性相同,若是,进入步骤105,若否,则所述数据请求为一爬虫;
客户端判断服务器端检测到的属性与客户端实际使用的浏览器的属性是否相同,由于爬虫用户更改了请求头User-Agent的内容,因此不论爬虫用户如何变换请求头,始终能够被本申请的检测方法检测出。
步骤105、客户端运行所述检测脚本,并在所述检测脚本运行失败时将所述数据请求识别为一爬虫。
而当爬虫用户不采用更改请求头User-Agent的内容的方式来伪装成不同的客户端,而只是采用与真实浏览器类似的运行速度较快的浏览器内核模拟器,如phantom模拟器,以访问服务器的数据时,服务器会根据检测到的浏览器的属性所对应的浏览器的特性,反馈一检测脚本来检测该浏览器的特性,而这样的特性检测必然是只有在真实的浏览器和真实的用户访问行为的情况下才能运行成功,而在一些浏览器内核模拟器上或者一些伪造了请求头User-Agent的情况下运行失败。比如,服务器返回的检测脚本用于检测浏览器是否存在某个bug,针对实际的浏览器而言,该浏览器本身是存在该bug的,但客户端的浏览器运行该检测脚本时,反而不会出现该bug,因此可断定访问用户为一爬虫。再如,服务器返回的检测脚本用于检测浏览器是否具有网页翻译的功能,针对实际的浏览器而言,该浏览器本身是具有网页翻译功能的,但客户端的浏览器运行该检测脚本时,执行网页翻译功能失败,因此也可断定访问用户为一爬虫。该检测脚本可通过JavaScript实现。
此外,步骤104中在判断结果为是时还执行以下步骤:
步骤105a、判断所述请求头的请求次数是否达到一次数阈值,若是,则所述数据请求为一爬虫。
也即,当爬虫用户不更换请求头User-Agent的内容,但仍然使用真实浏览器而非浏览器内核模拟器时,由于减少了伪造浏览器的变种手段,这样必然使得单个用户的请求头User-Agent的访问率突出,在这种情况是再根据访问量的判断是很容易检测爬虫并封锁爬虫的IP地址的。
而在检测到所述数据请求为一爬虫时还执行以下步骤:
步骤105b、服务器根据所述数据请求返回一响应消息至客户端的浏览器以显示所述响应消息,所述响应消息包括警告信息或误导信息。
可以理解,当真实用户使用真实浏览器访问服务器的数据时,且在访问量可接受的情况下,该浏览器是经得起本实施例采用的多重检测手段的,而只有在通过本实施例的多重检测手段后,服务器才会将对应于数据请求的真实的响应数据开放给客户端以做显示,至于真实的响应数据与检测脚本是处于同一数据包中还是不同的数据包中,本实施例不作限定,只要本实施例能够反馈检测脚本和真实的响应数据即可,而当检测到爬虫时,服务器也会根据实际情况发出警告信息以提示非法用户的请求行为,或者直接向非法用户返回虚假的数据信息,甚至是返回一个与数据请求完全无关的数据页面。
可见,本实施例能够从浏览器的角度出发,能够检测用任意种类的浏览器,包括伪造请求头的浏览器和模拟的浏览器来获取服务器端的数据的爬虫,且通过携带检测脚本,使得爬虫开发者无法通过分析页面代码来获得服务器端返回的加密的响应消息,而对于分散了IP地址的爬虫,也无法躲避本申请从浏览器的属性和浏览器本身的特性出发所执行的双重检测拦截,并且,通过对请求次数的判断,能够进一步加强对分散IP地址的爬虫进行检测。保护了服务器不受非法请求的攻击,节省了服务器资源,降低了网络带宽消耗,能够防止XSS(Cross Site Scripting,跨站脚本攻击)、SQL(Structured QueryLanguage,结构化查询语言)等攻击,保护了网络安全。能够更加全面地、彻底地检测网络内的爬虫。
实施例2
本实施例提供一种爬虫检测系统,如图2所示,包括一客户端1和一服务器2,所述客户端1包括一设置模块11、一请求模块12、一第一判断模块13和一运行模块14,所述服务器2包括一检测模块21;
所述设置模块11用于设置客户端与服务器之间的跨域服务类型;
所述请求模块12用于通过浏览器向服务器发送一数据请求;
所述检测模块21用于根据所述数据请求的请求头检测所述浏览器的属性,并根据所述跨域服务类型和所述属性返回一检测脚本,所述检测脚本用于检测所述浏览器的特性;
所述第一判断模块13用于判断所述属性是否与所述浏览器的实际属性相同,若是,调用所述运行模块,若否,则所述数据请求为一爬虫;
所述运行模块14用于运行所述检测脚本,并在所述检测脚本运行失败时将所述数据请求识别为一爬虫。
所述服务器2内存储有一脚本库,所述脚本库包括若干个浏览器的属性和与每一浏览器的属性对应的至少一检测脚本,所述检测模块用于根据所述跨域服务类型和所述属性返回一检测脚本为:
所述检测模块21用于根据所述跨域服务类型和所述属性查询所述脚本库以获得与所述属性对应的检测脚本,并在获得的检测脚本中随机抽取一检测脚本以发送至所述客户端。
所述服务器还包括一第二判断模块22,所述第二判断模块22用于判断所述请求头的请求次数是否达到一次数阈值,若是,则所述数据请求为一爬虫。
所述服务器还包括一响应模块23,所述响应模块23用于在检测到所述数据请求为一爬虫时根据所述数据请求返回一响应消息至客户端的浏览器以显示所述响应消息,所述响应消息包括警告信息或误导信息。
本实施例的爬虫检测系统可以采用实施例1的方法进行工作,该系统主要在客户端上做验证,并在客户端验证通过后才开放服务器端返回的真实的响应数据,还能对爬虫用户执行多重检测,能够获得与实施例1相同的技术效果。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (10)

1.一种爬虫检测方法,其特征在于,包括:
S1、设置客户端与服务器之间的跨域服务类型;
S2、客户端的浏览器向服务器发送一数据请求;
S3、服务器根据所述数据请求的请求头检测所述浏览器的属性,并根据所述跨域服务类型和所述属性返回一检测脚本,所述检测脚本用于检测所述浏览器的特性;
S4、客户端判断所述属性是否与所述浏览器的实际属性相同,若是,进入步骤S5,若否,则所述数据请求为一爬虫;
S5、客户端运行所述检测脚本,并在所述检测脚本运行失败时将所述数据请求识别为一爬虫。
2.如权利要求1所述的爬虫检测方法,其特征在于,所述服务器内存储有一脚本库,所述脚本库包括若干个浏览器的属性和与每一浏览器的属性对应的至少一检测脚本,步骤S3中根据所述跨域服务类型和所述属性返回一检测脚本为:
S31、服务器根据所述跨域服务类型和所述属性查询所述脚本库以获得与所述属性对应的检测脚本,并在获得的检测脚本中随机抽取一检测脚本以发送至所述客户端。
3.如权利要求1所述的爬虫检测方法,其特征在于,步骤S4中在判断结果为是时还执行以下步骤:
S5a、判断所述请求头的请求次数是否达到一次数阈值,若是,则所述数据请求为一爬虫。
4.如权利要求1所述的爬虫检测方法,其特征在于,所述请求头包括客户端的浏览器类型和客户端的浏览器版本,以及包括客户端的硬件平台、客户端的操作系统和客户端的用户偏好中的一项或多项,步骤S3中服务器根据所述数据请求的请求头检测所述浏览器的属性为:
S32、服务器通过NodeJS的方式检测所述浏览器的属性。
5.如权利要求1-4中任意一项所述的爬虫检测方法,其特征在于,在检测到所述数据请求为一爬虫时还执行以下步骤:
S5b、服务器根据所述数据请求返回一响应消息至客户端的浏览器以显示所述响应消息,所述响应消息包括警告信息或误导信息。
6.如权利要求1-4中任意一项所述的爬虫检测方法,其特征在于,所述跨域服务类型包括JSONP跨域服务,所述浏览器的属性包括浏览器的类别和浏览器的版本;
和/或,步骤S3还对所述检测脚本执行压缩混淆操作后将压缩混淆的检测脚本返回至客户端。
7.一种爬虫检测系统,其特征在于,包括一客户端和一服务器,所述客户端包括一设置模块、一请求模块、一第一判断模块和一运行模块,所述服务器包括一检测模块;
所述设置模块用于设置客户端与服务器之间的跨域服务类型;
所述请求模块用于通过浏览器向服务器发送一数据请求;
所述检测模块用于根据所述数据请求的请求头检测所述浏览器的属性,并根据所述跨域服务类型和所述属性返回一检测脚本,所述检测脚本用于检测所述浏览器的特性;
所述第一判断模块用于判断所述属性是否与所述浏览器的实际属性相同,若是,调用所述运行模块,若否,则所述数据请求为一爬虫;
所述运行模块用于运行所述检测脚本,并在所述检测脚本运行失败时将所述数据请求识别为一爬虫。
8.如权利要求7所述的爬虫检测系统,其特征在于,所述服务器内存储有一脚本库,所述脚本库包括若干个浏览器的属性和与每一浏览器的属性对应的至少一检测脚本,所述检测模块用于根据所述跨域服务类型和所述属性返回一检测脚本为:
所述检测模块用于根据所述跨域服务类型和所述属性查询所述脚本库以获得与所述属性对应的检测脚本,并在获得的检测脚本中随机抽取一检测脚本以发送至所述客户端。
9.如权利要求7所述的爬虫检测系统,其特征在于,所述服务器还包括一第二判断模块,所述第二判断模块用于判断所述请求头的请求次数是否达到一次数阈值,若是,则所述数据请求为一爬虫。
10.如权利要求7-9中任意一项所述的爬虫检测系统,其特征在于,所述服务器还包括一响应模块,所述响应模块用于在检测到所述数据请求为一爬虫时根据所述数据请求返回一响应消息至客户端的浏览器以显示所述响应消息,所述响应消息包括警告信息或误导信息。
CN201610206481.0A 2016-04-05 2016-04-05 爬虫检测方法和系统 Active CN105871850B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610206481.0A CN105871850B (zh) 2016-04-05 2016-04-05 爬虫检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610206481.0A CN105871850B (zh) 2016-04-05 2016-04-05 爬虫检测方法和系统

Publications (2)

Publication Number Publication Date
CN105871850A true CN105871850A (zh) 2016-08-17
CN105871850B CN105871850B (zh) 2019-02-01

Family

ID=56627734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610206481.0A Active CN105871850B (zh) 2016-04-05 2016-04-05 爬虫检测方法和系统

Country Status (1)

Country Link
CN (1) CN105871850B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446020A (zh) * 2016-08-29 2017-02-22 携程计算机技术(上海)有限公司 基于浏览器内置爬虫系统的指纹识别实现方法
CN107147640A (zh) * 2017-05-09 2017-09-08 网宿科技股份有限公司 识别网络爬虫的方法及系统
CN107426148A (zh) * 2017-03-30 2017-12-01 成都优易数据有限公司 一种基于运行环境特征识别的反爬虫方法及系统
CN107943949A (zh) * 2017-11-24 2018-04-20 厦门集微科技有限公司 一种确定网络爬虫的方法及服务器
CN108234441A (zh) * 2017-10-19 2018-06-29 珠海市魅族科技有限公司 确定伪造访问请求的方法、装置、电子设备和存储介质
CN108282443A (zh) * 2017-01-05 2018-07-13 阿里巴巴集团控股有限公司 一种爬虫行为识别方法和装置
CN108429785A (zh) * 2018-01-17 2018-08-21 广东智媒云图科技股份有限公司 一种爬虫识别加密串的生成方法、爬虫识别方法及装置
CN109657119A (zh) * 2018-11-23 2019-04-19 成都知道创宇信息技术有限公司 一种基于访问日志ip分析的网络爬虫检测方法
CN109948025A (zh) * 2019-03-20 2019-06-28 上海古鳌电子科技股份有限公司 一种数据引用记录方法
CN109951457A (zh) * 2019-03-04 2019-06-28 广州博士信息技术研究院有限公司 一种基于html5特性的防爬虫系统及方法
CN110474890A (zh) * 2019-07-29 2019-11-19 深圳数位传媒科技有限公司 一种基于智能流量导向切换的数据反爬取方法及装置
CN111049783A (zh) * 2018-10-12 2020-04-21 北京奇虎科技有限公司 一种网络攻击的检测方法、装置、设备及存储介质
CN111355728A (zh) * 2020-02-27 2020-06-30 紫光云技术有限公司 一种恶意爬虫防护方法
CN112347326A (zh) * 2020-09-29 2021-02-09 武汉虹旭信息技术有限责任公司 基于浏览器端的爬虫检测方法及装置
CN115037526A (zh) * 2022-05-19 2022-09-09 咪咕文化科技有限公司 反爬虫方法、装置、设备以及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486780A (zh) * 2010-12-01 2012-06-06 腾讯科技(深圳)有限公司 异步跨域传输xml数据的方法、客户端和服务端
CN103888490A (zh) * 2012-12-20 2014-06-25 上海天泰网络技术有限公司 一种全自动的web客户端人机识别的方法
CN104601601A (zh) * 2015-02-25 2015-05-06 小米科技有限责任公司 网络爬虫的检测方法及装置
CN105282096A (zh) * 2014-06-18 2016-01-27 腾讯科技(深圳)有限公司 Xss 漏洞检测方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486780A (zh) * 2010-12-01 2012-06-06 腾讯科技(深圳)有限公司 异步跨域传输xml数据的方法、客户端和服务端
CN103888490A (zh) * 2012-12-20 2014-06-25 上海天泰网络技术有限公司 一种全自动的web客户端人机识别的方法
CN105282096A (zh) * 2014-06-18 2016-01-27 腾讯科技(深圳)有限公司 Xss 漏洞检测方法和装置
CN104601601A (zh) * 2015-02-25 2015-05-06 小米科技有限责任公司 网络爬虫的检测方法及装置

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446020A (zh) * 2016-08-29 2017-02-22 携程计算机技术(上海)有限公司 基于浏览器内置爬虫系统的指纹识别实现方法
CN108282443A (zh) * 2017-01-05 2018-07-13 阿里巴巴集团控股有限公司 一种爬虫行为识别方法和装置
CN107426148B (zh) * 2017-03-30 2020-07-31 成都优易数据有限公司 一种基于运行环境特征识别的反爬虫方法及系统
CN107426148A (zh) * 2017-03-30 2017-12-01 成都优易数据有限公司 一种基于运行环境特征识别的反爬虫方法及系统
CN107147640A (zh) * 2017-05-09 2017-09-08 网宿科技股份有限公司 识别网络爬虫的方法及系统
CN107147640B (zh) * 2017-05-09 2019-12-31 网宿科技股份有限公司 识别网络爬虫的方法及系统
CN108234441A (zh) * 2017-10-19 2018-06-29 珠海市魅族科技有限公司 确定伪造访问请求的方法、装置、电子设备和存储介质
CN107943949B (zh) * 2017-11-24 2020-06-26 厦门集微科技有限公司 一种确定网络爬虫的方法及服务器
CN107943949A (zh) * 2017-11-24 2018-04-20 厦门集微科技有限公司 一种确定网络爬虫的方法及服务器
CN108429785A (zh) * 2018-01-17 2018-08-21 广东智媒云图科技股份有限公司 一种爬虫识别加密串的生成方法、爬虫识别方法及装置
CN111049783A (zh) * 2018-10-12 2020-04-21 北京奇虎科技有限公司 一种网络攻击的检测方法、装置、设备及存储介质
CN109657119A (zh) * 2018-11-23 2019-04-19 成都知道创宇信息技术有限公司 一种基于访问日志ip分析的网络爬虫检测方法
CN109951457A (zh) * 2019-03-04 2019-06-28 广州博士信息技术研究院有限公司 一种基于html5特性的防爬虫系统及方法
CN109948025A (zh) * 2019-03-20 2019-06-28 上海古鳌电子科技股份有限公司 一种数据引用记录方法
CN109948025B (zh) * 2019-03-20 2023-10-20 上海古鳌电子科技股份有限公司 一种数据引用记录方法
CN110474890A (zh) * 2019-07-29 2019-11-19 深圳数位传媒科技有限公司 一种基于智能流量导向切换的数据反爬取方法及装置
CN110474890B (zh) * 2019-07-29 2022-05-10 深圳数位大数据科技有限公司 一种基于智能流量导向切换的数据反爬取方法及装置
CN111355728A (zh) * 2020-02-27 2020-06-30 紫光云技术有限公司 一种恶意爬虫防护方法
CN111355728B (zh) * 2020-02-27 2023-01-03 紫光云技术有限公司 一种恶意爬虫防护方法
CN112347326A (zh) * 2020-09-29 2021-02-09 武汉虹旭信息技术有限责任公司 基于浏览器端的爬虫检测方法及装置
CN112347326B (zh) * 2020-09-29 2022-07-15 武汉虹旭信息技术有限责任公司 基于浏览器端的爬虫检测方法及装置
CN115037526A (zh) * 2022-05-19 2022-09-09 咪咕文化科技有限公司 反爬虫方法、装置、设备以及计算机存储介质
CN115037526B (zh) * 2022-05-19 2024-04-19 咪咕文化科技有限公司 反爬虫方法、装置、设备以及计算机存储介质

Also Published As

Publication number Publication date
CN105871850B (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN105871850A (zh) 爬虫检测方法和系统
Kharraz et al. Surveylance: Automatically detecting online survey scams
Jain et al. A novel approach to protect against phishing attacks at client side using auto-updated white-list
Acar et al. FPDetective: dusting the web for fingerprinters
US9621566B2 (en) System and method for detecting phishing webpages
US8949990B1 (en) Script-based XSS vulnerability detection
CN105184159B (zh) 网页篡改的识别方法和装置
CN109922075A (zh) 网络安全知识图谱构建方法和装置、计算机设备
Fiore et al. Countering browser fingerprinting techniques: Constructing a fake profile with google chrome
Shahriar et al. Injecting comments to detect JavaScript code injection attacks
CN107465702A (zh) 基于无线网络入侵的预警方法及装置
Kapodistria et al. An advanced web attack detection and prevention tool
Huang et al. Non-detrimental web application security scanning
Fietkau et al. The elephant in the background: A quantitative approachto empower users against web browser fingerprinting
CN105471821B (zh) 一种基于浏览器的信息处理方法及装置
WO2016156513A1 (en) Online advertisements
Saini et al. You click, I steal: analyzing and detecting click hijacking attacks in web pages
Corbetta et al. Eyes of a human, eyes of a program: Leveraging different views of the web for analysis and detection
US8650214B1 (en) Dynamic frame buster injection
CN104301300A (zh) 一种检测网络钓鱼欺诈风险的方法、客户端和系统
Chu et al. An investigation of hotlinking and its countermeasures
Fink et al. Application of machine learning and crowdsourcing to detection of cybersecurity threats
CN107517226A (zh) 基于无线网络入侵的报警方法及装置
Baviskar et al. Protection of web user’s privacy by securing browser from web privacy attacks
Day et al. Reinterpreting the disclosure debate for web infections

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant