CN100561938C - 一种采集和统计分析数据的方法 - Google Patents

一种采集和统计分析数据的方法 Download PDF

Info

Publication number
CN100561938C
CN100561938C CNB2006101179279A CN200610117927A CN100561938C CN 100561938 C CN100561938 C CN 100561938C CN B2006101179279 A CNB2006101179279 A CN B2006101179279A CN 200610117927 A CN200610117927 A CN 200610117927A CN 100561938 C CN100561938 C CN 100561938C
Authority
CN
China
Prior art keywords
data
terminal
user
time
data acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006101179279A
Other languages
English (en)
Other versions
CN101174972A (zh
Inventor
晏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanda Computer Shanghai Co Ltd
Original Assignee
Shanda Computer Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanda Computer Shanghai Co Ltd filed Critical Shanda Computer Shanghai Co Ltd
Priority to CNB2006101179279A priority Critical patent/CN100561938C/zh
Publication of CN101174972A publication Critical patent/CN101174972A/zh
Application granted granted Critical
Publication of CN100561938C publication Critical patent/CN100561938C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种采集和统计分析数据的方法,该方法包括终端数据采集方法和数据统计分析方法,终端数据采集方法是指终端与数据采集服务器使用约定的数据协议进行通讯,数据采集服务器以UDP方式提供服务,终端将状态和行为数据以UDP数据包的形式发送到数据采集服务器,数据统计分析方法,其统计分析的项目包括:各个栏目的实时在线人数、在一段时间内各个栏目的用户访问状况、每个终端用户的实时行为和历史行为。本发明由于采取多层系统结构,且数据收集时采用UDP形式和约定数据协议,可准确收集终端用户的使用状态和行为数据,并对用户动态信息进行分析和统计。

Description

一种采集和统计分析数据的方法
技术领域
本发明涉及一种服务器实时采集终端用户行为数据的方法,尤其涉及一种集成娱乐与服务系统中对所有终端用户的状态、行为进行监控、统计和分析的方法。
背景技术
目前互联网的发展使得基于网络的集成化娱乐应用和服务内容越来越丰富,人们可以通过这些应用及服务,享受到网络上的音乐、电影、文学、游戏等内容。作为提供这些应用服务的内容服务商,应充分了解用户使用这些产品的情况,掌握用户对产品所提供的各项应用服务的喜好程度。在此基础上进一步分析用户行为和习惯,以便提供更优质的服务,甚至提供针对不同的用户一对一的服务内容。如何准确地收集用户在集成了多个内容和服务的系统中的使用状态和行为数据,并对这些用户动态信息进行分析和统计,对内容服务商而言就是一个非常重要的问题。
发明内容
本发明要解决的技术问题是提供一种采集和统计分析数据的方法,能够准确地收集用户在集成了多个内容和服务的系统中的使用状态和行为数据,并对用户动态信息进行分析和统计。
为解决上述技术问题,本发明提供了一种采集和统计分析数据的方法,可用于上述的系统中,该方法包括终端数据采集方法和数据统计分析方法;终端数据采集方法是指终端与数据采集服务器使用约定的数据协议进行通讯,数据采集服务器以UDP(User Datagram Protocol,用户数据报协议)方式提供服务,终端将状态和行为数据以UDP数据包的形式发送到数据采集服务器,包括:首先终端在约定的时间向数据采集服务器发送数据,使数据采集服务端可监控并维持该终端的活跃状态;然后若在约定的时间内,终端状态因用户操作而发生变化时,终端则向数据采集服务器发送数据,数据中包含用户行为标识或用户当前所在服务栏目标识,数据采集服务器收到此数据,将用户的最后在线时间设置为当前时间,并将用户所在栏目设置为终端提交的栏目标识;若在约定的时间内,终端状态未发生改变时,终端发送一个状态保持的到数据采集服务器,数据采集服务器收到此数据,将用户的最后在线时间设置为当前时间;若在约定的时间内,数据采集服务器未收到终端状态数据则将该终端状态标记为离线;当终端退出时,发送带有退出标识的数据,数据采集服务器将该终端状态标记为离线,并将终端的本次登入/登出记录保存到数据库;数据统计分析方法,其统计分析的项目包括:各个栏目的实时在线人数、在一段时间内各个栏目的用户访问状况、每个终端用户的实时行为和历史行为。
本发明由于在系统结构上采取多层结构,并且数据收集时采用UDP形式,并采用约定的数据协议,可准确地收集终端用户的使用状态和行为数据,并对用户动态信息进行分析和统计。
附图说明
图1是本发明的一个具体实施例的示意图;
图2是图1实施例中的终端行为数据采集流程;
图3是图1实施例中各栏目实时在线用户信息统计流程。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的说明。
如图1所示,为本发明的一个具体实施例。
实施例:
本发明的目的是提供一种实时采集多终端用户状态和行为数据,并进行统计分析的系统和方法。
如图1,是按本发明建立的多层结构的终端状态行为数据采集系统,包含以下几个单元:终端代理库、数据采集服务器、数据库、实时数据统计与分析服务器。按其结构及数据传输关系,各单元模块功能如下所述:终端代理库负责封装与服务端的通讯,并为终端提供接口,向服务端发送终端状态数据的函数库,该库提供给所有需要提交状态的终端;数据采集服务器可提供服务,获取终端代理库提交的数据,进行所有终端的实时状态维护,并将整理后的数据写入数据库的服务单元;数据库用于存储终端状态与行为数据的服务单元,存储的数据已经过数据采集服务器的处理;实时数据统计与分析服务器:从数据采集服务器和数据库获取实时数据,进行统计,并已数据表、图表和实时监控图等形态显示的服务单元。
在上述系统中的数据采集采用如下的终端数据采集策略:
终端与数据采集服务器使用约定的数据协议进行通讯,数据格式协议见表1;数据采集服务器以UDP网络服务的方式提供服务,所有终端将状态和行为数据以UDP数据包的形势发送到心跳服务器;终端在约定的时机向数据采集服务器发送心跳数据,使数据采集服务端可监控并维持该终端的活跃状态;终端状态在因用户操作改变而发生变化时,向数据采集服务器发送心跳数据,数据中包含用户行为标识[或用户当前所在服务栏目标识],数据采集服务器收到此数据,将用户的最后在线时间设置为当前时间,并将用户所在栏目设置为终端提交的栏目标识;终端状态在约定的时间内(默认为1分钟)未发生改变(用户在1分钟内未做任何操作)时,发送一个状态保持的心跳数据到数据采集服务器,数据采集服务器收到此数据,将用户的最后在线时间设置为当前时间;终端用户退出终端系统时,发送带有退出标识的心跳数据,数据采集服务器将该终端状态标记为离线,并将用户的本次登入/登出记录保存到数据库;终端用户异常断开,未发送退出状态数据时:数据采集服务器定时检测所有终端最后在线时间,在某终端发送心跳数据超时(在指定的时间,通常为2分钟内,某终端未向数据采集服务器发送心跳数据),数据采集服务器将该终端状态标记为离线;采用UDP通讯方式,一台心跳服务器可同时为5000个以上的终端提供服务。
图2是本实施例中的终端行为数据采集流程。包括:一、首先终端在约定的时间向数据采集服务器发送数据,使数据采集服务端可监控并维持该终端的活跃状态;二、若在约定的时间内,终端状态因用户操作而发生变化时,终端则向数据采集服务器发送数据;若在约定的时间内,终端状态未发生改变时,终端则向数据采集服务器发送一个状态保持的数据;若终端退出,则发送带有退出标识的数据;上述数据中包含用户行为标识或用户当前所在服务栏目标识;三、数据采集服务器若在约定的时间内收到二的数据,将验证数据是否合法;若合法,则进入四,若不合法则构造终端响应数据包并进入七;若在约定的时间内,数据采集服务器未收到终端状态数据则将该终端状态标记为离线,进入六;四、若数据带有退出标识,则数据采集服务器将该终端状态标记为离线,若数据无退出标识将用户的最后在线时间设置为当前时间,并将用户所在栏目设置为终端提交的栏目标识;进入五;五、将数据发送到MQ数据队列,进入六,同时构造终端响应数据包,进入七;六、将MQ数据队列读取数据保存到数据库,进行定时统计分析;七、将终端响应数据包返回给终端,终端计算丢包率,判断是否需重复进入二;
图3是本实施例中各栏目实时在线用户信息统计流程,包括如下步骤:A、数据统计分析模块向实时状态服务模块调用实时在线用户数据;B、实时状态服务模块查询用户信息表,获取当前用户信息,得到当前用户数据;C、实时状态服务模块返还数据给实时数据统计与分析服务器;D、实时数据统计与分析服务器以图表形式显示当前各栏目在线用户数据。
下面以一个具体的例子来讲述如何使用本发明的系统和方法,该例如下:
用户A登陆到集成化在线娱乐终端(集成了游戏、VOD视频点播、新闻、教育等内容)。此时,收集该用户的行为数据的模块被启动,并向数据采集服务发送一个用户登陆的UDP消息。
消息格式:表1中将Type字段设为1001。
数据采集服务器收到用户登陆的消息,立即在用户状态维护表(内存中)将用户状态标志为在线,并将用户当前所在栏目标志为主界面。然后将本条数据写入MSMQ队列。(另有程序定时从该队列里提取数据写入数据库)
用户开始在集成了众多娱乐内容的娱乐终端里浏览寻找他所感兴趣的栏目。他选择了休闲游戏,并按下‘确定’键进入。终端通过代理库向服务器发送栏目跳转的UDP消息。
消息格式:表3中将20、21位的用户当前所在栏目数设为1,22、23位栏目标识设为37(休闲游戏栏目的标识号)。
数据采集服务器收到栏目跳转的消息,修改用户状态维护表(内存中),将用户状态标志为在线(解决因异常导致未收到用户登陆消息的情况),并将用户当前所在栏目设为终端提交的栏目。然后将本条数据写入MSMQ队列。
用户选择了休闲游戏频道中的赛车游戏,按下‘确定’时。终端通过代理库向服务器发送栏目/应用跳转消息。
消息格式:表3中将20、21位的用户当前所在栏目数设为1,22、23位栏目标识设为371(赛车应用的标识号)。
数据采集服务器收到栏目/应用跳转消息,修改用户状态为在线,并将用户当前所在栏目设为赛车。然后将本条消息写入MSMQ队列。(注:因为服务端是保存了终端显示的所有栏目和应用的树状结构图的,所以,只要终端提交用户的当前栏目/应用标识,服务端便可查出用户现在的栏目具体路径。)
用户退出栏目或应用时(退出赛车游戏,回到休闲游戏频道),终端向服务器发送栏目/应用跳转消息。
消息格式:表3中将20、21位的用户当前所在栏目数设为1,22、23位栏目标识设为37(休闲游戏栏目的标识号)。
数据采集服务器收到栏目/应用跳转消息,此消息意义除了包含用户进入了某一频道,也包含了用户退出了前一个栏目。
用户长时间在赛车游戏应用中娱乐(或静止在其他栏目中),在这种情况下,为使服务器不会错误的认为终端发生异常意外退出了,则需要定时(例如1分钟)向服务器发送行为保持消息,消息格式可完全和上一次发送到服务器的消息一致。
消息格式:表3中将20、21位的用户当前所在栏目数设为1,22、23位栏目标识设为37(休闲游戏栏目的标识号)。
数据采集服务器收到终端的行为保持消息,将用户的最后发送消息的时间更改为当前时间,并将此条消息写入MSMQ数据库。
用户退出娱乐终端程序时,终端向服务器发出系统退出的消息。
消息格式:表1中将Type字段设为1002。
数据采集服务器收到系统退出消息,将用户的状态设置为离线。并将本次用户登陆[时间]-退出[时间]的记录写入数据库,然后将本条退出消息写入MSMQ队列。
如果终端发生网络异常端口,或程序异常中止的情况,且未能通知服务器终端已退出,则服务器根据预定策略自动检查终端退出状态。
服务器将有一个线程定时(2分钟,可配置)检查所有终端上一次发送行为数据的时间,如发现某终端在2分钟内未向服务器发送行为消息,则将此终端状态标志为离线。并将终端本次上线-离线记录写入数据库。
下表所示的数据格式协议包括数据头(HEAD,16固定长度)、数据体(BODY,长度和内容在HEAD中指定)、数据扩展段(SPID&EXTEND),
表1
而其中HEAD数据格式定义见下表:
Figure C20061011792700111
表2
其中0~3字节为数据通讯协议标志,用于标志该UDP数据包是属于本系统数据采集协议包,如定为“PRAP”;4~5为两字节的版本号;6~7为协议包BODY部分的字节长度;8~11为协议包BODY的类型标识,四字节的编码,该编码是全局统一的;12~15为timestamp,即时间戳。
BODY数据格式定义:(仅举例说明)
BODY数据体格式可变,数据的意义由HEAD中的Type位来标识。
当Type为1时,如下表3:
Figure C20061011792700112
表3
其中16~19为USERID,即终端用户标识;20~21为用户当前所在的应用栏目数量(用户可以同时在使用多个应用),后面紧接每个栏目的标识,每个栏目标识固定占2个字节;22~23为栏目1的标识;24~25为栏目2的标识;26~27为Extend扩展位的长度;28~31为事件ID(标识此数据包的含义,如登陆、栏目变更、登出等);32~35为状态ID(标识本次事件发生的状态,如成功、失败及原因等);36~n为扩展数据,其长度由26~27扩展数据长度指出,以xml格式描述。扩展数据中可包含用户所在各个栏目当前的运行状态,已经在栏目中的哪个子模块中。
本实施例中,对收集数据的进行统计分析,主要统计分析的项目包括:各个栏目的实时在线人数、各个栏目的用户访问状况(在一段时间内)、每个终端用户的实时行为和历史行为等。
数据统计分析的具体数据源为:
各个栏目的实时在线人数通过数据采集服务器提供的服务。数据采集服务器实时维护监控所有终端用户的当前状态和所在栏目,并提供Socket接口,监控程序定时调用此接口,得到当前在线人数并以曲线图的方式显示在监控图表上;
各个栏目的总在线时长、平均在线时长等数据由数据库数据计算得出,数据来源于数据采集服务器;
所有用户的行为历史记录保存在数据库,此数据由数据采集服务器在用户的一次登入登出过程中,全程记录到数据库。此用户用于整理每个用户的行为规律,分析出用户的习惯和爱好,便于对用户提供一对一的服务。
综上所述,本发明提出的一种进行数据采集和统计分析的系统和方法,能够准确地收集用户在集成了多个内容和服务的系统中的使用状态和行为数据。并对这些用户动态信息进行分析和统计,该系统尤其适用于宽带数字家庭娱乐系统中采集和分析用户行为,并为不同用户提供完美的个性化服务系统中。

Claims (1)

1、一种采集和统计分析数据的方法,其特征在于,包括终端数据采集方法和数据统计分析方法;
其中所述终端数据采集方法是指终端与数据采集服务器使用约定的数据协议进行通讯,数据采集服务器以UDP方式提供服务,终端将状态和行为数据以UDP数据包的形式发送到数据采集服务器,包括如下步骤:
步骤一、首先终端在约定的时间向所述数据采集服务器发送数据,使数据采集服务器可监控并维持该终端的活跃状态;
步骤二、若在约定的时间内,终端状态因用户操作而发生变化时,终端则向数据采集服务器发送数据;若在约定的时间内,终端状态未发生改变时,终端则向数据采集服务器发送一个状态保持的数据;若终端退出,则发送带有退出标识的数据;上述数据中包含用户行为标识或用户当前所在服务栏目标识;
步骤三、所述数据采集服务器若在约定的时间内收到步骤二数据,将验证数据是否合法;若合法,则进入步骤四,若不合法则构造由终端接收的响应数据包并进入步骤七;若在约定的时间内,数据采集服务器未收到终端状态数据则将该终端状态标记为离线,进入步骤六;
步骤四、若数据带有退出标识,则数据采集服务器将该终端状态标记为离线,若数据无退出标识,将用户的最后在线时间设置为当前时间,并将用户所在栏目设置为终端提交的栏目标识;进入步骤五;
步骤五、将数据发送到MQ数据队列,进入步骤六,同时构造由终端接收的响应数据包,进入步骤七;
步骤六、将MQ数据队列读取数据保存到数据库,进行定时统计分析;
步骤七、将由终端接收的响应数据包返回给终端,终端计算丢包率,判断是否需重复进入步骤二;
所述数据采集服务器包括数据统计分析模块、实时状态服务模块、实时数据统计与分析服务器;
所述数据统计分析方法,其统计分析的项目包括:各个栏目的实时在线人数、在一段时间内各个栏目的用户访问状况、每个终端用户的实时行为和历史行为,实时数据统计与分析服务器以图表形式显示当前各栏目在线用户数据;包括如下步骤:
步骤A、所述数据统计分析模块向所述实时状态服务模块采集实时在线用户数据;
步骤B、所述实时状态服务模块查询用户信息表,获取当前用户信息,得到当前用户数据;
步骤C、所述实时状态服务模块返还数据给所述实时数据统计与分析服务器;
步骤D、所述实时数据统计与分析服务器以图表形式显示当前各栏目在线用户数据。
CNB2006101179279A 2006-11-03 2006-11-03 一种采集和统计分析数据的方法 Expired - Fee Related CN100561938C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006101179279A CN100561938C (zh) 2006-11-03 2006-11-03 一种采集和统计分析数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006101179279A CN100561938C (zh) 2006-11-03 2006-11-03 一种采集和统计分析数据的方法

Publications (2)

Publication Number Publication Date
CN101174972A CN101174972A (zh) 2008-05-07
CN100561938C true CN100561938C (zh) 2009-11-18

Family

ID=39423247

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006101179279A Expired - Fee Related CN100561938C (zh) 2006-11-03 2006-11-03 一种采集和统计分析数据的方法

Country Status (1)

Country Link
CN (1) CN100561938C (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101478462B (zh) * 2008-12-17 2010-12-08 成都市华为赛门铁克科技有限公司 存储数据读取和写入的装置和方法及固态硬盘
CN103888305A (zh) * 2012-12-19 2014-06-25 中国电信股份有限公司 一种基于家庭网关的监测方法和系统
CN103200046B (zh) * 2013-03-28 2016-01-20 青岛海信传媒网络技术有限公司 监控网元设备性能的方法及系统
CN104252458B (zh) * 2013-06-25 2018-11-13 博雅网络游戏开发(深圳)有限公司 数据分析方法和装置
CN103458456B (zh) * 2013-08-27 2016-11-09 中国科学院信息工程研究所 基于移动终端Wi-Fi数据的用户行为检测方法及装置
CN103561015A (zh) * 2013-10-30 2014-02-05 大连创达技术交易市场有限公司 一种客户端的数据采集方法
CN104050272B (zh) * 2014-06-25 2018-02-09 上海艾瑞市场咨询有限公司 跨屏幕用户行为数据统计、分析方法及装置
CN105791349A (zh) * 2014-12-23 2016-07-20 中兴通讯股份有限公司 数据分析方法、装置、系统及终端和服务器
CN104601408B (zh) * 2015-01-30 2018-08-24 迈普通信技术股份有限公司 用于非开放网络环境的网站数据统计及分析方法及系统
CN106157166A (zh) * 2015-04-13 2016-11-23 刘胜利 智能化供电采集服务系统
CN105630944A (zh) * 2015-12-23 2016-06-01 北京金山安全软件有限公司 一种数据统计方法、系统及电子设备
CN107025115B (zh) * 2017-05-05 2020-06-26 北京英诺威尔科技股份有限公司 一种适配多种接口采集的方法
CN107368586B (zh) * 2017-07-24 2021-01-19 华电重工股份有限公司 一种多系统数据分析方法及平台
CN107797907A (zh) * 2017-10-30 2018-03-13 江西博瑞彤芸科技有限公司 基于用户行为的行为数据的统计方法
CN108984716A (zh) * 2018-07-10 2018-12-11 珠海迈科智能科技股份有限公司 一种基于cdn监控的终端大数据分析方法
CN109388649B (zh) * 2018-09-28 2022-05-13 土流集团有限公司 一种土地智能推荐方法及系统
CN111182464B (zh) * 2019-11-28 2024-01-26 贵阳朗玛信息技术股份有限公司 一种在线采样的方法及装置
CN111176941B (zh) * 2019-12-25 2023-11-14 贝壳技术有限公司 一种数据处理的方法、装置和存储介质
CN111524049A (zh) * 2020-04-29 2020-08-11 上海中通吉网络技术有限公司 培训人数获取方法、装置及设备

Also Published As

Publication number Publication date
CN101174972A (zh) 2008-05-07

Similar Documents

Publication Publication Date Title
CN100561938C (zh) 一种采集和统计分析数据的方法
US20120185482A1 (en) Methods, systems, and computer readable media for dynamically searching and presenting factually tagged media clips
CN107995283B (zh) 一种数据埋点分析的方法、设备及系统
AU2002253423B2 (en) Interactive media response processing system
CN100595765C (zh) 基于媒体播放器的关键词内容发布方法及系统
CN103200046B (zh) 监控网元设备性能的方法及系统
CN107895009A (zh) 一种基于分布式的互联网数据采集方法及系统
CN111601102B (zh) 一种直播卡顿的检测方法及系统
CN108595492B (zh) 内容的推送方法和装置、存储介质、电子装置
CN105577431A (zh) 一种基于互联网应用的用户信息识别分类方法和系统
AU2002253423A1 (en) Interactive media response processing system
JP2009515456A5 (zh)
CN105144741A (zh) 视频数据提供
CN110737647B (zh) 一种互联网大数据清洗方法
CN102769782B (zh) 数字电视收视率回传方法
CN104081386A (zh) 内容的评价及播放系统
CN108021604A (zh) 一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法
CN110213606A (zh) 一种直播平台内容推荐方法及系统
CN101304347A (zh) 监测Flash动画访问信息的方法及访问信息采集装置
CN106559498A (zh) 风控数据收集平台及其收集方法
CN101383738A (zh) 一种互联网交互事件的监测方法及系统
CN109165347B (zh) 数据推送方法和装置、存储介质及电子装置
CN105303430A (zh) 一种交易指标采集方法及装置
CN113760878A (zh) 一种基于国产cpu和操作系统的微服务架构日志解析方法及系统
CN107343221A (zh) 一种在线多媒体互动系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHENGDA COMPUTER (SHANGHAI) CO., LTD.

Free format text: FORMER OWNER: SHENGQU INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20080926

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20080926

Address after: Shanghai Pudong New Area Jing Road No. 356 post encoding: 201203

Applicant after: Shanda computer (Shanghai) Co., Ltd.

Address before: Building 1, building 690, blue wave road, Shanghai, Pudong New Area: 201203

Applicant before: Shengqu Information Technology (Shanghai) Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091118

Termination date: 20191103

CF01 Termination of patent right due to non-payment of annual fee