燕麦 发表于 2011-7-9 10:03:15

校内人人网 最近来访量影响因素分析



摘要:校内人人网作为一个facebook式社交网络,近几年在中国,特别是大学校园中极受欢迎。校内人人网个人主页上一个很受关注的指标就是“最近来访”数,这个指标在一定程度上反映了此人在这个社交网络中受欢迎的程度。但影响这一指标的因素是什么呢,我们将人人网上一些其他活动指标引入模型,通过筛选与分析,建立多元线性回归模型,解释影响人人网访问量的主要影响因素。
关键词:校内人人网 最近来访量影响 多元线性回归

1引言
人人网为整个中国互联网用户提供服务的SNS社交网站,给不同身份的人提供了一个互动交流平台,提高用户之间的交流效率,通过提供发布日志、保存相册、音乐视频等站内外资源分享等功能搭建了一个功能丰富高效的用户交流互动平台。
作为一个社交网络,“访问量”这个指标显得备受关注,这与现实中的客人数有相同的性质,反映了一个人受欢迎的程度。为了提高自己的访问量,有不少人各出奇招——频发状态,频发照片,频发日志等。有的见效显著,有的却效果甚微。

2样本数据与变量的选取
2.1指标的选取
在人人网上,有许多指标放映了个人的活跃程度,我们选取了6项较有代表性的指标:等级、好友数、日志数、状态数、分享数、照片数,加上性别与与访问量共8个指标,建立于访问量的线性相关模型。
等级直接反映了活跃程度,上线时间与频率,一些社交行为都会影响等级的增长。
好友数反映了该人的交际圈,好友数量大访问量自然理论上会多。
日志与照片可以被转发,以获得等大的关注。当好友点进去观看时,访问量就会增加。
状态和分享反映了一个人在人人上的活跃程度,数量多说明叫活跃,访问量有可能较多。

2.2样本的获得
在样本的选取上,采用系统抽样的方法。小组成员每人负责收集10个好友的数据。设自己好友总数n,间距即为K=随机数一个起始数A,抽取A,A+K,A+2K,……,A+9K号的好友,记录上述8项指标,汇总后去除重复数据,共得63个样品。结果如下(为隐私考虑不列出姓名)
http://fmn.rrimg.com/fmn054/20110708/1150/b_large_tTgm_029e0001f48e5c3f.jpg
将最近来访(Y),性别(x1)等级(x2)好友数(x3)日志数(x4)分享数(x5)状态数(x6)照片数(x7)的数据录入Eviews进行分析。

3描述性统计
3.1描述统计
用Eviews直接得出描述性统计列表如下
http://fmn.xnpic.com/fmn050/20110708/1300/b_large_mh96_09b00001f1545c44.jpg
从均值看出个解释变量量纲相差不是很大,可以直接分析

3.2相关系数矩阵
做相关系数矩阵如下:
http://fmn.rrimg.com/fmn047/20110708/1150/b_large_Bh02_51060001f3a25c73.jpg

由表可以看出,y与x2,x3,x4,x5,x7均有一定的相关性,但与x1,x6相关性较弱。且各指标之间也有一定的相关性,有可能出现自相关问题。

3.3散点图
做各指标与y的散点图,如下所示
http://fmn.rrimg.com/fmn047/20110708/1150/b_large_ho1z_3db30001ef725c42.jpg
总图标的直观上看,y与x2,x3,x5,x7应该有较强的相关性,而与x1,x4,x6相关性较弱。

4模型估计
4.1模型建立
初步假设回归模型为:
                   Y=β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+β7X7+μ
其中:最近来访(Y),性别(x1)等级(x2)好友数(x3)日志数(x4)分享数(x5)状态数(x6)照片数(x7)

4.2初步分析
用Eviews进行OLS分析,结果如下
http://fmn.rrimg.com/fmn052/20110708/1155/b_large_AeKD_51000001f65e5c73.jpg
结果得出,x1,x2,x5的p值较高,均无法通过t检验,且考虑到性别(x1)、等级(x2)与分享数(x5)可能确实与来访数关系不大

4.2模型优化
4.2.1解释变量选择
所以剔除x1、x2与x5,再做OLS。
http://fmn.rrfmn.com/fmn048/20110708/1155/b_large_Wwml_3b100001f7015c71.jpg

观察到状态数(x6)的系数为负,与常识不符,且p值较高,结合相关系数矩阵,考虑到自相关问题,所以予以剔除。常数项系数过小,p值很大,也予以剔除。再对x3,x4,x7做OLS,结果如下
http://fmn.rrimg.com/fmn049/20110708/1155/b_large_HD1X_57f30001f7375c72.jpg
此时t检验结果较好,且系数意义符合常识。

4.2.2异方差的检验与修正
此模型可能存在的主要问题是异方差,所以进行white检验
http://fmn.xnpic.com/fmn050/20110708/1155/b_large_Mgf1_3dc90001f34d5c42.jpg

此时nR2=205.1956>X20.05(6)=12.592,p=0.0043<0.05,所以认为存在异方差。
以1/|e|为权重进行WLS,结果如下
http://fmn.rrimg.com/fmn053/20110708/1200/b_large_piL5_57e60001fb8b5c72.jpg
模型得到了显著的优化。

5结论
5.1直接结论
通过以上分析,我们得出以下模型
Y=5.7X3+43.9X4+4.0X7
即:
最近来访=5.3x好友数 +43.9x日志数 +4x照片数
所以我们得出结论:好友数,日志数,照片数对访问量的影响有很强的关系。日志数的系数高达43.9,说明发一篇日志平均能够吸引44位来访者。而发一张照片平均能吸引4为来访者。乍看起来日志收效比照片收效快得多。但是这里我们要考虑凝结在一篇日志与照片中的劳动的对比,写一篇好的日志往往比上传一张照片需要更多的劳动。所以我们建议:想要增加自己的访问量的同学,写一篇好的日志可能是最好的方法,但是定期传一些照片可能是一种更轻松迅速的的提高访问量的方法。同时,广加好友和多传照片也是不错的选择。

5.2结论存在的问题
该结论与常识有一定偏差。
1.大部分访问量很高的人是因为经常传一些照片所致。但是,他们所传的受欢迎的照片大多是一些写真和搞笑图片。而对于图片的种类,我们因为觉得难度较大,再次没有进行区分。但是根据常识,写真和搞笑图片会对使访问量剧增,而风景图片则收效甚微。
2.长相这个因素也应该考虑在内。诚然,人人上的帅哥美女基本都拥有很高的访问量。但是长相这个指标又很难进行量化,需要让一些被访者对一系列照片进行打分,从而收集数据通过综合评判指数化后,再引入模型,由于时间及人力物力的限制,所以暂没有设法引入此解释变量。
3.本次建模得出的是一个普遍层面上的的结论,对于每个人的特色没有进行区分,也略去了一些细节,甚至有些细节比较重要。例如日志的内容与状态的内容。所以实际实施中的结果很可能与模型有一些偏差,模型只是反映了一个普遍层面上的情况。

注:本论文仅为混课程作业和搞笑所做,2小时搞定的,请大家就不要太学术上深究了

燕麦 发表于 2011-7-9 10:03:28

事实上我看不懂

小黑 发表于 2011-7-9 16:09:30

:o:L

vivi 发表于 2011-7-9 16:15:23

什么东西

平凡的我 发表于 2011-7-9 16:16:15

路过...........不懂是什么东东:o

不过:D 一个,哈哈哈

燕麦 发表于 2011-7-9 19:19:05

回复 vivi 的帖子

校内上看到的什么分析没全看懂但是貌似挺有意思的

一闪 发表于 2011-7-9 22:02:37

你弄的这个东西讲的太复杂了

燕麦 发表于 2011-7-9 22:14:47

一闪 发表于 2011-7-9 23:02 static/image/common/back.gif
你弄的这个东西讲的太复杂了

你有没有看到最后 人家说是闲来无聊写的
我很郁闷来着
页: [1]
查看完整版本: 校内人人网 最近来访量影响因素分析