Tìm hiểu về Social network analysis (SNA ) và sử dụng Gephi để phân tích mạng xã – Tài liệu text

Tìm hiểu về Social network analysis (SNA ) và sử dụng Gephi để phân tích mạng xã hội Facebook

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.31 MB, 32 trang )

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM
TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG
KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN 1:
Đề tài: Tìm hiểu về Social network analysis (SNA )
và ứng dụng vào một bài toán thực tế
Người hướng dẫn: Ths.TRẦN THỊ HỒNG NHUNG
Người thực hiện: PHAN ĐỨC PHƯƠNG – 81203108
ĐẶNG VIỆT NHÃ TUẤN – 51303203
Lớp

:

12050301
13050301

THÀNH PHỐ HỒ CHÍ MINH,NĂM 2015

1

MỤC LỤC
CHƯƠNG 1: TỔNG QUAN…………………………………………………………………………………9
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT….………………………………………………..10
2.1 Mạng xã hội……………………………………………………………………….10
2.2 Phân tích mạng xã hội………..……………………………………………………12
2.3 Lịch sử phân tích mạng xã hội…………………………………………………….15
2.4 Phần mềm phân tích mạng xã hội…………………………………………………16
CHƯƠNG 3: PHÂN TÍCH MẠNG XÃ HỘI VỚI GEPHI……………………………………18
3.1 Lấy dữ liệu từ mạng xã hội……………………………………………………..…18

3.2 Các chức năng trong Gephi…………………………………………………….….21
3.2.1 Layout……………………………………………………………………….21
3.2.2 Statistics……………………………………………………………………………………22
3.2.3 Filters…………………………………………………………………..……25
3.2.4 Ranking………………………………………………………………………26
3.2.5 Partition………………………………………………………………………30
3.3 Kết luận…..…..…………………………………………………………………..33
CHƯƠNG 4: KẾT LUẬN VÀ HUỚNG PHÁT TRIỂN……………………………34
4.1 Thuận lợi…………………………………………………………………………34
4.2 Khó khăn…………………………………………………………………………34
4.3 Đóng góp của đề tài………………………………………………………………34
4.4 Hướng phát triển……….………………………………………………………….35
TÀI LIỆU THAM KHẢO…………………………………………………………….36

2

CHƯƠNG 1: TỔNG QUAN
Xu hướng giao tiếp của thế kỷ 21 gắn liền với cụm từ “Mạng xã hội” – nơi tìm kiếm và
chia sẻ thông tin vô cùng hiệu quả. Với một cái tên hoặc địa chỉ email, mọi người có thể
nhanh chóng tìm thấy nhau. Một hoạt động của một cá nhân hay một doanh nghiệp có thể
được hưởng ứng với số đông nhiều người. Mọi thông tin trên mạng xã hội có thể được
nhanh chóng lan tỏa dựa vào mối quan hệ kết nối của mọi thành viên trên mạng xã hội.
Mạng xã hội trực tuyến (Online Social Network) là nơi kết nối các thành viên có cùng sở
thích trên internet không phân biệt không gian và thời gian, thông qua các dịch vụ mạng
xã hội (Social Network Service). Có thể nói, sự ra đời của các site Facebook, Twitter,
Myspace, Youtube, Google+, ZingMe… đã khiến cho các mạng xã hội ngày càng trở nên
phổ biến hơn. Nó ảnh hưởng trực tiếp tới đời sống của chúng ta, nó tác động vừa tích
cực,cũng như tiêu cực vào tùy từng lĩnh vực như:quân sự,chính trị,giáo dục …Theo
đó,các mục tiêu phân tích,tìm hiểu MXH là cần thiết cho các cá nhân tổ chức muốn khám

phá về nó.Hiện nay có rất nhiều công cụ phân tích MXH, chúng cung cấp sự phân tích
sâu sắc hơn về xã hội, trong đó Gephi là 1 công cụ giúp mọi người có thể nghiên cứu và
phân tích dữ liệu 1 cách trực quan. Chính vì vậy chúng em đã tiến hành nghiên cứu đề
tài: “Tìm hiểu về Social network analysis (SNA) và ứng dụng vào một bài toán thực tế”

Hình 1.1: Hình ảnh mô tả mạng xã hội
Mục tiêu của đề tài
– Tìm hiểu về mạng xã hội (Social Network).
– Tìm hiểu các phương pháp phân tích mạng xã hội.
-Tìm hiểu về phần mềm Gephi để phân tích mạng xã hội.

3

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1 Mạng xã hội
MXH trực tuyến là nơi kết nối các thành viên cùng sở thích trên Internet không phân
biệt không gian và thời gian thông qua các dịch vụ mạng xã hội Email, chat, Internet
Sharing,… Sự ra đời của các site như Facebook, Twitter, Myspace, Youtube, Google+,
Flickr,… đã khiến cho mạng xã hội ngày càng trở nên đa dạng, phổ biến hơn. Ngoài ra ta
có thể xem mạng xã hội như một tập hợp các phần tử (nodes), mỗi node có thể là một cá
thể, một tập thể, thậm chí là một tổ chức có liên kết, ràng buộc lẫn nhau thông qua các
mối quan hệ xã hội gọi là các liên kết (links).

Hình 2.1:Mô hình mạng xã hội Facebook[-1]
Mạng xã hội xuất hiện lần đầu tiên năm 1995 với sự ra đời của trang Classmate với mục
đích kết nối bạn học, tiếp theo là sự xuất hiện của SixDegrees vào năm 1997 với mục
đích giao lưu kết bạn dựa theo sở thích[1]
Năm 2002, Friendster trở thành một trào lưu mới tại Hoa Kỳ với hàng triệu thành viên
ghi danh, tuy nhiên sự phát triển quá nhanh này cũng là con dao hai lưỡi: server của

Friendster thường bị quá tải mỗi ngày, gây bất bình cho rất nhiều thành viên.
Năm 2004, MySpace ra đời với các tính năng như phimảnh (embedded video) và nhanh
chóng thu hút hàng chục ngàn thành viên mới mỗi ngày, các thành viên cũ của Friendster
cũng lũ lượt chuyển qua MySpace và trong vòng một năm, MySpace trở thành mạng xã
hội đầu tiên có nhiều lượt xem hơn cả Google và được tập đoàn News Corporation mua
lại với giá 580 triệu USD.
4

Năm 2006, sự ra đời của Facebook đánh dấu bước ngoặt mới cho hệ thống mạng xã hội
trực tuyến với nền tảng lập trình “Facebook Platform” cho phép thành viên tạo ra những
công cụ (apps) mới cho cá nhân mình cũng như các thành viên khác dùng. Facebook
Platform nhanh chóng gặt hái được thành công vược bực, mang lại hàng trăm tính năng
mới cho Facebook và đóng góp không nhỏ cho con số trung bình 19 phút mà các thành
viên bỏ ra trên trang này mỗi ngày[2]

Hình 2.2: Lịch sử hình thành mạng xã hội qua từng thời kỳ

5

Bảng số liệu thống kê người dùng năm 2012[-2]

Tên
Facebook
Windows Live Spaces
Friendster
Twitter
Tagged
Flixster

Class mate
BeBo BeBo
Orkut
Netlog
HI5

Miêu tả

Số thành viên

Tỉ lệ truy cập cao nhất ở Canada và ở Anh,
nhiều nhân vật nổi tiếng
Blog
Rất phổ biến ở Philippines, Malaysia,
Indonesia và Singapore
Mạng nhắn tin nhanh, blog nhỏ
Tagged.com
Thiết kế dành cho những người yêu phim
ảnh
Giúp mọi người tìm lại được những người
bạn học cũ
Được sử dụng rộng rãi nhất ở Ireland
Rất phổ biến ở Brasil và Ấn Độ
Rất phổ biến tại Bỉ
Audience variee

750.000.000 (tài khoản
hoạt động)
120.000.000
115.000.000

100.000.000
70.000.000
69.000.000
40.000.000
40.000.000
37.000.000
35.000.000
80 000 000

2.2 Phân tích mạng xã hội
Định nghĩa
Phân tích mạng xã hội là quá trình điều tra các cấu trúc xã hội thông qua việc sử dụng các
mạng lưới và đồ thị lý thuyết. Nó đặc trưng bởi cấu trúc mạng trong các nút (các cá nhân,
con người, hay những vật bên trong mạng) và các mối quan hệ (mối quan hệ hay tương
tác) mà chúng kết nối [5].Ví dụ như về các cấu trúc xã hội thường được hình dung thông
qua phân tích mạng xã hội bao gồm các mạng xã hội truyền thông, mạng lưới bạn bè và
người quen, biểu đồ cộng tác, quan hệ họ hàng, sự lây lan dịch bệnh, và các mối quan hệ.
[4][5]
Các mạng lưới này thường được hình dung qua sociograms trong đó các nút được
biểu diễn như điểm và mối quan hệ được biểu diễn qua dòng.
Phân tích mạng xã hội đã nổi lên như là một kỹ thuật quan trọng trong việc hiện đại xã
hội học. Nó cũng đã đạt được một sau đây quan trọng trong nhân chủng học, sinh học,
nghiên cứu truyền thông, kinh tế, địa lý, lịch sử, khoa học thông tin, nghiên cứu tổ chức,
khoa học chính trị, tâm lý xã hội, nghiên cứu phát triển xã hội và bây giờ là nghiên cứu
người tiêu dùng

Các khái niệm cơ bản trong tổ chức mạng xã hội
6

Trong phân tích mạng xã hội, ta xem xét mạng xã hội như là đồ thị mạng bao gồm các
đỉnh (nodes), các cạnh (links). Node biểu diễn tập các tác nhân, thực thể, còn link biểu
diễn mối quan hệ (relation) giữa các tác nhân, thực thể đó[6]
-Tập đỉnh
Trong phân tích mạng xã hội, nó còn được biết như là tập các tác nhân (actors) hay
tập thực thể (entities),…Trong mạng xã hội, tập đỉnh đặc trưng cho các cấu trúc
của các mạng xã hội, các thành viên hay các cộng đồng như một nhóm người, một
tổ chức hay các quốc gia, các trang web, các nhãn từ khoá hay các hình ảnh, video,

Ví dụ: ta xét tập đỉnh đặc trưng cho các phần tử trong các mạng như sau:

Hình 2.3: Biểu diễn tập đỉnh trong mô hình mạng[11]

_ Tập cạnh
7

Trong MXH, tập cạnh đặc trưng cho mối liên kết (Link) hay mối quan hệ
giữa các tập đỉnh trong mạng. Mỗi cạnh ta có thể hiểu là một đường đi nối hai
đỉnh với nhau. Dựa trên cơ sở lý thuyết đồ thị, ta chia tập cạnh ra là 2 loại:
-Đối với đồ thị có hướng: Tập cạnh dạng trực tiếp, được biểu diễn bằng đường
thẳng có hướng (xác định hướng theo chiều mũi tên)
-Đối với đồ thị vô hướng: Tập cạnh dạng gián tiếp, được biểu diễn bằng đường
thẳng vô hướng (không có chiều mũi tên)

Hình 2.4: Đồ thị có hướng và đồ thị vô hướng
Ngoài ra, đối với đồ thị, một thành phần quan trọng đó là trọng số của cạnh. Trọng số của
cạnh được định nghĩa là đơn vị dùng để xác định mức độ hay tần suất liên kết giữa 2 đỉnh
trong đồ thị. Đối với các bài toán trong lý thuyết đồ thị, trọng số đóng vai trò quyết định
để giải quyết bài toán tìm đường đi ngắn nhất trong đồ thị

8

Hình 2.5: Sơ đồ mạng xã hội hiển thị các mối quan hệ hữu nghị giữa một tập hợp
của Facebook người dùng
Ứng dụng thực tế
-Phân tích mạng xã hội – SNA – được ứng dụng trong nhiều lĩnh vực khác nhau:
– Các doanh nghiệp sử dụng SNA để phân tích và cải thiện lưu lượng giao tiếp trong tổ
chức của họ hoặc với các mạng của đối tác và khách hàng.
– Cơ quan thực thi pháp luật và quân đội sử dụng SNA để xác định mạng lưới tội phạm và
khủng bố từ các dấu vết của truyền thông mà họ thu thập được và sau đó xác định các đối
tượng chủ chốt trong các mạng này.
– Các trang web mạng xã hội như facebook sử dụng các yếu tố cơ bản của SNA để xác
định và giới thiệu bạn bè tiềm năng dựa vào quan hệ bạn bè của bạn bè (friends of
friends).
– Nhà khai thác mạng điện thoại, điện thoại di động sử dụng phương phương pháp SNA
để tối ưu hóa cấu trúc và năng lực trong mạng lưới của họ.
– Các tổ chức xã hội dân sự sử dụng SNA để phát hiện ra xung đột lợi ích trong các kết
nối ẩn giữa các cơ quan chính phủ, vận động hành lang và các doanh nghiệp.

2.3 Lịch sử phân tích mạng xã hội
-Vào cuối năm 1890, cả hai Émile Durkheim và Ferdinand Tönnies đã trình bày các ý
tưởng của mạng xã hội trong lý thuyết của họ và nghiên cứu các nhóm xã hội.Tönnies lập
luận rằng các nhóm xã hội có thể tồn tại như các mối quan hệ xã hội cá nhân,trực tiếp là
các cá nhân liên kết với người chia sẻ các giá trị niềm tin (Gemeinschaft, Đức, thường
9

được dịch là ” cộng đồng “) hoặc liên kết xã hội khách quan( Gesellschaft, Đức, thường

được dịch là ” xã hội “) [7].Durkheim đã đưa ra một lời giải thích phi-cá nhân của thực tế
xã hội, cho rằng hiện tượng xã hội nảy sinh khi các cá nhân tương tác tạo thành một thực
tế rằng không còn có cá thể nào được hạch toán vào các điều khoản của các thuộc tính
của các cá nhân. [8] Georg Simmel, viết vào đầu thế kỷ XX, chỉ ra bản chất của mạng và
ảnh hưởng của nó trên sự tương tác và kiểm tra khả năng tương tác trong mạng lưới lỏng
lẻo hơn là 1 nhóm. [9]
-Phát hiện quan trọng trong lĩnh vực này được thấy rõ trong những năm 1930 bởi một số
nhóm trong tâm lý học, nhân chủng học, và toán học làm việc độc lập. [10] [11] Trong tâm lý
học, vào những năm 1930, Jacob L. Moreno bắt đầu ghi và phân tích hệ thống tương tác
xã hội trong các nhóm nhỏ, đặc biệt là các lớp học và các nhóm làm việc
(xem sociometry ) [12] [13]. Trong nhân chủng học, là nền tảng cho lý thuyết mạng xã hội là
lý luận và dân tộc học việc của Bronislaw Malinowski, [13] Alfred RadcliffeBrown, và Claude Lévi-Strauss. [14] Một nhóm các nhà nhân chủng học xã hội gắn liền
với Max Gluckman và học Manchester, bao gồm John A. Barnes, [15] J. Clyde
Mitchell và Elizabeth Bott Spillius thường được ghi với thực hiện một số các nghiên cứu
thực địa đầu tiên mà từ đó phân tích mạng đã được thực hiện [16] [17], điều tra mạng lưới
cộng đồng ở miền nam châu Phi, Ấn Độ và Vương quốc Anh. [18] đồng thời, nhà nhân
chủng học người Anh SF Nadel hệ thống hóa một lý thuyết về cấu trúc xã hội đã ảnh
hưởng lớn trong mạng lưới phân tích sau đó. [19] trong xã hội học, các (năm 1930) việc
đầu tiên của Talcott Parsons thiết lập giai đoạn tiếp cận cho quan hệ để tìm hiểu cấu trúc
xã hội. [20] [21] sau đó, rút ra từ lý thuyết Parsons, công việc của các nhà xã hội học Peter
Blau cung cấp một động lực mạnh mẽ cho việc phân tích các mối quan hệ quan hệ của
các đơn vị xã hội với công việc của mình trên lý thuyết trao đổi xã hội. [22] [23] [24].Vào năm
1970, số lượng ngày càng tang của các học giả làm việc để kết hợp các bài hát và truyền
thống khác nhau. Một nhóm gồm các nhà xã hội học Harrison white và các sinh viên của
ông tại Bộ Đại học . Ngoài ra có một người hoạt động độc lập trong các bộ phận quan hệ
xã hội Harvard là Charles Tilly, người tập trung vào các mạng xã hội học chính trị, cộng
đồng và các phong trào xã hội, và Stanley Milgram, người đã phát triển “sáu cấp độ khác
nhau” luận án. [25] Mark Granovetter [26] và Barry Wellman [27] là một trong những học sinh
cũ của White, người xây dựng và đấu tranh cho việc phân tích mạng xã hội. [28] [29] [30]

2.4 Phần mềm phân tích mạng xã hội
Hiện nay trên thế giới có rất nhiều phần mềm để phân tích mạng xã hội nhưng trong đó
người dùng dánh giá cao nhất là phần mềm Gephi. Gephi có giao diện trực quan và dễ
tiếp cận với người dùng nên trong đồ án này chúng ta sẽ đi tìm hiểu về phần mềm Gephi.

10

Hình 2.6: Logo Gephi

– Gephi giúp chúng ta tương tác để hiện hình hóa và làm nền tảng cho việc nghiên
cứu tất cả các loại mạng và các hệ thống phức tạp, tùy biến và các đồ thị phân cấp.
– Gephi là một công cụ giúp mọi người có thể nghiên cứu và hiểu được đồ thị.
Giống như Photoshop trong hình ảnh còn Gephi là đối với đồ thị, người dùng
tương tác với phép biểu diễn, thao tác cấu trúc, hình dạng và màu sắc để làm sáng
tỏ các thuộc tính ẩn. Mục đích của Gephi là để giúp các nhà phân tích dữ liệu đưa
ra các giả thuyết, nghiên cứu các hình mẫu bằng trực giác, các cấu trúc kỳ dị bị cô
lập hoặc do lỗi trong quá trình tìm nguồn cung ứng dữ liệu. Nó là một công cụ bổ
sung thay cho việc thống kê truyền thống, như tư duy trực quan và giao diện tương
tác. Đây là một phần mềm dành cho việc nghiên cứu phân tích dữ liệu, một mô
hình được thể hiện trong việc phân tích một cách trực quan.

Hình 2.7: Giao diện của Gephi

11

CHƯƠNG 3:PHÂN TÍCH MẠNG XÃ HỘI VỚI GEPHI
3.1 Lấy dữ liệu từ mạng xã hội
Để phân tích mạng xã hội với Gephi trước hết chúng ta phải lấy được dữ liệu để phân

tích, Trong đồ án này, chúng ta sẽ lấy dữ liệu từ mạng xã hội Facebook
-Bước 1: Đầu tiên chúng ta gõ từ khóa “netvizz” trong khung search của Facebook.
netvizz là 1 ứng dụng được phát triển trên Facebook để giúp chúng ta lấy được dữ liệu từ
mạng xã hội này

Hình 3.1: Tìm kiếm Netvizz
-Bước 2: Sau khi chọn netvizz sẽ hiện ra 1 trang để chúng ta lựa chọn kiểu dữ liệu cần
lấy gồm các page trên Facebook, nhóm Facebook… Ở đây chúng ta sẽ lựa chọn lấy dữ
liệu trên 1 nhóm Facebook để phân tích.

Hình 3.2: Lựa chọn kiểu dữ liệu
12

-Bước 3: Khi chúng ta nhấn vào Group data thì sẽ hiện ra 1 trang với các lựa chọn:

Id của nhóm Facebook: Thông thường khi chúng ta vào một nhóm Facebook
chúng ta chỉ thấy được đường dẫn và tên nhóm Facebook đó, muốn lấy được Id
của nhóm Facebook đó netvizz cho chúng ta đường link ()
dẫn đến trang web để lấy Id của nhóm đó. Chúng ta chỉ cần copy đường dẫn của
nhóm Facebook đó và gán vào textbox sau đó nhấn Lookup thì nó sẽ hiện ra cho
chúng ta Id (dòng chữ số màu đỏ) của nhóm đó. Trong đồ án này chúng ta sẽ phân
tích nhóm Facebook của trường đại học Tôn Đức Thắng “IT TÔN ĐỨC THẮNG”
( />
Hình 3.3: Lấy id người dùng Facebook

Lựa chọn dữ liệu: sẽ có hai lựa chọn cho ta. Một là: lấy bao nhiêu status mới nhất
của nhóm đó, tối đa là 999 status. Hai là: lấy những status trong khoảng thời gian

bao nhiêu. Ở đây chúng ta sẽ lấy 50 status mới nhất của nhóm.

Hình 3.4: Lựa chọn dữ liệu

Sau khi lựa chọn xong chúng ta sẽ được 1 trang như thế này. Sau đó chúng ta
nhấn “get group data” phía dưới cùng để lấy dữ liệu.

13

Hình 3.5: Điền thông tin để lấy dữ liệu
-Bước 4: Sau khi thực hiện xong Bước 3 netvizz tiếp tục hiện ra cho chúng ta 1 trang
mới. Chúng ta sẽ nhấn vào “zip archive” để download dữ liệu về mạng dưới dạng thư mục.zip

Hình 3.6: Trang download dữ liệu
-Bước 5: Sau khi giải nén thư mục.zip ở Bước 4 chúng ta sẽ được 5 file. Chúng ta chỉ
quan tâm tới file.gdf vì file đó chứa các dữ liệu cần thiết để phân tích. Khi chúng ta nhấn
14

vào file.gdf thì Gephi sẽ được mở và tự import các dữ liệu có trong file.gdf vào và hiện ra
cho chúng ta Graph. Khi Gephi hiện được ra Graph thì chúng ta đã thành công trong việc
lấy dữ liệu từ Facebook.

Hình 3.7: Giao diện Gephi sau khi import dữ liệu

3.2 Các chức năng trong Gephi
3.2.1 Layout
_ Khi vừa mở Gephi lên chúng ta sẽ thấy Graph rất rối và khó phân biệt. Gephi cho

chúng ta lựa chọn layout để hiển thị Graph 1 cách trực quan hơn.
_ Chúng ta nhìn bên góc trái của ứng dụng sẽ thấy bảng Layout, và có 1 combo box để
chúng ta lựa chọn muốn hiển thị layout ra sao. Ở đây chúng ta sẽ chọn “Force Atlas” vì
khi test các layout khác thì thấy Force Atlas dễ nhìn và trực quan hơn, nó sẽ gom các nút
lại 1 cụm để dễ dàng trong việc phân tích. Ngoài ra trong bảng layout cũng sẽ hiển thị các
tùy chỉnh về khoảng cách trong Graph chúng ta có thể tự do thay đổi theo ý mình.

15

Hình 3.8: Hiển thị Graph theo layout Force Atlas
3.2.2 Statistics
Chức năng này dùng để thống kê các số liệu có trong Graph. Chức năng này nằm ở bên
phải phía dưới cùng của Gephi. Nó bao gồm nhiều chức năng thống kê khác nhau

Hình 3.9: Statistics
_ Avg. Path Length:

Chức năng này dùng để tính chiều dài trung bình của các cạnh trong Graph
Khi nhấn vào sẽ hiện ra 1 bảng với tùy chọn giữa Directed (có hướng) và
Undirected (vô hướng). Chúng ta chọn “Undirected” vì Graph chúng ta đang hiển
thị đã là 1 Directed Graph. Đồng thời chúng ta cũng chọn “Normalize Centralities
in [0,1]” để dễ dàng so sánh số liệu

16

Hình 3.10: Avg. Path Length

• Sau khi nhấn OK sẽ hiện ra cho chúng ta các số liệu gồm Diameter (đường kính),
Radius (bán kính), Average Path length (chiều dài trung bình của đường dẫn ),
Number of shortest paths (Số đường đi ngắn nhất)

Graph Distance Report chứa các số liệu thống kê dưới dạng biểu đồ gồm
Betweenness Centrality, Closeness Centrality và Eccentricity giúp chúng ta xem
xét và đánh giá khả năng của Graph tốt hơn.

Hình 3.11: Graph Distance Report
17

Modularity
Modularity là 1 đơn vị đo về cấu trúc trong Graph. Nó được thiết kế để đo cường
độ phân rã của 1 Graph thành các module (còn gọi là các nhóm, cụm hoặc cộng
đồng). Một Graph với modularity cao sẽ có các kết nối dày đặc giữa các nút với
module nhưng sẽ thưa thớt giữa các nút với các module khác nhau. Modularity
thường được sử dụng trong phương pháp tối ưu để phát hiện cấu trúc cộng đồng
trong Graph. Tuy nhiên, người ta đã chứng minh rằng modularity bị giới hạn trong
việc tìm kiếm và không thể phát hiện ra các cộng đồng nhỏ.
• Khi nhấn Run trong Modularity sẽ hiện ra 1 bảng thông báo với các tùy chọn. Tùy
theo nhu cầu sử dụng chúng ta có thể điều chỉnh để phù hợp với mục đích. Ở đây
chúng ta để tùy chọn theo mặc định

Hình 3.12: Modularity
• Sau khi thực hiện chúng ta đã phân chia Graph ra thành 19 cộng đồng

Hình 3.13: Modularity Report
18

3.2.3 Filters
Chức năng này giúp chúng ta sàng lọc lại dữ liệu thành những dữ liệu mà chúng ta
đang cần để phân tích. Chức năng này nằm ở góc phải phía dưới cùng và kế bên
Statistics.

Hình 3.14: Filters
_ Degree Range

Chức năng giúp chúng ta lọc Degree theo giá trị và chỉ hiện các nodes theo giá trị
trong khoảng đó. Nó nằm trong mục Topology, khi mở ra chúng ta double click
vào Degree Range, khi đó phía dưới bảng sẽ hiện ra khoảng giá trị mà chúng ta
cần lọc dữ liệu. Ở đây chúng ta sẽ thử để giá trị từ 8 đến 44. Sau đó chúng ta nhấn
Filter để thực hiện.

19

Hình 3.15: Degree Range

Chúng ta thấy bảng context đã thay đổi dữ liệu hiện Node chỉ còn 22 chiếm 8.06%
tỉ lệ Node ban đầu và Edge còn 34 chiếm 8.5% tỉ lệ Edges ban đầu

Hình 3.16: Context
• Graph cũng đã thay đổi hình dạng chỉ hiển thị các Node và Edge theo bộ lọc

Hình 3.17: Filters Degree Range

3.2.4 Ranking
Gephi cung cấp cho chúng ta chức năng này để đánh giá các mức độ trong Graph.
Chức năng này nằm ở góc trái trên cùng trong Gephi. Vì chức năng này có nhiều lựa
chọn nên chúng ta chỉ đi tìm hiểu 1 vài đánh giá bên dưới chứ không tìm hiểu hết.

20

Hình 3.18: Ranking
Degree (Bậc trong Graph):

Degree của một nút chính là số các liên kết tới nút đó trong Graph (số cạnh kề của
một nút). Một nút có giá trị degree cao:
+Người hoạt động tích cực hoặc nổi tiếng nhất.
+Là một đầu nối quan trọng. Có một vị trí thuận lợi.
+ Có tầm ảnh hưởng quan trọng trong mạng.

Trong combo box của Ranking ta chọn Degree. Sau khi chọn chúng ta sẽ lựa chọn
màu của nút để hiển thị tùy vào phạm vi của nút đó. Trong đây ta thấy phạm vi
của Degree là 44 tức là Bậc cao nhất trong Graph là 44. Sau đó ta nhấn Apply để
Gephi thực hiện.

Hình 3.19: Ranking-Degree
• Sau khi Gephi thực hiện xong chúng ta thấy các nút trong Graph thay đổi màu sắc
tùy theo phạm vi Degree của nút đó, từ đó chúng ta sẽ phân biệt được các nút nào
chúng ta cần xem xét

21

Hình 3.20: Graph sau khi sử dụng chức năng Ranking-Degree
_Betweenness Centrality (Độ đo trung tâm dựa trên trung gian):

Betweenness Centrality là độ đo dùng để xác định vị trí của tác nhân trong mạng
mà nó có khả năng kết nối đến những cặp tác nhân hay những nhóm tác nhân
khác. Một nút có độ đo Betweenness Centrality càng cao thì:
+ Giữ một vị trí đặc biệt quan trọng và một tầm ảnh hưởng rất lớn trong mạng.
+ Nếu nút này bị loại bỏ thì sẽ gây ra sự tan rã cấu trúc của mạng, tức là các nút
sẽ không còn có thể trao đổi thông tin liên lạc với nhau.

Trong combo box của Ranking ta chọn Betweenness Centrality. Sau khi chọn
chúng ta sẽ lựa chọn màu của nút để hiển thị tùy vào phạm vi của nút đó. Trong
đây ta thấy phạm vi của Betweenness Centrality là 0.31953 tức là Betweenness
Centrality trong Graph là 0.31953. Sau đó ta nhấn Apply để Gephi thực hiện.

22

Hình 3.21: Ranking-Betweenness Centrality

Sau khi Gephi thực hiện xong chúng ta thấy các nút trong Graph thay đổi màu sắc
tùy theo phạm vi Betweenness Centrality của nút đó, từ đó chúng ta sẽ phân biệt
được các nút nào chúng ta cần xem xét

Hình 3.22: Graph sau khi sử dụng chức năng Ranking-Betweenness
Centrality

23

Closeness Centrality (Độ đo trung tâm theo sự lân cận)

Closeness centrality là độ đo khoảng cách từ một nút đến các nút còn lại trong đồ
thị Một thực thể có giá trị closeness centrality cao:
+ Có thể truy xuất nhanh chóng đến các thực thể khác trong mạng.
+ Có một đường đi ngắn nhất đến nhiều thực thể khác.
+ Có thể truyền đạt, tiếp nhận thông tin từ các nút khác trong mạng một cách
nhanh nhất, ít tốn thời gian nhất.

Eccentricity (Độ lệch tâm)
Khoảng cách tối đa giữa một nút đến tất cả các nút khác được coi là độ lệch tâm của
nút.

3.2.5 Partition
Chức năng này dùng để phân vùng dữ liệu thành các màu sắc khác nhau kèm theo các
số liệu và tỉ lệ phần trăm để người dùng có thể phân tích 1 cách trực quan hơn. Chức
năng nằm ở phía bên trái trên cùng của Gephi kế bên Ranking

Hình 3.23: Partition
_ Modularity Class
Chức năng này sẽ hiển thị các cộng đồng trong Graph dựa vào số liệu ta đã phân
tích Modularity

• Trong combo box ta chọn Modularity Class, nó sẽ hiện ra các dữ liệu gồm Màu,
Số lượng thành phần, Tỉ lệ phần trăm trong cộng đồng.

24

Hình 3.24: Partition-Modularity Class
• Khi nhấn Show Pie bảng sẽ hiện ra cho chúng ta theo biểu đồ tròn

Hình 3.25: Show Pie
• Khi nhấn Group thì Graph sẽ hiển thị các các thành phần chính và sẽ bỏ đi các
node phụ, tùy thuộc vào size node chúng ta có thể biết được mức độ quan trọng
của node đó trong Graph như thế nào

Hình 3.26: Group
25

3.2 Các chức năng trong Gephi…………………………………………………….….213.2.1 Layout……………………………………………………………………….213.2.2 Statistics……………………………………………………………………………………223.2.3 Filters…………………………………………………………………..……253.2.4 Ranking………………………………………………………………………263.2.5 Partition………………………………………………………………………303.3 Kết luận…..…..…………………………………………………………………..33CHƯƠNG 4: KẾT LUẬN VÀ HUỚNG PHÁT TRIỂN……………………………344.1 Thuận lợi…………………………………………………………………………344.2 Khó khăn…………………………………………………………………………344.3 Đóng góp của đề tài………………………………………………………………344.4 Hướng phát triển……….………………………………………………………….35TÀI LIỆU THAM KHẢO…………………………………………………………….36CHƯƠNG 1: TỔNG QUANXu hướng giao tiếp của thế kỷ 21 gắn liền với cụm từ “Mạng xã hội” – nơi tìm kiếm vàchia sẻ thông tin vô cùng hiệu quả. Với một cái tên hoặc địa chỉ email, mọi người có thểnhanh chóng tìm thấy nhau. Một hoạt động của một cá nhân hay một doanh nghiệp có thểđược hưởng ứng với số đông nhiều người. Mọi thông tin trên mạng xã hội có thể đượcnhanh chóng lan tỏa dựa vào mối quan hệ kết nối của mọi thành viên trên mạng xã hội.Mạng xã hội trực tuyến (Online Social Network) là nơi kết nối các thành viên có cùng sởthích trên internet không phân biệt không gian và thời gian, thông qua các dịch vụ mạngxã hội (Social Network Service). Có thể nói, sự ra đời của các site Facebook, Twitter,Myspace, Youtube, Google+, ZingMe… đã khiến cho các mạng xã hội ngày càng trở nênphổ biến hơn. Nó ảnh hưởng trực tiếp tới đời sống của chúng ta, nó tác động vừa tíchcực,cũng như tiêu cực vào tùy từng lĩnh vực như:quân sự,chính trị,giáo dục …Theođó,các mục tiêu phân tích,tìm hiểu MXH là cần thiết cho các cá nhân tổ chức muốn khámphá về nó.Hiện nay có rất nhiều công cụ phân tích MXH, chúng cung cấp sự phân tíchsâu sắc hơn về xã hội, trong đó Gephi là 1 công cụ giúp mọi người có thể nghiên cứu vàphân tích dữ liệu 1 cách trực quan. Chính vì vậy chúng em đã tiến hành nghiên cứu đềtài: “Tìm hiểu về Social network analysis (SNA) và ứng dụng vào một bài toán thực tế”Hình 1.1: Hình ảnh mô tả mạng xã hộiMục tiêu của đề tài- Tìm hiểu về mạng xã hội (Social Network).- Tìm hiểu các phương pháp phân tích mạng xã hội.-Tìm hiểu về phần mềm Gephi để phân tích mạng xã hội.CHƯƠNG 2: CƠ SỞ LÝ THUYẾT2.1 Mạng xã hộiMXH trực tuyến là nơi kết nối các thành viên cùng sở thích trên Internet không phânbiệt không gian và thời gian thông qua các dịch vụ mạng xã hội Email, chat, InternetSharing,… Sự ra đời của các site như Facebook, Twitter, Myspace, Youtube, Google+,Flickr,… đã khiến cho mạng xã hội ngày càng trở nên đa dạng, phổ biến hơn. Ngoài ra tacó thể xem mạng xã hội như một tập hợp các phần tử (nodes), mỗi node có thể là một cáthể, một tập thể, thậm chí là một tổ chức có liên kết, ràng buộc lẫn nhau thông qua cácmối quan hệ xã hội gọi là các liên kết (links).Hình 2.1:Mô hình mạng xã hội Facebook[-1]Mạng xã hội xuất hiện lần đầu tiên năm 1995 với sự ra đời của trang Classmate với mụcđích kết nối bạn học, tiếp theo là sự xuất hiện của SixDegrees vào năm 1997 với mụcđích giao lưu kết bạn dựa theo sở thích[1]Năm 2002, Friendster trở thành một trào lưu mới tại Hoa Kỳ với hàng triệu thành viênghi danh, tuy nhiên sự phát triển quá nhanh này cũng là con dao hai lưỡi: server củaFriendster thường bị quá tải mỗi ngày, gây bất bình cho rất nhiều thành viên.Năm 2004, MySpace ra đời với các tính năng như phimảnh (embedded video) và nhanhchóng thu hút hàng chục ngàn thành viên mới mỗi ngày, các thành viên cũ của Friendstercũng lũ lượt chuyển qua MySpace và trong vòng một năm, MySpace trở thành mạng xãhội đầu tiên có nhiều lượt xem hơn cả Google và được tập đoàn News Corporation mualại với giá 580 triệu USD.Năm 2006, sự ra đời của Facebook đánh dấu bước ngoặt mới cho hệ thống mạng xã hộitrực tuyến với nền tảng lập trình “Facebook Platform” cho phép thành viên tạo ra nhữngcông cụ (apps) mới cho cá nhân mình cũng như các thành viên khác dùng. FacebookPlatform nhanh chóng gặt hái được thành công vược bực, mang lại hàng trăm tính năngmới cho Facebook và đóng góp không nhỏ cho con số trung bình 19 phút mà các thànhviên bỏ ra trên trang này mỗi ngày[2]Hình 2.2: Lịch sử hình thành mạng xã hội qua từng thời kỳBảng số liệu thống kê người dùng năm 2012[-2]TênFacebookWindows Live SpacesFriendsterTwitterTaggedFlixsterClass mateBeBo BeBoOrkutNetlogHI5Miêu tảSố thành viênTỉ lệ truy cập cao nhất ở Canada và ở Anh,nhiều nhân vật nổi tiếngBlogRất phổ biến ở Philippines, Malaysia,Indonesia và SingaporeMạng nhắn tin nhanh, blog nhỏTagged.comThiết kế dành cho những người yêu phimảnhGiúp mọi người tìm lại được những ngườibạn học cũĐược sử dụng rộng rãi nhất ở IrelandRất phổ biến ở Brasil và Ấn ĐộRất phổ biến tại BỉAudience variee750.000.000 (tài khoảnhoạt động)120.000.000115.000.000100.000.00070.000.00069.000.00040.000.00040.000.00037.000.00035.000.00080 000 0002.2 Phân tích mạng xã hộiĐịnh nghĩaPhân tích mạng xã hội là quá trình điều tra các cấu trúc xã hội thông qua việc sử dụng cácmạng lưới và đồ thị lý thuyết. Nó đặc trưng bởi cấu trúc mạng trong các nút (các cá nhân,con người, hay những vật bên trong mạng) và các mối quan hệ (mối quan hệ hay tươngtác) mà chúng kết nối [5].Ví dụ như về các cấu trúc xã hội thường được hình dung thôngqua phân tích mạng xã hội bao gồm các mạng xã hội truyền thông, mạng lưới bạn bè vàngười quen, biểu đồ cộng tác, quan hệ họ hàng, sự lây lan dịch bệnh, và các mối quan hệ.[4][5]Các mạng lưới này thường được hình dung qua sociograms trong đó các nút đượcbiểu diễn như điểm và mối quan hệ được biểu diễn qua dòng.Phân tích mạng xã hội đã nổi lên như là một kỹ thuật quan trọng trong việc hiện đại xãhội học. Nó cũng đã đạt được một sau đây quan trọng trong nhân chủng học, sinh học,nghiên cứu truyền thông, kinh tế, địa lý, lịch sử, khoa học thông tin, nghiên cứu tổ chức,khoa học chính trị, tâm lý xã hội, nghiên cứu phát triển xã hội và bây giờ là nghiên cứungười tiêu dùngCác khái niệm cơ bản trong tổ chức mạng xã hộiTrong phân tích mạng xã hội, ta xem xét mạng xã hội như là đồ thị mạng bao gồm cácđỉnh (nodes), các cạnh (links). Node biểu diễn tập các tác nhân, thực thể, còn link biểudiễn mối quan hệ (relation) giữa các tác nhân, thực thể đó[6]-Tập đỉnhTrong phân tích mạng xã hội, nó còn được biết như là tập các tác nhân (actors) haytập thực thể (entities),…Trong mạng xã hội, tập đỉnh đặc trưng cho các cấu trúccủa các mạng xã hội, các thành viên hay các cộng đồng như một nhóm người, mộttổ chức hay các quốc gia, các trang web, các nhãn từ khoá hay các hình ảnh, video,Ví dụ: ta xét tập đỉnh đặc trưng cho các phần tử trong các mạng như sau:Hình 2.3: Biểu diễn tập đỉnh trong mô hình mạng[11]_ Tập cạnhTrong MXH, tập cạnh đặc trưng cho mối liên kết (Link) hay mối quan hệgiữa các tập đỉnh trong mạng. Mỗi cạnh ta có thể hiểu là một đường đi nối haiđỉnh với nhau. Dựa trên cơ sở lý thuyết đồ thị, ta chia tập cạnh ra là 2 loại:-Đối với đồ thị có hướng: Tập cạnh dạng trực tiếp, được biểu diễn bằng đườngthẳng có hướng (xác định hướng theo chiều mũi tên)-Đối với đồ thị vô hướng: Tập cạnh dạng gián tiếp, được biểu diễn bằng đườngthẳng vô hướng (không có chiều mũi tên)Hình 2.4: Đồ thị có hướng và đồ thị vô hướngNgoài ra, đối với đồ thị, một thành phần quan trọng đó là trọng số của cạnh. Trọng số củacạnh được định nghĩa là đơn vị dùng để xác định mức độ hay tần suất liên kết giữa 2 đỉnhtrong đồ thị. Đối với các bài toán trong lý thuyết đồ thị, trọng số đóng vai trò quyết địnhđể giải quyết bài toán tìm đường đi ngắn nhất trong đồ thịHình 2.5: Sơ đồ mạng xã hội hiển thị các mối quan hệ hữu nghị giữa một tập hợpcủa Facebook người dùngỨng dụng thực tế-Phân tích mạng xã hội – SNA – được ứng dụng trong nhiều lĩnh vực khác nhau:- Các doanh nghiệp sử dụng SNA để phân tích và cải thiện lưu lượng giao tiếp trong tổchức của họ hoặc với các mạng của đối tác và khách hàng.- Cơ quan thực thi pháp luật và quân đội sử dụng SNA để xác định mạng lưới tội phạm vàkhủng bố từ các dấu vết của truyền thông mà họ thu thập được và sau đó xác định các đốitượng chủ chốt trong các mạng này.- Các trang web mạng xã hội như facebook sử dụng các yếu tố cơ bản của SNA để xácđịnh và giới thiệu bạn bè tiềm năng dựa vào quan hệ bạn bè của bạn bè (friends offriends).- Nhà khai thác mạng điện thoại, điện thoại di động sử dụng phương phương pháp SNAđể tối ưu hóa cấu trúc và năng lực trong mạng lưới của họ.- Các tổ chức xã hội dân sự sử dụng SNA để phát hiện ra xung đột lợi ích trong các kếtnối ẩn giữa các cơ quan chính phủ, vận động hành lang và các doanh nghiệp.2.3 Lịch sử phân tích mạng xã hội-Vào cuối năm 1890, cả hai Émile Durkheim và Ferdinand Tönnies đã trình bày các ýtưởng của mạng xã hội trong lý thuyết của họ và nghiên cứu các nhóm xã hội.Tönnies lậpluận rằng các nhóm xã hội có thể tồn tại như các mối quan hệ xã hội cá nhân,trực tiếp làcác cá nhân liên kết với người chia sẻ các giá trị niềm tin (Gemeinschaft, Đức, thườngđược dịch là ” cộng đồng “) hoặc liên kết xã hội khách quan( Gesellschaft, Đức, thườngđược dịch là ” xã hội “) [7].Durkheim đã đưa ra một lời giải thích phi-cá nhân của thực tếxã hội, cho rằng hiện tượng xã hội nảy sinh khi các cá nhân tương tác tạo thành một thựctế rằng không còn có cá thể nào được hạch toán vào các điều khoản của các thuộc tínhcủa các cá nhân. [8] Georg Simmel, viết vào đầu thế kỷ XX, chỉ ra bản chất của mạng vàảnh hưởng của nó trên sự tương tác và kiểm tra khả năng tương tác trong mạng lưới lỏnglẻo hơn là 1 nhóm. [9]-Phát hiện quan trọng trong lĩnh vực này được thấy rõ trong những năm 1930 bởi một sốnhóm trong tâm lý học, nhân chủng học, và toán học làm việc độc lập. [10] [11] Trong tâm lýhọc, vào những năm 1930, Jacob L. Moreno bắt đầu ghi và phân tích hệ thống tương tácxã hội trong các nhóm nhỏ, đặc biệt là các lớp học và các nhóm làm việc(xem sociometry ) [12] [13]. Trong nhân chủng học, là nền tảng cho lý thuyết mạng xã hội làlý luận và dân tộc học việc của Bronislaw Malinowski, [13] Alfred RadcliffeBrown, và Claude Lévi-Strauss. [14] Một nhóm các nhà nhân chủng học xã hội gắn liềnvới Max Gluckman và học Manchester, bao gồm John A. Barnes, [15] J. ClydeMitchell và Elizabeth Bott Spillius thường được ghi với thực hiện một số các nghiên cứuthực địa đầu tiên mà từ đó phân tích mạng đã được thực hiện [16] [17], điều tra mạng lướicộng đồng ở miền nam châu Phi, Ấn Độ và Vương quốc Anh. [18] đồng thời, nhà nhânchủng học người Anh SF Nadel hệ thống hóa một lý thuyết về cấu trúc xã hội đã ảnhhưởng lớn trong mạng lưới phân tích sau đó. [19] trong xã hội học, các (năm 1930) việcđầu tiên của Talcott Parsons thiết lập giai đoạn tiếp cận cho quan hệ để tìm hiểu cấu trúcxã hội. [20] [21] sau đó, rút ra từ lý thuyết Parsons, công việc của các nhà xã hội học PeterBlau cung cấp một động lực mạnh mẽ cho việc phân tích các mối quan hệ quan hệ củacác đơn vị xã hội với công việc của mình trên lý thuyết trao đổi xã hội. [22] [23] [24].Vào năm1970, số lượng ngày càng tang của các học giả làm việc để kết hợp các bài hát và truyềnthống khác nhau. Một nhóm gồm các nhà xã hội học Harrison white và các sinh viên củaông tại Bộ Đại học . Ngoài ra có một người hoạt động độc lập trong các bộ phận quan hệxã hội Harvard là Charles Tilly, người tập trung vào các mạng xã hội học chính trị, cộngđồng và các phong trào xã hội, và Stanley Milgram, người đã phát triển “sáu cấp độ khácnhau” luận án. [25] Mark Granovetter [26] và Barry Wellman [27] là một trong những học sinhcũ của White, người xây dựng và đấu tranh cho việc phân tích mạng xã hội. [28] [29] [30]2.4 Phần mềm phân tích mạng xã hộiHiện nay trên thế giới có rất nhiều phần mềm để phân tích mạng xã hội nhưng trong đóngười dùng dánh giá cao nhất là phần mềm Gephi. Gephi có giao diện trực quan và dễtiếp cận với người dùng nên trong đồ án này chúng ta sẽ đi tìm hiểu về phần mềm Gephi.10Hình 2.6: Logo Gephi- Gephi giúp chúng ta tương tác để hiện hình hóa và làm nền tảng cho việc nghiêncứu tất cả các loại mạng và các hệ thống phức tạp, tùy biến và các đồ thị phân cấp.- Gephi là một công cụ giúp mọi người có thể nghiên cứu và hiểu được đồ thị.Giống như Photoshop trong hình ảnh còn Gephi là đối với đồ thị, người dùngtương tác với phép biểu diễn, thao tác cấu trúc, hình dạng và màu sắc để làm sángtỏ các thuộc tính ẩn. Mục đích của Gephi là để giúp các nhà phân tích dữ liệu đưara các giả thuyết, nghiên cứu các hình mẫu bằng trực giác, các cấu trúc kỳ dị bị côlập hoặc do lỗi trong quá trình tìm nguồn cung ứng dữ liệu. Nó là một công cụ bổsung thay cho việc thống kê truyền thống, như tư duy trực quan và giao diện tươngtác. Đây là một phần mềm dành cho việc nghiên cứu phân tích dữ liệu, một môhình được thể hiện trong việc phân tích một cách trực quan.Hình 2.7: Giao diện của Gephi11CHƯƠNG 3:PHÂN TÍCH MẠNG XÃ HỘI VỚI GEPHI3.1 Lấy dữ liệu từ mạng xã hộiĐể phân tích mạng xã hội với Gephi trước hết chúng ta phải lấy được dữ liệu để phântích, Trong đồ án này, chúng ta sẽ lấy dữ liệu từ mạng xã hội Facebook-Bước 1: Đầu tiên chúng ta gõ từ khóa “netvizz” trong khung search của Facebook.netvizz là 1 ứng dụng được phát triển trên Facebook để giúp chúng ta lấy được dữ liệu từmạng xã hội nàyHình 3.1: Tìm kiếm Netvizz-Bước 2: Sau khi chọn netvizz sẽ hiện ra 1 trang để chúng ta lựa chọn kiểu dữ liệu cầnlấy gồm các page trên Facebook, nhóm Facebook… Ở đây chúng ta sẽ lựa chọn lấy dữliệu trên 1 nhóm Facebook để phân tích.Hình 3.2: Lựa chọn kiểu dữ liệu12-Bước 3: Khi chúng ta nhấn vào Group data thì sẽ hiện ra 1 trang với các lựa chọn:Id của nhóm Facebook: Thông thường khi chúng ta vào một nhóm Facebookchúng ta chỉ thấy được đường dẫn và tên nhóm Facebook đó, muốn lấy được Idcủa nhóm Facebook đó netvizz cho chúng ta đường link ()dẫn đến trang web để lấy Id của nhóm đó. Chúng ta chỉ cần copy đường dẫn củanhóm Facebook đó và gán vào textbox sau đó nhấn Lookup thì nó sẽ hiện ra chochúng ta Id (dòng chữ số màu đỏ) của nhóm đó. Trong đồ án này chúng ta sẽ phântích nhóm Facebook của trường đại học Tôn Đức Thắng “IT TÔN ĐỨC THẮNG”( />Hình 3.3: Lấy id người dùng FacebookLựa chọn dữ liệu: sẽ có hai lựa chọn cho ta. Một là: lấy bao nhiêu status mới nhấtcủa nhóm đó, tối đa là 999 status. Hai là: lấy những status trong khoảng thời gianbao nhiêu. Ở đây chúng ta sẽ lấy 50 status mới nhất của nhóm.Hình 3.4: Lựa chọn dữ liệuSau khi lựa chọn xong chúng ta sẽ được 1 trang như thế này. Sau đó chúng tanhấn “get group data” phía dưới cùng để lấy dữ liệu.13Hình 3.5: Điền thông tin để lấy dữ liệu-Bước 4: Sau khi thực hiện xong Bước 3 netvizz tiếp tục hiện ra cho chúng ta 1 trangmới. Chúng ta sẽ nhấn vào “zip archive” để download dữ liệu về mạng dưới dạng thư mục.zipHình 3.6: Trang download dữ liệu-Bước 5: Sau khi giải nén thư mục.zip ở Bước 4 chúng ta sẽ được 5 file. Chúng ta chỉquan tâm tới file.gdf vì file đó chứa các dữ liệu cần thiết để phân tích. Khi chúng ta nhấn14vào file.gdf thì Gephi sẽ được mở và tự import các dữ liệu có trong file.gdf vào và hiện racho chúng ta Graph. Khi Gephi hiện được ra Graph thì chúng ta đã thành công trong việclấy dữ liệu từ Facebook.Hình 3.7: Giao diện Gephi sau khi import dữ liệu3.2 Các chức năng trong Gephi3.2.1 Layout_ Khi vừa mở Gephi lên chúng ta sẽ thấy Graph rất rối và khó phân biệt. Gephi chochúng ta lựa chọn layout để hiển thị Graph 1 cách trực quan hơn._ Chúng ta nhìn bên góc trái của ứng dụng sẽ thấy bảng Layout, và có 1 combo box đểchúng ta lựa chọn muốn hiển thị layout ra sao. Ở đây chúng ta sẽ chọn “Force Atlas” vìkhi test các layout khác thì thấy Force Atlas dễ nhìn và trực quan hơn, nó sẽ gom các nútlại 1 cụm để dễ dàng trong việc phân tích. Ngoài ra trong bảng layout cũng sẽ hiển thị cáctùy chỉnh về khoảng cách trong Graph chúng ta có thể tự do thay đổi theo ý mình.15Hình 3.8: Hiển thị Graph theo layout Force Atlas3.2.2 StatisticsChức năng này dùng để thống kê các số liệu có trong Graph. Chức năng này nằm ở bênphải phía dưới cùng của Gephi. Nó bao gồm nhiều chức năng thống kê khác nhauHình 3.9: Statistics_ Avg. Path Length:Chức năng này dùng để tính chiều dài trung bình của các cạnh trong GraphKhi nhấn vào sẽ hiện ra 1 bảng với tùy chọn giữa Directed (có hướng) vàUndirected (vô hướng). Chúng ta chọn “Undirected” vì Graph chúng ta đang hiểnthị đã là 1 Directed Graph. Đồng thời chúng ta cũng chọn “Normalize Centralitiesin [0,1]” để dễ dàng so sánh số liệu16Hình 3.10: Avg. Path Length• Sau khi nhấn OK sẽ hiện ra cho chúng ta các số liệu gồm Diameter (đường kính),Radius (bán kính), Average Path length (chiều dài trung bình của đường dẫn ),Number of shortest paths (Số đường đi ngắn nhất)Graph Distance Report chứa các số liệu thống kê dưới dạng biểu đồ gồmBetweenness Centrality, Closeness Centrality và Eccentricity giúp chúng ta xemxét và đánh giá khả năng của Graph tốt hơn.Hình 3.11: Graph Distance Report17ModularityModularity là 1 đơn vị đo về cấu trúc trong Graph. Nó được thiết kế để đo cườngđộ phân rã của 1 Graph thành các module (còn gọi là các nhóm, cụm hoặc cộngđồng). Một Graph với modularity cao sẽ có các kết nối dày đặc giữa các nút vớimodule nhưng sẽ thưa thớt giữa các nút với các module khác nhau. Modularitythường được sử dụng trong phương pháp tối ưu để phát hiện cấu trúc cộng đồngtrong Graph. Tuy nhiên, người ta đã chứng minh rằng modularity bị giới hạn trongviệc tìm kiếm và không thể phát hiện ra các cộng đồng nhỏ.• Khi nhấn Run trong Modularity sẽ hiện ra 1 bảng thông báo với các tùy chọn. Tùytheo nhu cầu sử dụng chúng ta có thể điều chỉnh để phù hợp với mục đích. Ở đâychúng ta để tùy chọn theo mặc địnhHình 3.12: Modularity• Sau khi thực hiện chúng ta đã phân chia Graph ra thành 19 cộng đồngHình 3.13: Modularity Report183.2.3 FiltersChức năng này giúp chúng ta sàng lọc lại dữ liệu thành những dữ liệu mà chúng tađang cần để phân tích. Chức năng này nằm ở góc phải phía dưới cùng và kế bênStatistics.Hình 3.14: Filters_ Degree RangeChức năng giúp chúng ta lọc Degree theo giá trị và chỉ hiện các nodes theo giá trịtrong khoảng đó. Nó nằm trong mục Topology, khi mở ra chúng ta double clickvào Degree Range, khi đó phía dưới bảng sẽ hiện ra khoảng giá trị mà chúng tacần lọc dữ liệu. Ở đây chúng ta sẽ thử để giá trị từ 8 đến 44. Sau đó chúng ta nhấnFilter để thực hiện.19Hình 3.15: Degree RangeChúng ta thấy bảng context đã thay đổi dữ liệu hiện Node chỉ còn 22 chiếm 8.06%tỉ lệ Node ban đầu và Edge còn 34 chiếm 8.5% tỉ lệ Edges ban đầuHình 3.16: Context• Graph cũng đã thay đổi hình dạng chỉ hiển thị các Node và Edge theo bộ lọcHình 3.17: Filters Degree Range3.2.4 RankingGephi cung cấp cho chúng ta chức năng này để đánh giá các mức độ trong Graph.Chức năng này nằm ở góc trái trên cùng trong Gephi. Vì chức năng này có nhiều lựachọn nên chúng ta chỉ đi tìm hiểu 1 vài đánh giá bên dưới chứ không tìm hiểu hết.20Hình 3.18: RankingDegree (Bậc trong Graph):Degree của một nút chính là số các liên kết tới nút đó trong Graph (số cạnh kề củamột nút). Một nút có giá trị degree cao:+Người hoạt động tích cực hoặc nổi tiếng nhất.+Là một đầu nối quan trọng. Có một vị trí thuận lợi.+ Có tầm ảnh hưởng quan trọng trong mạng.Trong combo box của Ranking ta chọn Degree. Sau khi chọn chúng ta sẽ lựa chọnmàu của nút để hiển thị tùy vào phạm vi của nút đó. Trong đây ta thấy phạm vicủa Degree là 44 tức là Bậc cao nhất trong Graph là 44. Sau đó ta nhấn Apply đểGephi thực hiện.Hình 3.19: Ranking-Degree• Sau khi Gephi thực hiện xong chúng ta thấy các nút trong Graph thay đổi màu sắctùy theo phạm vi Degree của nút đó, từ đó chúng ta sẽ phân biệt được các nút nàochúng ta cần xem xét21Hình 3.20: Graph sau khi sử dụng chức năng Ranking-Degree_Betweenness Centrality (Độ đo trung tâm dựa trên trung gian):Betweenness Centrality là độ đo dùng để xác định vị trí của tác nhân trong mạngmà nó có khả năng kết nối đến những cặp tác nhân hay những nhóm tác nhânkhác. Một nút có độ đo Betweenness Centrality càng cao thì:+ Giữ một vị trí đặc biệt quan trọng và một tầm ảnh hưởng rất lớn trong mạng.+ Nếu nút này bị loại bỏ thì sẽ gây ra sự tan rã cấu trúc của mạng, tức là các nútsẽ không còn có thể trao đổi thông tin liên lạc với nhau.Trong combo box của Ranking ta chọn Betweenness Centrality. Sau khi chọnchúng ta sẽ lựa chọn màu của nút để hiển thị tùy vào phạm vi của nút đó. Trongđây ta thấy phạm vi của Betweenness Centrality là 0.31953 tức là BetweennessCentrality trong Graph là 0.31953. Sau đó ta nhấn Apply để Gephi thực hiện.22Hình 3.21: Ranking-Betweenness CentralitySau khi Gephi thực hiện xong chúng ta thấy các nút trong Graph thay đổi màu sắctùy theo phạm vi Betweenness Centrality của nút đó, từ đó chúng ta sẽ phân biệtđược các nút nào chúng ta cần xem xétHình 3.22: Graph sau khi sử dụng chức năng Ranking-BetweennessCentrality23Closeness Centrality (Độ đo trung tâm theo sự lân cận)Closeness centrality là độ đo khoảng cách từ một nút đến các nút còn lại trong đồthị Một thực thể có giá trị closeness centrality cao:+ Có thể truy xuất nhanh chóng đến các thực thể khác trong mạng.+ Có một đường đi ngắn nhất đến nhiều thực thể khác.+ Có thể truyền đạt, tiếp nhận thông tin từ các nút khác trong mạng một cáchnhanh nhất, ít tốn thời gian nhất.Eccentricity (Độ lệch tâm)Khoảng cách tối đa giữa một nút đến tất cả các nút khác được coi là độ lệch tâm củanút.3.2.5 PartitionChức năng này dùng để phân vùng dữ liệu thành các màu sắc khác nhau kèm theo cácsố liệu và tỉ lệ phần trăm để người dùng có thể phân tích 1 cách trực quan hơn. Chứcnăng nằm ở phía bên trái trên cùng của Gephi kế bên RankingHình 3.23: Partition_ Modularity ClassChức năng này sẽ hiển thị các cộng đồng trong Graph dựa vào số liệu ta đã phântích Modularity• Trong combo box ta chọn Modularity Class, nó sẽ hiện ra các dữ liệu gồm Màu,Số lượng thành phần, Tỉ lệ phần trăm trong cộng đồng.24Hình 3.24: Partition-Modularity Class• Khi nhấn Show Pie bảng sẽ hiện ra cho chúng ta theo biểu đồ trònHình 3.25: Show Pie• Khi nhấn Group thì Graph sẽ hiển thị các các thành phần chính và sẽ bỏ đi cácnode phụ, tùy thuộc vào size node chúng ta có thể biết được mức độ quan trọngcủa node đó trong Graph như thế nàoHình 3.26: Group25