PHÂN TÍCH MẠNG XÃ HỘI Social Network Analysis (SNA) – Tài liệu text
PHÂN TÍCH MẠNG XÃ HỘI Social Network Analysis (SNA)
Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.84 MB, 42 trang )
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT
ĐỀ TÀI :
PHÂN TÍCH MẠNG XÃ HỘI
Social Network Analysis (SNA)
Giảng viên hướng dẫn : PGS.TS. Đỗ Phúc
Sinh viên thực hiện:Tạ Lê Thủy Tiên
MHHV:CH1101144
1
MỤC LỤC
LỜI MỞ ĐẦU 3
PHẦN I: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐỒ THỊ: 4
PHẦN II: PHÂN TÍCH MẠNG XÃ HỘI 10
KẾT LUẬN 41
THAM KHẢO 42
2
LỜI MỞ ĐẦU
Thế giới có gần 700 triệu người dùng Facebook, tiêu tốn 700 tỉ phút/ tháng để cập
nhật thông tin về gia đình, bạn bè, tải hình ảnh, video hay đơn giản chia sẻ những
suy nghĩ của mình (nguồn , tháng 6/2011)
Ngày nay các mạng xã hội với mô hình UGC (User generated content – người
dùng tạo ra nội dung) đang bùng nổ dưới nhiều hình thức, đặc biệt là các trang
web cung cấp dịch vụ blog.Các hệ thống này đã đưa ra hàng triệu trang web cá
nhân được cập nhật liên tục bởi người dùng và ý kiến (comment) của khách truy
cập. Người dùng vào đây không chỉ để cập nhật thông tin về cá nhân mà còn chia
sẻ sẽ suy nghĩ, nhận xét, sự trải nghiệm về một sản phẩm hay dịch vụ nào đó
Đây chính là mỏ vàng đối với nhiều công ty! Các chuyên gia marketing qua đó có
cơ hội tiếp cận người tiêu dùng tiềm năng và biết thêm trải nghiệm của khách
hàng. Từ đó, họ phân tích thêm cho việc kinh doanh. Sự tương tác này được IDC
gọi là phân tích dữ liệu xã hội trực tuyến.
Dữ liệu trên MXH trực tuyến khi được phân tích có ý nghĩa với các công ty cung
cấp dịch vụ cho người tiêu dùng ở quy mô lớn. Thông qua các trao đổi trên MXH,
đội ngũ bán hàng và marketing có thể có được thông tin về SP/DV hiện tại hay ý
tưởng cho SP, chiến dịch marketing sắp tới. Càng nhiều người nói về SP/DV thì
các phân tích sẽ càng có giá trị với DN
Bài tiểu luận trình bày về Đồ thị-Cơ sở dữ liệu đồ thị-Mạng xã hội-Lí thuyết phân
tích mạng xã hội-Ví dụ đơn giản-Sử dụng phần mềm NODEXL-
Degree_betweness_closeness_clustering.exe để phân tích mạng xã hội đơn giản.
Em xin chân thành cảm ơn PGS.TS. Đỗ Phúc – Giảng viên môn học cơ sở dữ liệu
nâng cao đã truyền đạt những kiến thức vô cùng quý báu, xin chân thành cám ơn
ban cố vấn học tập và ban quản trị chương trình đào tạo thạc sĩ Công nghệ thông
tin qua mạng của Đại Học Quốc Gia TPHCM đã tạo điều kiện về tài liệu tham
khảo để em có thể hoàn thành môn học này.
Chân thành cám ơn!
Tạ Lê Thủy Tiên
3
PHẦN I: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐỒ THỊ:
I. ĐỒ THỊ:
1. Ví dụ đồ thị trong thực tế:
1.1. Hợp chất hóa học (Cheminformatics):
1.2. Cấu trúc protein:
1.3. Cơ sở dữ liệu XML, Web, và phân tích mạng xã hội:
2. Khái quát đồ thị
Đồ thị là một tập các đối tượng được gọi là các đỉnh được nối với nhau bởi các
cạnh.Có 2 loại đồ thị : đồ thị vô hướng và đồ thị có hướng.
Đồ thị vô hướng
4
Đồ thị có hướng
Cấu trúc đồ thị có thể mở rộng bằng cách gán trọng số cho các cạnh của đồ thị.
Có thể sử dụng đồ thị trọng số để biểu diễn những khái niệm khác nhau như chiều
dài con đường,thời gian đi giữa hai nút, độ mạnh liên kết giữa các nút, số giao tác
kết nối giữa 2 nút ở một thời điểm nào đó…
Nhiều bài toán thực tế có thể được biểu diễn bằng đồ thị. Ví dụ, cấu trúc liên
kết của một website có thể được biểu diễn bằng một đồ thị có hướng, XML, cấu
trúc phân tử hóa học, cấu trúc protein, đối tượng 3D…
II. CƠ SỞ DỮ LIỆU ĐỒ THỊ
1. Giới thiệu :
Cơ sở dữ liệu đồ thị là tập các đồ thị.Một cơ sở dữ liệu đồ thị có thể có nhiều đồ thị
nhưng cũng có thể chỉ có một đồ thị, đó là một đồ thị rất lớn chứa nhiều nút và
đỉnh ví dụ như mạng xã hội.
1.1. Một đồ thị có chứa các nút và các mối quan hệ.
Đồ thị đơn giản nhất có thể là một nút duy nhất một bản ghi đã được đặt tên giá trị
được gọi là thuộc tính.Một Node có thể bắt đầu bằng một thuộc tính đơn giản và
phát triển lên một vài triệu, mặc dù có thể có một chút bất tiện.Tại một số điểm, nó
tạo nên chiều để phân phối dữ liệu vào nhiều nút, tổ chức với các mối quan hệ rõ
ràng.
1.2. Mối quan hệ tổ chức đồ thị
“Nodes —Được tổ chức bởi→Mối quan hệ—mà có → Thuộc tính”
Mối quan hệ tổ chức các nút thành những cấu trúc bất kỳ, cho phép một đồ thị
giống như một danh sách, một cây, một bản đồ, hoặc một tổ chức phức hợp trong
đó có thể được kết hợp thành phức tạp hơn, cấu trúc kết nối với nhau phong phú.
1.3. Truy vấn một đồ thị với một Traversal
5
MộtTraversal là làm thế nào bạn truy vấn một đồ thị, điều khiển từ nút bắt đầu từ
nút liên quan đến theo một thuật toán, việc tìm kiếm câu trả lời cho câu hỏi như
“Những âm nhạc nào bạn bè của tôi thích mà tôi chưa sở hữu,” hoặc “nếu điều này
nguồn cung cấp năng lượng giảm xuống, những dịch vụ web bị ảnh hưởng?”
1.4. Chỉ mục tra cứu các nút hoặc các mối quan hệ
Thông thường, bạn muốn tìm thấy một nút cụ thể hoặc mối quan hệ theo một Sở
hữu nó có.Thay vì đi qua toàn bộ đồ thị, sử dụng một chỉ số để thực hiện một tìm
kiếm,ch câu hỏi như “tìm ra cho các tài khoản tên người dùng điều khiển của đồ
thị”.
1.5. Neo4j là một cơ sở dữ liệu đồ thị
Neo4j là một cơ sở dữ liệu mã nguồn mở đồ thị hỗ trợ thương mại. Nó được thiết
kế và xây dựng từ đơn giản lên là một cơ sở dữ liệu đáng tin cậy tối ưu hóa cho
6
cấu trúc đồ thị thay vì các bảng.Làm việc với Neo4j, ứng dụng của bạn được tất cả
các biểu cảm của một đồ thị, Với tất cả tin cậy bạn mong đợi của một cơ sở dữ
liệu.
2. So sánh Mô hình cơ sở dữ liệu
Một cơ sở dữ liệu đồ thị lưu trữ dữ liệu có cấu trúc trong các nút và các mối quan
hệ của một đồ thị.Làm thế nào để so sánh với các mô hình bền bỉ khác? Bởi vì một
đồ thị là một cấu trúc tổng quát, chúng ta hãy so sánh một vài mô hình sẽ tìm trong
một đồ thị.
2.1. Một cơ sở dữ liệu đồ thị biến đổi một RDBMS.
Lật đổ ngăn xếp của các bản ghi trong một cơ sở dữ liệu quan hệ khi vẫn giữ tất cả
các mối quan hệ, và bạn sẽ thấy một đồ thị.nơi mà hợp một RDBMS được tối ưu
hóa cho dữ liệu tổng hợp, Neo4j được tối ưu hóa cho dữ liệu kết nối cao
7
2.2. Cơ sở dữ liệu đồ thị lập một lưu trữ giá trị khóa
Một mô hình giá trị khóa tuyệt vời cho tra cứu các giá trị đơn giản hoặc danh
sách.Khi các giá trị được kết nối với nhau, bạn đã có một đồ thị.Neo4j cho phép
bạn xây dựng cấu trúc dữ liệu đơn giản thành phức tạp hơn, dữ liệu kết nối với
nhau.
3. Cách lưu trữ đồ thị:
3.1. Lưu trữ bằng RDBMS
Dữ liệu được lưu trữ thành những dòng và cột trong những table khác nhau.Dữ liệu
được truy xuất bằng câu lệnh SQL.SQL cho phép người sử dụng truy xuất khá
mạnh mẽ dữ liệu đồ thị bao gồm cả việc trích xuất dữ liệu mới từ dữ liệu đã lưu
trữ.
8
Mặc dù có nhiều điểm mạnh nhưng SQL không thể hổ trợ những thao tác tính
toán, những biểu thức phức tạp một cách linh hoạt và tùy lúc.Ví dụ như tính chi
phí một con đường đi từ đỉnh này để đỉnh khác, tìm chi phí thấp nhất để đi giữa hai
nút cho trước…
3.2. Lưu trữ bằng SBGE
Để giải quyết vấn đề trên DB2 và RDBMS đã mở rộng SQL bằng cách xây dựng
nhưng hàm cụ thể được gọi là user-defined functions (UDFs). UDFs được sử dụng
mọi nơi mà người sử dụng muốn.
SBGE sử dụng những hàm mở rộng của DB2 để thao tác trên dữ liệu đồ thị.Với
SBGE có thể dễ dàng quản lý dữ liệu đồ thị thông qua các nút, cạnh.
Với RDBMSs cho phép người sử dụng định nghĩa cũng như tìm kiếm những đồ thị
con. RDBMSs có thể linh hoạt trên một đồ thị dữ liệu lớn bởi vì SQL có thể tìm
kiếm mà không đòi hỏi việc load cả dữ liệu đồ thị lên bộ nhớ tạm. Do đó, SBGE
chính là sự kết hợp giữa SQL để quản lý dữ liệu của đồ thị và những hàm mở rộng
để quản lý những hàm truy xuất của đồ thị.
3.3. Lưu trữ bằng network data model trong oracle.
Oracle hỗ trợ những procedure để tạo dữ liệu đồ thị.
3.4 Lưu trữ bằng Neo4j.
Neo4j là một cơ sở dữ liệu đồ thị, lưu trữ dữ liệu trong các nút và các mối quan hệ
của một đồ thị. Chung của các cấu trúc dữ liệu, biểu đồ trang nhã đại diện cho bất
kỳ loại dữ liệu, bảo quản cấu trúc tự nhiên của miền.
Neo4j là một dự án mã nguồn mở có sẵn trong một ấn bản cộng đồng GPLv3, với
phiên bản nâng cao và doanh nghiệp theo giấy phép AGPLv3 và thương mại, hỗ
trợ bởi công nghệ Neo.
9
PHẦN II: PHÂN TÍCH MẠNG XÃ HỘI
I. MẠNG XÃ HỘI:
1. Mạng xã hội:
Mạng xã hội, hay gọi là mạng xã hội ảo, (tiếng Anh: social network) là dịch vụ nối
kết các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác
nhau không phân biệt không gian và thời gian.
Mạng xã hội có những tính năng như chat, e-mail, phim ảnh, voice chat, chia sẻ
file, blog và xã luận. Mạng đổi mới hoàn toàn cách cư dân mạng liên kết với nhau
và trở thành một phần tất yếu của mỗi ngày cho hàng trăm triệu thành viên khắp
thế giới
[1]
. Các dịch vụ này có nhiều phương cách để các thành viên tìm kiếm bạn
bè, đối tác: dựa theo group (ví dụ như tên trường hoặc tên thành phố), dựa trên
thông tin cá nhân (như địa chỉ e-mail hoặc screen name), hoặc dựa trên sở thích cá
nhân (như thể thao, phim ảnh, sách báo, hoặc ca nhạc), lĩnh vực quan tâm: kinh
doanh, mua bán
Hiện nay thế giới có hàng trăm mạng mạng xã hội khác nhau, với
MySpace và Facebook nổi tiếng nhất trong thị trường Bắc Mỹ và Tây
Âu; Orkutvà Hi5 tại Nam Mỹ; Friendster tại Châu Á và các đảo quốc Thái Bình
Dương. Mạng xã hội khác gặt hái được thành công đáng kể theo vùng miền
như Bebo tại Anh Quốc, CyWorld tại Hàn Quốc, Mixi tại Nhật Bản và tại Việt
Nam xuất hiện rất nhiều các mạng xã hội như: Zing Me, YuMe,Tamtay
2. Lịch sử:
Mạng xã hội xuất hiện lần đầu tiên năm 1995 với sự ra đời của trang Classmate với
mục đích kết nối bạn học, tiếp theo là sự xuất hiện của SixDegrees vào năm 1997
với mục đích giao lưu kết bạn dựa theo sở thích.
[2]
Năm 2002, Friendster trở thành một trào lưu mới tại Hoa Kỳ với hàng triệu thành
viên ghi danh. Tuy nhiên sự phát triển quá nhanh này cũng là con dao hai lưỡi:
server của Friendster thường bị quá tải mỗi ngày, gây bất bình cho rất nhiều thành
viên.
10
Năm 2004, MySpace ra đời với các tính năng như phim ảnh (embedded video) và
nhanh chóng thu hút hàng chục ngàn thành viên mới mỗi ngày, các thành viên cũ
của Friendster cũng lũ lượt chuyển qua MySpace và trong vòng một năm,
MySpace trở thành mạng xã hội đầu tiên có nhiều lượt xem hơn cả Google và được
tập đoàn News Corporation mua lại với giá 580 triệu USD.
Năm 2006, sự ra đời của Facebook đánh dấu bước ngoặt mới cho hệ thống mạng
xã hội trực tuyến với nền tảng lập trình “Facebook Platform” cho phép thành viên
tạo ra những công cụ (apps) mới cho cá nhân mình cũng như các thành viên khác
dùng. Facebook Platform nhanh chóng gặt hái được thành công vược bậc, mang lại
hàng trăm tính năng mới cho Facebook và đóng góp không nhỏ cho con số trung
bình 19 phút mà các thành viên bỏ ra trên trang này mỗi ngày.
3. Cấu thành:
Mỗi nút (Node) là một cá nhân hay tổ chức, Trong đó, mỗi nút có chứa nhiều
thuộc tính: Họ tên, giới tính, sở thích, hình ảnh, nhưng quan trọng nhất có lẽ là
thuộc tính khóa (primary key) idNode dùng để phân biệt giữa các nút khác.
Mỗi cạnh (Edge) là thể hiện mối quan hệ của hai nút, như: quan hệ bạn bè, quan hệ
họ hàng, quan hệ công tác, quan hệ sở thích, Trong đó mỗi cạnh sẽ là cặp đỉnh
(node) là 2 idNode, ví dụ A quan hệ B sẽ tương ứng là IdNodeA và IdNodeB.
4. Mục tiêu:
Tạo ra một hệ thống trên nền Internet cho phép người dùng giao lưu và chia
sẻ thông tin một cách có hiệu quả, vượt ra ngoài những giới hạn về địa lý và thời
gian.
Xây dựng lên một mẫu định danh trực tuyến nhằm phục vụ những yêu cầu công
cộng chung và những giá trị của cộng đồng.
11
Nâng cao vai trò của mỗi công dân trong việc tạo lập quan hệ và tự tổ chức xoay
quanh những mối quan tâm chung trong những cộng đồng thúc đẩy sự liên kết các
tổ chức xã hội.
5. Cách lưu trữ – Lập chỉ mục và tìm kiếm CSDL đồ thị – Hiện thực
Graph database trên:
5.1. Table Node:
Nội dung:
tNode
IdNode fullname age
A 0
B 0
C 0
D 0
E 0
F 0
G 0
5.2. Table graph:
12
Nội dung:
tGraph
IdA IdB
A B
A H
B C
C D
C H
D E
F H
G H
Thỏa điều kiện:
IdA và IdB phải thỏa mãn ràng buộc khóa ngoại với IdNode và toàn vẹn tham
chiếu.
Do thực tế mạng xã hội giữa hai nút có quan hệ giao hoán nên thực chất là đồ thị
vô hướng nên thứ tự IdA và IdB không quan trọng.
Khóa của tGraph phải bao gồm 2 thuộc tính IdA và IdB vì mạng là đồ thị đơn vô
hướng.
5.3. Ưu nhược điểm:
5.3.1. Ưu điểm: phù hợp với thực tế của mạng xã hội là đồ thị thưa, cách lưu trữ
trên tiết kiệm bộ nhớ, truy vấn (update, change, select) nhanh, chính xác.
5.3.2. Nhược điểm: khó khăn khi biểu diễn đa đồ thị vô hướng, đồ thị có hướng.
II. PHÂN TÍCH MẠNG XÃ HỘI (Social Network Analysis (SNA))
1. Bối cảnh: Phân tích mạng:
SNA có nguồn gốc của nó trong khoa học xã hội cả hai và trong các lĩnh vực rộng
lớn hơn của mạng lưới phân tích và lý thuyết đồ thị.
Mạng lưới phân tích liên quan đến chính nó với việc xây dựng và giải pháp của các
vấn đề có một cấu trúc mạng, cấu trúc như vậy thường giữ trong một đồ thị.
13
Lý thuyết đồ thị cung cấp một tập hợp các khái niệm trừu tượng và phương pháp
để phân tích của đồ thị. Kết hợp với các công cụ phân tích khác và với các phương
pháp phát triển đặc biệt cho trực quan hóa và phân tích của các mạng xã hội, hình
thành cơ sở của điều mà chúng ta gọi là phương pháp SNA.
Nhưng SNA không chỉ là một phương pháp luận, nó là một góc nhìn độc đáo về
chức năng xã hội như thế nào.Thay vì tập trung vào các cá nhân và các thuộc tính
của chúng, hoặc trên các cấu trúc xã hội vĩ mô, mà nó tập trung trên mối quan hệ
giữa các cá nhân, nhóm, hoặc các tổ chức xã hội
2. Bối cảnh: Khoa học Xã hội:
Nghiên cứu xã hội từ một góc độ mạng là để nghiên cứu cá nhân được nhúng vào
trong một mạng lưới các mối quan hệ và tìm kiếm lời giải thích cho hành vi xã hội
trong cấu trúc của các mạng này hơn là trong các cá nhân đơn độc. “góc nhìn về
mạng” này trở nên ngày càng phù hợp trong một xã hội mà Manuel Castells đã
mệnh danh là mạng xã hội.
SNA có một lịch sử lâu dài trong lĩnh vực khoa học xã hội, mặc dù nhiều công
trình trong việc thúc đẩy phương pháp của nó cũng đã đến từ các nhà toán học, vật
lý, sinh học và các nhà khoa học máy tính (vì họ cũng nghiên cứu mạng lưới các
loại khác nhau).
Ý tưởng các mạng trong những mối quan hệ rất quan trọng trong khoa học xã hội
không phải là mới, nhưng phổ biến rộng rãi sẵn có dữ liệu và những tiến bộ trong
tính toán và phương pháp luận bây giờ đã làm cho nó dễ dàng hơn nhiều để áp
dụng SNA cho một loạt các vấn đề.
14
1.1. Ví dụ 1:
Đây là một mô tả ban đầu của những gì chúng ta gọi là ‘ego’ mạng, tức là một mạng lưới
cá nhân.Đồ họa mô tả khác nhau buộc điểm mạnh thông qua các vòng tròn đồng tâm
(Wellman, năm 1998)
Những trực quan này miêu tả những lưu lượng thông tin liên lạc trong một tổ chức
trước và sau khi giới thiệu một hệ thống quản lý nội dung (Garton et al, 1997)
1.2. Ví dụ 2:
15
Một trực quan của các blogger Mỹ cho thấy rõ ràng làm thế nào họ có xu hướng
liên kết chủ yếu đến các blog hỗ trợ cùng một nhóm ,tạo nên hai cụm riêng biệt
(Adamic and Glance, 2005)
2. Bối cảnh: Tên miền khác.
Phân tích mạng xã hội đã tìm thấy ứng dụng trong nhiều lĩnh vực vượt ra ngoài
khoa học xã hội, mặc dù những tiến bộ lớn nhất thường liên quan đến nghiên cứu
các cấu trúc được tạo ra bởi con người.Các nhà khoa học máy tính ví dụ đã được
sử dụng (và thậm chí phát triển mới) phương pháp phân tích mạng để nghiên cứu
các trang web, lưu lượng truy cập Internet, thông tin phổ biến, vv.
Một ví dụ trong khoa học cuộc sống là việc sử dụng các phân tích mạng để nghiên
cứu chuỗi thức ăn trong hệ sinh thái khác nhau. Nhà toán học và vật lý (lý thuyết)
thường tập trung vào sản xuất các phương pháp mới và phức tạp cho việc phân tích
mạng, có thể được sử dụng bởi bất cứ ai, trong phạm vi bất kỳ nơi các mạng có
liên quan.
Các tổ chức xã hội dân sự sử dụng SNA để phát hiện ra xung đột lợi ích trong các
kết nối ẩn giữa các cơ quan chính phủ, vận động hành lang và các doanh nghiệp
Nhà khai thác mạng (điện thoại, cáp, điện thoại di động) sử dụng phương pháp
SNA-như để tối ưu hóa cấu trúc và năng lực của mạng của họ.
Trong ví dụ này, các nhà nghiên cứu thu thập được một số lượng rất lớn dữ liệu
vào các liên kết giữa các trang web và phát hiện ra rằng Web bao gồm một lõi của
các trang liên kết liên động, trong khi hầu hết các trang web khác hoặc liên kết đến
hoặc được liên kết đến từ cốt lõi.Đó là một trong những kiến thức đầu tiên vào quy
mô rất lớn của con người tạo ra cấu trúc (Broder et al, 2000).
3. Ứng dụng thực tế
Các doanh nghiệp sử dụng SNA để phân tích và cải thiện lưu lượng thông tin liên
lạc trong tổ chức của họ, hoặc với mạng của các đối tác và khách hàng.
16
Các cơ quan thực thi pháp luật (và quân đội) sử dụng SNA để xác định các mạng
lưới tội phạm và khủng bố từ các dấu vết thông tin liên lạc mà họ thu thập và sau
đó xác định các người tham gia chính trong các mạng này.
Các trang web mạng xã hội như Facebook sử dụng các yếu tố cơ bản của SNA để
xác định và giới thiệu bạn bè tiềm năng dựa vào bạn bè của bạn bè.
Các tổ chức xã hội dân sự sử dụng SNA để phát hiện ra xung đột lợi ích trong các
kết nối ẩn giữa các cơ quan chính phủ, vận động hành lang và các doanh nghiệp.
Nhà khai thác mạng (điện thoại, cáp, điện thoại di động) sử dụng phương pháp
SNA-như để tối ưu hóa cấu trúc và năng lực của mạng lưới của họ
4. Tại sao và khi nào sử dụng SNA.
Bất cứ khi nào bạn đang nghiên cứu một mạng xã hội, hoặc là ẩn hoặc là online,
hoặc khi bạn muốn hiểu làm thế nào để nâng cao hiệu quả của mạng.
Khi bạn muốn trực quan dữ liệu của bạn để khám phá các mẫu trong các mối quan
hệ hoặc các tương tác.
Khi bạn muốn theo đường dẫn mà thông tin (hoặc bất cứ điều gì về cơ bản) theo
trong các mạng xã hội.
Khi bạn làm nghiên cứu định lượng,mặc dù nghiên cứu định tính góc nhìn một
mạng cũng có giá trị.
(a) Phạm vi của hoạt động và cơ hội dành cho cá nhân thường là một
chức năng vị trí của họ trong các mạng xã hội, phát hiện ra các vị trí này
(thay vì dựa trên các giả định phổ biến dựa trên vai trò và chức năng của
mình, nói như cha, mẹ, giáo viên, công nhân) có thể mang lại kết quả thú vị
và đôi khi đáng ngạc nhiên.
(b) Phân tích định lượng của một mạng xã hội có thể giúp bạn nhận biết
các loại khác nhau của các tác nhân trong mạng hay các người tham gia
chính, người mà bạn có thể tập trung vào nghiên cứu định tính của bạn.
SNA rõ ràng rất hữu ích trong việc phân tích của SNS, OC và các phương tiện
truyền thông xã hội nói chung, để kiểm tra giả thuyết về hành vi online và CMC,
để xác định nguyên nhân rối loạn chức năng cho các cộng đồng hoặc các mạng, và
để thúc đẩy sự gắn kết xã hội và tăng trưởng trong một cộng đồng trực tuyến.
5. Khái niệm cơ bản.
Networks : Làm thế nào để biểu diễn các mạng xã hội khác nhau.
Tie Strength: Làm thế nào để xác định các mối quan hệ mạnh / yếu trong mạng.
Key Players : Làm thế nào để xác định các nút trọng điểm / trung tâm trong mạng.
17
Cohesion(sự gắn kết): Các biện pháp của cấu trúc mạng tổng thể.
Đại diện các mối quan hệ như các mạng:
5.1. Networks : Làm thế nào để biểu diễn các mạng xã hội khác nhau.
5.1.1. Nhập dữ liệu trên một đồ thị có hướng.
5.1.2. Đại diện một đồ thị vô hướng
18
5.1.3. Các mạng Ego và mạng ‘whole’
không có nghiên cứu mạng là “whole”, trong thực tế, nó thường là một một phần
hình ảnh của mạng thực tế đời sống của một người (vấn đề đặc điểm kỹ thuật ranh
giới).
5.2. Tie Strength: Làm thế nào để xác định các mối quan hệ mạnh / yếu
trong mạng.
5.2.1. Thêm trọng số cạnh (hướng hoặc vô hướng)
19
Ma trận kề trở thành đối xứng
cô lập
thay đổi
5.2.2. Cạnh trọng số là sức mạnh mối quan hệ.
Cạnh có thể đại diện cho các tương tác, luồng của thông tin hoặc hàng hóa, tương
đồng / bị sát nhập, Hoặc quan hệ xã hội.
Cụ thể đối với quan hệ xã hội, một proxy cho sức mạnh của hòa có thể là:
(a) Các tần số của sự tương tác (truyền thông) hoặc số lượng của lưu lượng (trao
đổi)
(b) Nguyên tắc có đi có lại trong tương tác hoặc lưu lượng
(c) Các loại tương tác hoặc lưu lượng giữa hai bên (ví dụ, thân mật hay không)
(d) Các thuộc tính khác của các nút hoặc các mối quan hệ (ví dụ như, mối quan hệ
thân nhân)
(e) Cấu trúc của nút kế cận(ví dụ: một vài người bạn chung).
Khảo sát và phỏng vấn cho phép chúng ta thiết lập sự tồn tại lẫn nhau hoặc một
bên sức mạnh / tác động với sự chắc chắn hơn, nhưng các ủy quyền ở trên cũng rất
hữu ích.
5.2.3. Homophily, bắc cầu, và chuyển tiếp.
Homophily chỉ khuynh hướng liên hệ những người có cùng tính cách (tình trạng,
tôn giáo, …).
20
Trọng số có thể là:
• Tần số của sự tương tác trong
giai đoạn quan sát
• Số lượng của các mục trao đổi
trong giai đoạn
• riêng nhận thức của sức mạnh
của mối quan hệ
• Chi phí trong giao tiếp hoặc
trao đổi, ví dụ: khoảng cách
• Kết hợp các
Danh sách cạnh: thêm cột của trọng số
Ma trận kề: thêm trọng số thay vì của 1
Nó hướng đến sự hình thành các nhóm người cùng sở thích, từ đó mối quan hệ
theo hình thức này giúp việc liên hệ dễ dàng hơn.
Sự đồng nhất cực kỳ có thể đóng vai trò bộ đếm trong các hệ nỗ lực và ý tưởng
(heterophily được yêu càu trong một số ngữ cảnh)
Các phân lớp của homophilous có thể là mạnh hoặc yếu.
Bắc cầu trong SNA là mộ thuộc tính của các lớp. Nếu có một lớp giữa A và B và
một lớp giữa B và C, thì sẽ có một kết nối bắc cầu giữa A và C.
Các lớp mạnh thường bắc cầu hơn các lớp yếu; tính chất bắc cầu là bằng chứng
cho sự tồn tại của các lớp liên kết mạnh (nhưng nó không là điều kiện cần hay đủ)
Bắc cầu và homophily kết hợp với nhau hình thành nên đẳng cấu (trong đó các
cụm được nối đầy đủ với nhau)
Các cầu nối là các điểm và cạnh nối giữa các nhóm.
Chúng tạo sự thuận lợi giữa các nhóm thông tin liên lạc, tăng cường sự gắn kết xã
hội, và góp phần thúc đẩy sự đổi mới.
Chúng thường là lớp có quan hệ yếu, không phải mỗi lớp yếu là 1 cầu nối.
5.3. Key Players : Làm thế nào để xác định các nút trọng điểm / trung tâm
trong mạng.
5.3.1. Degree centralitymức độ trung tâm
Một mức (in) hoặc (out) của một node là số lượng liên kết dẫn vào hoặc ra
khỏi các nút
Trong một đồ thị vô hướng, các node tất nhiên giống hệt nhau
21
Thường được sử dụng như là thước đo của mức độ của một nút của sự kết nối và
do đó cũng ảnh hưởng và / hoặc phổ biến
Hữu ích trong việc đánh giá mà các nút là trung tâm đối với việc truyền bá thông
tin và ảnh hưởng đến những người khác trong vùng lân cận của họ ngay lập tức.
Các nút 3 và 5 có mức độ cao nhất (4).
5.3.2. Đường dẫn và đường dẫn ngắn nhất
Một con đường giữa hai nút là trình tự bất kỳ không lặp lại nút mà kết nối hai nút.
Đường đi ngắn nhất giữa hai nút là con đường kết nối hai nút với số các cạnh ngắn
nhất (còn gọi là khoảng cách giữa các nút).
Trong ví dụ bên phải, giữa các nút 1 và 4 có hai đường đi ngắn nhất có độ dài 2:
{1,2,4} và {1,3,4}
Loại khác, con đường dài giữa hai nút là {1,2,3,4}, {1,3,2,4}, {1,2,5,3,4}
và {1,3,5,2 , 4} (con đường dài nhất)
con đường ngắn hơn là cần thiết khi tốc độ giao tiếp hoặc trao đổi được đòi
hỏi (thường xảy ra trong nhiều nghiên cứu, nhưng đôi khi không, ví dụ như
trong các mạng mà lây lan bệnh).
22
5.3.3. Betweeness centrality.
Số lượng các con đường ngắn nhất
đi qua một nút chia cho tất cả các đường đi ngắn nhất trong mạng
Đôi khi chuẩn hóa như vậy là giá trị cao nhất là 1.
cho thấy các nút có nhiều khả năng là con đường thông tin liên lạc giữa các nút
khác.
cũng rất hữu ích trong việc xác định điểm nơi mà các mạng sẽ tan rã (nghĩ rằng ai
sẽ bị cắt bỏ nếu các nút 3 hoặc 5 sẽ biến mất).
5.3.4. Closeness centrality (Sự gần gũi trung tâm)
Chiều dài trung bình của tất cả các đường đi ngắn nhất từ một nút đến tất cả các
nút khác trong mạng (tức là bao nhiêu bước nhảy trên trung bình cần để tiếp cận tất
cả các nút khác)
Nó là một thước đo của tiếp cận, tức là bao lâu nó sẽ có để tiếp cận các nút khác từ
một nút bắt đầu đưa ra.
Hữu ích trong trường hợp nơi mà tốc độ của phổ biến thông tin là mối quan tâm
chính.
Giá trị thấp hơn là tốt hơn khi tốc độ cao hơn là mong đợi.
23
Nút 3 và 5 có sự gần gũi (tức là tốt nhất) thấp nhất, trong khi nút 2 giá vé gần như
là tốt
Lưu ý: Đôi khi thân thiết được định nghĩa như là nghịch đảo của giá trị này, tức là
1 / x, như vậy mà giá trị cao hơn sẽ chỉ tiếp cận cận nhanh hơn
5.3.5. Eigenvector centrality (Vec tơ đặc trưng trung tâm)
Trung tâm eigenvector của một nút là tỷ lệ thuận với tổng hợp của trung tâm
eigenvector của tất cả các nút kết nối trực tiếp với nó
Nói cách khác, một nút với một trung tâm eigenvector cao được kết nối đến các
nút khác với vai trò trung tâm
eigenvector cao
Điều này cũng tương tự như cách Google xếp hạng các trang web liên kết từ cao
liên kết đến các trang được tính hơn
Hữu ích trong việc xác định người được kết nối với các nút được kết nối nhất.
Node 3 có trung tâm eigenvector cao nhất, theo sát sau 2 và 5.
Note: The term ‘eigenvector’ comes from mathematics (matrix algebra), but it is
not necessary for understanding how to interpret this measure
5.3.6. Giải thích các biện pháp :
5.3.7. Xác định tập hợp người chơi chủ chốt.
Trong mạng bên dưới, nút 10 là trung tâm nhất theo mức độ trung tâm
Tuy nhiên, các nút 3 và 5 cùng nhau sẽ tiếp cận các nút
Hơn nữa, mối giữa chúng là rất quan trọng, nếu bị cắt đứt, mạng sẽ phá vỡ thành
hai mạng bị cô lập
24
Nó sau đó những nút khác là tương đương,
Suy nghĩ về việc tập hợp người tham gia chính(keys player) là hữu ích!
5.4. Cohesion(sự gắn kết): Làm thế nào để mô tả cấu trúc của một mạng
lưới
5.4.1. Tương hỗ (mức độ)
Tỷ lệ số lượng các quan hệ được chuyển đổi qua lại (tức là có một cạnh trong cả
hai hướng) trên tổng số các mối quan hệ trong mạng.
Nơi hai đỉnh được cho là liên quan nếu có ít nhất một cạnh giữa chúng.
Trong ví dụ này sẽ là 2/5 = 0,4 (cho dù điều này được coi là cao hay thấp phụ
thuộc vào bối cảnh).
Một chỉ số hữu ích của mức độ tính hổ trợ và trao đổi lẫn nhau trong một mạng,
liên quan đến sự gắn kết xã hội.
Chỉ có ý nghĩa trong đồ thị có hướng.
25
hàng. Từ đó, họ phân tích thêm cho việc kinh doanh. Sự tương tác này được IDCgọi là phân tích dữ liệu xã hội trực tuyến.Dữ liệu trên MXH trực tuyến khi được phân tích có ý nghĩa với các công ty cungcấp dịch vụ cho người tiêu dùng ở quy mô lớn. Thông qua các trao đổi trên MXH,đội ngũ bán hàng và marketing có thể có được thông tin về SP/DV hiện tại hay ýtưởng cho SP, chiến dịch marketing sắp tới. Càng nhiều người nói về SP/DV thìcác phân tích sẽ càng có giá trị với DNBài tiểu luận trình bày về Đồ thị-Cơ sở dữ liệu đồ thị-Mạng xã hội-Lí thuyết phântích mạng xã hội-Ví dụ đơn giản-Sử dụng phần mềm NODEXL-Degree_betweness_closeness_clustering.exe để phân tích mạng xã hội đơn giản.Em xin chân thành cảm ơn PGS.TS. Đỗ Phúc – Giảng viên môn học cơ sở dữ liệunâng cao đã truyền đạt những kiến thức vô cùng quý báu, xin chân thành cám ơnban cố vấn học tập và ban quản trị chương trình đào tạo thạc sĩ Công nghệ thôngtin qua mạng của Đại Học Quốc Gia TPHCM đã tạo điều kiện về tài liệu thamkhảo để em có thể hoàn thành môn học này.Chân thành cám ơn!Tạ Lê Thủy TiênPHẦN I: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐỒ THỊ:I. ĐỒ THỊ:1. Ví dụ đồ thị trong thực tế:1.1. Hợp chất hóa học (Cheminformatics):1.2. Cấu trúc protein:1.3. Cơ sở dữ liệu XML, Web, và phân tích mạng xã hội:2. Khái quát đồ thịĐồ thị là một tập các đối tượng được gọi là các đỉnh được nối với nhau bởi cáccạnh.Có 2 loại đồ thị : đồ thị vô hướng và đồ thị có hướng.Đồ thị vô hướngĐồ thị có hướngCấu trúc đồ thị có thể mở rộng bằng cách gán trọng số cho các cạnh của đồ thị.Có thể sử dụng đồ thị trọng số để biểu diễn những khái niệm khác nhau như chiềudài con đường,thời gian đi giữa hai nút, độ mạnh liên kết giữa các nút, số giao táckết nối giữa 2 nút ở một thời điểm nào đó…Nhiều bài toán thực tế có thể được biểu diễn bằng đồ thị. Ví dụ, cấu trúc liênkết của một website có thể được biểu diễn bằng một đồ thị có hướng, XML, cấutrúc phân tử hóa học, cấu trúc protein, đối tượng 3D…II. CƠ SỞ DỮ LIỆU ĐỒ THỊ1. Giới thiệu :Cơ sở dữ liệu đồ thị là tập các đồ thị.Một cơ sở dữ liệu đồ thị có thể có nhiều đồ thịnhưng cũng có thể chỉ có một đồ thị, đó là một đồ thị rất lớn chứa nhiều nút vàđỉnh ví dụ như mạng xã hội.1.1. Một đồ thị có chứa các nút và các mối quan hệ.Đồ thị đơn giản nhất có thể là một nút duy nhất một bản ghi đã được đặt tên giá trịđược gọi là thuộc tính.Một Node có thể bắt đầu bằng một thuộc tính đơn giản vàphát triển lên một vài triệu, mặc dù có thể có một chút bất tiện.Tại một số điểm, nótạo nên chiều để phân phối dữ liệu vào nhiều nút, tổ chức với các mối quan hệ rõràng.1.2. Mối quan hệ tổ chức đồ thị“Nodes —Được tổ chức bởi→Mối quan hệ—mà có → Thuộc tính”Mối quan hệ tổ chức các nút thành những cấu trúc bất kỳ, cho phép một đồ thịgiống như một danh sách, một cây, một bản đồ, hoặc một tổ chức phức hợp trongđó có thể được kết hợp thành phức tạp hơn, cấu trúc kết nối với nhau phong phú.1.3. Truy vấn một đồ thị với một TraversalMộtTraversal là làm thế nào bạn truy vấn một đồ thị, điều khiển từ nút bắt đầu từnút liên quan đến theo một thuật toán, việc tìm kiếm câu trả lời cho câu hỏi như”Những âm nhạc nào bạn bè của tôi thích mà tôi chưa sở hữu,” hoặc “nếu điều nàynguồn cung cấp năng lượng giảm xuống, những dịch vụ web bị ảnh hưởng?”1.4. Chỉ mục tra cứu các nút hoặc các mối quan hệThông thường, bạn muốn tìm thấy một nút cụ thể hoặc mối quan hệ theo một Sởhữu nó có.Thay vì đi qua toàn bộ đồ thị, sử dụng một chỉ số để thực hiện một tìmkiếm,ch câu hỏi như “tìm ra cho các tài khoản tên người dùng điều khiển của đồthị”.1.5. Neo4j là một cơ sở dữ liệu đồ thịNeo4j là một cơ sở dữ liệu mã nguồn mở đồ thị hỗ trợ thương mại. Nó được thiếtkế và xây dựng từ đơn giản lên là một cơ sở dữ liệu đáng tin cậy tối ưu hóa chocấu trúc đồ thị thay vì các bảng.Làm việc với Neo4j, ứng dụng của bạn được tất cảcác biểu cảm của một đồ thị, Với tất cả tin cậy bạn mong đợi của một cơ sở dữliệu.2. So sánh Mô hình cơ sở dữ liệuMột cơ sở dữ liệu đồ thị lưu trữ dữ liệu có cấu trúc trong các nút và các mối quanhệ của một đồ thị.Làm thế nào để so sánh với các mô hình bền bỉ khác? Bởi vì mộtđồ thị là một cấu trúc tổng quát, chúng ta hãy so sánh một vài mô hình sẽ tìm trongmột đồ thị.2.1. Một cơ sở dữ liệu đồ thị biến đổi một RDBMS.Lật đổ ngăn xếp của các bản ghi trong một cơ sở dữ liệu quan hệ khi vẫn giữ tất cảcác mối quan hệ, và bạn sẽ thấy một đồ thị.nơi mà hợp một RDBMS được tối ưuhóa cho dữ liệu tổng hợp, Neo4j được tối ưu hóa cho dữ liệu kết nối cao2.2. Cơ sở dữ liệu đồ thị lập một lưu trữ giá trị khóaMột mô hình giá trị khóa tuyệt vời cho tra cứu các giá trị đơn giản hoặc danhsách.Khi các giá trị được kết nối với nhau, bạn đã có một đồ thị.Neo4j cho phépbạn xây dựng cấu trúc dữ liệu đơn giản thành phức tạp hơn, dữ liệu kết nối vớinhau.3. Cách lưu trữ đồ thị:3.1. Lưu trữ bằng RDBMSDữ liệu được lưu trữ thành những dòng và cột trong những table khác nhau.Dữ liệuđược truy xuất bằng câu lệnh SQL.SQL cho phép người sử dụng truy xuất khámạnh mẽ dữ liệu đồ thị bao gồm cả việc trích xuất dữ liệu mới từ dữ liệu đã lưutrữ.Mặc dù có nhiều điểm mạnh nhưng SQL không thể hổ trợ những thao tác tínhtoán, những biểu thức phức tạp một cách linh hoạt và tùy lúc.Ví dụ như tính chiphí một con đường đi từ đỉnh này để đỉnh khác, tìm chi phí thấp nhất để đi giữa hainút cho trước…3.2. Lưu trữ bằng SBGEĐể giải quyết vấn đề trên DB2 và RDBMS đã mở rộng SQL bằng cách xây dựngnhưng hàm cụ thể được gọi là user-defined functions (UDFs). UDFs được sử dụngmọi nơi mà người sử dụng muốn.SBGE sử dụng những hàm mở rộng của DB2 để thao tác trên dữ liệu đồ thị.VớiSBGE có thể dễ dàng quản lý dữ liệu đồ thị thông qua các nút, cạnh.Với RDBMSs cho phép người sử dụng định nghĩa cũng như tìm kiếm những đồ thịcon. RDBMSs có thể linh hoạt trên một đồ thị dữ liệu lớn bởi vì SQL có thể tìmkiếm mà không đòi hỏi việc load cả dữ liệu đồ thị lên bộ nhớ tạm. Do đó, SBGEchính là sự kết hợp giữa SQL để quản lý dữ liệu của đồ thị và những hàm mở rộngđể quản lý những hàm truy xuất của đồ thị.3.3. Lưu trữ bằng network data model trong oracle.Oracle hỗ trợ những procedure để tạo dữ liệu đồ thị.3.4 Lưu trữ bằng Neo4j.Neo4j là một cơ sở dữ liệu đồ thị, lưu trữ dữ liệu trong các nút và các mối quan hệcủa một đồ thị. Chung của các cấu trúc dữ liệu, biểu đồ trang nhã đại diện cho bấtkỳ loại dữ liệu, bảo quản cấu trúc tự nhiên của miền.Neo4j là một dự án mã nguồn mở có sẵn trong một ấn bản cộng đồng GPLv3, vớiphiên bản nâng cao và doanh nghiệp theo giấy phép AGPLv3 và thương mại, hỗtrợ bởi công nghệ Neo.PHẦN II: PHÂN TÍCH MẠNG XÃ HỘII. MẠNG XÃ HỘI:1. Mạng xã hội:Mạng xã hội, hay gọi là mạng xã hội ảo, (tiếng Anh: social network) là dịch vụ nốikết các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khácnhau không phân biệt không gian và thời gian.Mạng xã hội có những tính năng như chat, e-mail, phim ảnh, voice chat, chia sẻfile, blog và xã luận. Mạng đổi mới hoàn toàn cách cư dân mạng liên kết với nhauvà trở thành một phần tất yếu của mỗi ngày cho hàng trăm triệu thành viên khắpthế giới[1]. Các dịch vụ này có nhiều phương cách để các thành viên tìm kiếm bạnbè, đối tác: dựa theo group (ví dụ như tên trường hoặc tên thành phố), dựa trênthông tin cá nhân (như địa chỉ e-mail hoặc screen name), hoặc dựa trên sở thích cánhân (như thể thao, phim ảnh, sách báo, hoặc ca nhạc), lĩnh vực quan tâm: kinhdoanh, mua bánHiện nay thế giới có hàng trăm mạng mạng xã hội khác nhau, vớiMySpace và Facebook nổi tiếng nhất trong thị trường Bắc Mỹ và TâyÂu; Orkutvà Hi5 tại Nam Mỹ; Friendster tại Châu Á và các đảo quốc Thái BìnhDương. Mạng xã hội khác gặt hái được thành công đáng kể theo vùng miềnnhư Bebo tại Anh Quốc, CyWorld tại Hàn Quốc, Mixi tại Nhật Bản và tại ViệtNam xuất hiện rất nhiều các mạng xã hội như: Zing Me, YuMe,Tamtay2. Lịch sử:Mạng xã hội xuất hiện lần đầu tiên năm 1995 với sự ra đời của trang Classmate vớimục đích kết nối bạn học, tiếp theo là sự xuất hiện của SixDegrees vào năm 1997với mục đích giao lưu kết bạn dựa theo sở thích.[2]Năm 2002, Friendster trở thành một trào lưu mới tại Hoa Kỳ với hàng triệu thànhviên ghi danh. Tuy nhiên sự phát triển quá nhanh này cũng là con dao hai lưỡi:server của Friendster thường bị quá tải mỗi ngày, gây bất bình cho rất nhiều thànhviên.10Năm 2004, MySpace ra đời với các tính năng như phim ảnh (embedded video) vànhanh chóng thu hút hàng chục ngàn thành viên mới mỗi ngày, các thành viên cũcủa Friendster cũng lũ lượt chuyển qua MySpace và trong vòng một năm,MySpace trở thành mạng xã hội đầu tiên có nhiều lượt xem hơn cả Google và đượctập đoàn News Corporation mua lại với giá 580 triệu USD.Năm 2006, sự ra đời của Facebook đánh dấu bước ngoặt mới cho hệ thống mạngxã hội trực tuyến với nền tảng lập trình “Facebook Platform” cho phép thành viêntạo ra những công cụ (apps) mới cho cá nhân mình cũng như các thành viên khácdùng. Facebook Platform nhanh chóng gặt hái được thành công vược bậc, mang lạihàng trăm tính năng mới cho Facebook và đóng góp không nhỏ cho con số trungbình 19 phút mà các thành viên bỏ ra trên trang này mỗi ngày.3. Cấu thành:Mỗi nút (Node) là một cá nhân hay tổ chức, Trong đó, mỗi nút có chứa nhiềuthuộc tính: Họ tên, giới tính, sở thích, hình ảnh, nhưng quan trọng nhất có lẽ làthuộc tính khóa (primary key) idNode dùng để phân biệt giữa các nút khác.Mỗi cạnh (Edge) là thể hiện mối quan hệ của hai nút, như: quan hệ bạn bè, quan hệhọ hàng, quan hệ công tác, quan hệ sở thích, Trong đó mỗi cạnh sẽ là cặp đỉnh(node) là 2 idNode, ví dụ A quan hệ B sẽ tương ứng là IdNodeA và IdNodeB.4. Mục tiêu:Tạo ra một hệ thống trên nền Internet cho phép người dùng giao lưu và chiasẻ thông tin một cách có hiệu quả, vượt ra ngoài những giới hạn về địa lý và thờigian.Xây dựng lên một mẫu định danh trực tuyến nhằm phục vụ những yêu cầu côngcộng chung và những giá trị của cộng đồng.11Nâng cao vai trò của mỗi công dân trong việc tạo lập quan hệ và tự tổ chức xoayquanh những mối quan tâm chung trong những cộng đồng thúc đẩy sự liên kết cáctổ chức xã hội.5. Cách lưu trữ – Lập chỉ mục và tìm kiếm CSDL đồ thị – Hiện thựcGraph database trên:5.1. Table Node:Nội dung:tNodeIdNode fullname ageA 0B 0C 0D 0E 0F 0G 05.2. Table graph:12Nội dung:tGraphIdA IdBA BA HB CC DC HD EF HG HThỏa điều kiện:IdA và IdB phải thỏa mãn ràng buộc khóa ngoại với IdNode và toàn vẹn thamchiếu.Do thực tế mạng xã hội giữa hai nút có quan hệ giao hoán nên thực chất là đồ thịvô hướng nên thứ tự IdA và IdB không quan trọng.Khóa của tGraph phải bao gồm 2 thuộc tính IdA và IdB vì mạng là đồ thị đơn vôhướng.5.3. Ưu nhược điểm:5.3.1. Ưu điểm: phù hợp với thực tế của mạng xã hội là đồ thị thưa, cách lưu trữtrên tiết kiệm bộ nhớ, truy vấn (update, change, select) nhanh, chính xác.5.3.2. Nhược điểm: khó khăn khi biểu diễn đa đồ thị vô hướng, đồ thị có hướng.II. PHÂN TÍCH MẠNG XÃ HỘI (Social Network Analysis (SNA))1. Bối cảnh: Phân tích mạng:SNA có nguồn gốc của nó trong khoa học xã hội cả hai và trong các lĩnh vực rộnglớn hơn của mạng lưới phân tích và lý thuyết đồ thị.Mạng lưới phân tích liên quan đến chính nó với việc xây dựng và giải pháp của cácvấn đề có một cấu trúc mạng, cấu trúc như vậy thường giữ trong một đồ thị.13Lý thuyết đồ thị cung cấp một tập hợp các khái niệm trừu tượng và phương phápđể phân tích của đồ thị. Kết hợp với các công cụ phân tích khác và với các phươngpháp phát triển đặc biệt cho trực quan hóa và phân tích của các mạng xã hội, hìnhthành cơ sở của điều mà chúng ta gọi là phương pháp SNA.Nhưng SNA không chỉ là một phương pháp luận, nó là một góc nhìn độc đáo vềchức năng xã hội như thế nào.Thay vì tập trung vào các cá nhân và các thuộc tínhcủa chúng, hoặc trên các cấu trúc xã hội vĩ mô, mà nó tập trung trên mối quan hệgiữa các cá nhân, nhóm, hoặc các tổ chức xã hội2. Bối cảnh: Khoa học Xã hội:Nghiên cứu xã hội từ một góc độ mạng là để nghiên cứu cá nhân được nhúng vàotrong một mạng lưới các mối quan hệ và tìm kiếm lời giải thích cho hành vi xã hộitrong cấu trúc của các mạng này hơn là trong các cá nhân đơn độc. “góc nhìn vềmạng” này trở nên ngày càng phù hợp trong một xã hội mà Manuel Castells đãmệnh danh là mạng xã hội.SNA có một lịch sử lâu dài trong lĩnh vực khoa học xã hội, mặc dù nhiều côngtrình trong việc thúc đẩy phương pháp của nó cũng đã đến từ các nhà toán học, vậtlý, sinh học và các nhà khoa học máy tính (vì họ cũng nghiên cứu mạng lưới cácloại khác nhau).Ý tưởng các mạng trong những mối quan hệ rất quan trọng trong khoa học xã hộikhông phải là mới, nhưng phổ biến rộng rãi sẵn có dữ liệu và những tiến bộ trongtính toán và phương pháp luận bây giờ đã làm cho nó dễ dàng hơn nhiều để ápdụng SNA cho một loạt các vấn đề.141.1. Ví dụ 1:Đây là một mô tả ban đầu của những gì chúng ta gọi là ‘ego’ mạng, tức là một mạng lướicá nhân.Đồ họa mô tả khác nhau buộc điểm mạnh thông qua các vòng tròn đồng tâm(Wellman, năm 1998)Những trực quan này miêu tả những lưu lượng thông tin liên lạc trong một tổ chứctrước và sau khi giới thiệu một hệ thống quản lý nội dung (Garton et al, 1997)1.2. Ví dụ 2:15Một trực quan của các blogger Mỹ cho thấy rõ ràng làm thế nào họ có xu hướngliên kết chủ yếu đến các blog hỗ trợ cùng một nhóm ,tạo nên hai cụm riêng biệt(Adamic and Glance, 2005)2. Bối cảnh: Tên miền khác.Phân tích mạng xã hội đã tìm thấy ứng dụng trong nhiều lĩnh vực vượt ra ngoàikhoa học xã hội, mặc dù những tiến bộ lớn nhất thường liên quan đến nghiên cứucác cấu trúc được tạo ra bởi con người.Các nhà khoa học máy tính ví dụ đã đượcsử dụng (và thậm chí phát triển mới) phương pháp phân tích mạng để nghiên cứucác trang web, lưu lượng truy cập Internet, thông tin phổ biến, vv.Một ví dụ trong khoa học cuộc sống là việc sử dụng các phân tích mạng để nghiêncứu chuỗi thức ăn trong hệ sinh thái khác nhau. Nhà toán học và vật lý (lý thuyết)thường tập trung vào sản xuất các phương pháp mới và phức tạp cho việc phân tíchmạng, có thể được sử dụng bởi bất cứ ai, trong phạm vi bất kỳ nơi các mạng cóliên quan.Các tổ chức xã hội dân sự sử dụng SNA để phát hiện ra xung đột lợi ích trong cáckết nối ẩn giữa các cơ quan chính phủ, vận động hành lang và các doanh nghiệpNhà khai thác mạng (điện thoại, cáp, điện thoại di động) sử dụng phương phápSNA-như để tối ưu hóa cấu trúc và năng lực của mạng của họ.Trong ví dụ này, các nhà nghiên cứu thu thập được một số lượng rất lớn dữ liệuvào các liên kết giữa các trang web và phát hiện ra rằng Web bao gồm một lõi củacác trang liên kết liên động, trong khi hầu hết các trang web khác hoặc liên kết đếnhoặc được liên kết đến từ cốt lõi.Đó là một trong những kiến thức đầu tiên vào quymô rất lớn của con người tạo ra cấu trúc (Broder et al, 2000).3. Ứng dụng thực tếCác doanh nghiệp sử dụng SNA để phân tích và cải thiện lưu lượng thông tin liênlạc trong tổ chức của họ, hoặc với mạng của các đối tác và khách hàng.16Các cơ quan thực thi pháp luật (và quân đội) sử dụng SNA để xác định các mạnglưới tội phạm và khủng bố từ các dấu vết thông tin liên lạc mà họ thu thập và sauđó xác định các người tham gia chính trong các mạng này.Các trang web mạng xã hội như Facebook sử dụng các yếu tố cơ bản của SNA đểxác định và giới thiệu bạn bè tiềm năng dựa vào bạn bè của bạn bè.Các tổ chức xã hội dân sự sử dụng SNA để phát hiện ra xung đột lợi ích trong cáckết nối ẩn giữa các cơ quan chính phủ, vận động hành lang và các doanh nghiệp.Nhà khai thác mạng (điện thoại, cáp, điện thoại di động) sử dụng phương phápSNA-như để tối ưu hóa cấu trúc và năng lực của mạng lưới của họ4. Tại sao và khi nào sử dụng SNA.Bất cứ khi nào bạn đang nghiên cứu một mạng xã hội, hoặc là ẩn hoặc là online,hoặc khi bạn muốn hiểu làm thế nào để nâng cao hiệu quả của mạng.Khi bạn muốn trực quan dữ liệu của bạn để khám phá các mẫu trong các mối quanhệ hoặc các tương tác.Khi bạn muốn theo đường dẫn mà thông tin (hoặc bất cứ điều gì về cơ bản) theotrong các mạng xã hội.Khi bạn làm nghiên cứu định lượng,mặc dù nghiên cứu định tính góc nhìn mộtmạng cũng có giá trị.(a) Phạm vi của hoạt động và cơ hội dành cho cá nhân thường là mộtchức năng vị trí của họ trong các mạng xã hội, phát hiện ra các vị trí này(thay vì dựa trên các giả định phổ biến dựa trên vai trò và chức năng củamình, nói như cha, mẹ, giáo viên, công nhân) có thể mang lại kết quả thú vịvà đôi khi đáng ngạc nhiên.(b) Phân tích định lượng của một mạng xã hội có thể giúp bạn nhận biếtcác loại khác nhau của các tác nhân trong mạng hay các người tham giachính, người mà bạn có thể tập trung vào nghiên cứu định tính của bạn.SNA rõ ràng rất hữu ích trong việc phân tích của SNS, OC và các phương tiệntruyền thông xã hội nói chung, để kiểm tra giả thuyết về hành vi online và CMC,để xác định nguyên nhân rối loạn chức năng cho các cộng đồng hoặc các mạng, vàđể thúc đẩy sự gắn kết xã hội và tăng trưởng trong một cộng đồng trực tuyến.5. Khái niệm cơ bản.Networks : Làm thế nào để biểu diễn các mạng xã hội khác nhau.Tie Strength: Làm thế nào để xác định các mối quan hệ mạnh / yếu trong mạng.Key Players : Làm thế nào để xác định các nút trọng điểm / trung tâm trong mạng.17Cohesion(sự gắn kết): Các biện pháp của cấu trúc mạng tổng thể.Đại diện các mối quan hệ như các mạng:5.1. Networks : Làm thế nào để biểu diễn các mạng xã hội khác nhau.5.1.1. Nhập dữ liệu trên một đồ thị có hướng.5.1.2. Đại diện một đồ thị vô hướng185.1.3. Các mạng Ego và mạng ‘whole’không có nghiên cứu mạng là “whole”, trong thực tế, nó thường là một một phầnhình ảnh của mạng thực tế đời sống của một người (vấn đề đặc điểm kỹ thuật ranhgiới).5.2. Tie Strength: Làm thế nào để xác định các mối quan hệ mạnh / yếutrong mạng.5.2.1. Thêm trọng số cạnh (hướng hoặc vô hướng)19Ma trận kề trở thành đối xứngcô lậpthay đổi5.2.2. Cạnh trọng số là sức mạnh mối quan hệ.Cạnh có thể đại diện cho các tương tác, luồng của thông tin hoặc hàng hóa, tươngđồng / bị sát nhập, Hoặc quan hệ xã hội.Cụ thể đối với quan hệ xã hội, một proxy cho sức mạnh của hòa có thể là:(a) Các tần số của sự tương tác (truyền thông) hoặc số lượng của lưu lượng (traođổi)(b) Nguyên tắc có đi có lại trong tương tác hoặc lưu lượng(c) Các loại tương tác hoặc lưu lượng giữa hai bên (ví dụ, thân mật hay không)(d) Các thuộc tính khác của các nút hoặc các mối quan hệ (ví dụ như, mối quan hệthân nhân)(e) Cấu trúc của nút kế cận(ví dụ: một vài người bạn chung).Khảo sát và phỏng vấn cho phép chúng ta thiết lập sự tồn tại lẫn nhau hoặc mộtbên sức mạnh / tác động với sự chắc chắn hơn, nhưng các ủy quyền ở trên cũng rấthữu ích.5.2.3. Homophily, bắc cầu, và chuyển tiếp.Homophily chỉ khuynh hướng liên hệ những người có cùng tính cách (tình trạng,tôn giáo, …).20Trọng số có thể là:• Tần số của sự tương tác tronggiai đoạn quan sát• Số lượng của các mục trao đổitrong giai đoạn• riêng nhận thức của sức mạnhcủa mối quan hệ• Chi phí trong giao tiếp hoặctrao đổi, ví dụ: khoảng cách• Kết hợp cácDanh sách cạnh: thêm cột của trọng sốMa trận kề: thêm trọng số thay vì của 1Nó hướng đến sự hình thành các nhóm người cùng sở thích, từ đó mối quan hệtheo hình thức này giúp việc liên hệ dễ dàng hơn.Sự đồng nhất cực kỳ có thể đóng vai trò bộ đếm trong các hệ nỗ lực và ý tưởng(heterophily được yêu càu trong một số ngữ cảnh)Các phân lớp của homophilous có thể là mạnh hoặc yếu.Bắc cầu trong SNA là mộ thuộc tính của các lớp. Nếu có một lớp giữa A và B vàmột lớp giữa B và C, thì sẽ có một kết nối bắc cầu giữa A và C.Các lớp mạnh thường bắc cầu hơn các lớp yếu; tính chất bắc cầu là bằng chứngcho sự tồn tại của các lớp liên kết mạnh (nhưng nó không là điều kiện cần hay đủ)Bắc cầu và homophily kết hợp với nhau hình thành nên đẳng cấu (trong đó cáccụm được nối đầy đủ với nhau)Các cầu nối là các điểm và cạnh nối giữa các nhóm.Chúng tạo sự thuận lợi giữa các nhóm thông tin liên lạc, tăng cường sự gắn kết xãhội, và góp phần thúc đẩy sự đổi mới.Chúng thường là lớp có quan hệ yếu, không phải mỗi lớp yếu là 1 cầu nối.5.3. Key Players : Làm thế nào để xác định các nút trọng điểm / trung tâmtrong mạng.5.3.1. Degree centralitymức độ trung tâmMột mức (in) hoặc (out) của một node là số lượng liên kết dẫn vào hoặc rakhỏi các nútTrong một đồ thị vô hướng, các node tất nhiên giống hệt nhau21Thường được sử dụng như là thước đo của mức độ của một nút của sự kết nối vàdo đó cũng ảnh hưởng và / hoặc phổ biếnHữu ích trong việc đánh giá mà các nút là trung tâm đối với việc truyền bá thôngtin và ảnh hưởng đến những người khác trong vùng lân cận của họ ngay lập tức.Các nút 3 và 5 có mức độ cao nhất (4).5.3.2. Đường dẫn và đường dẫn ngắn nhấtMột con đường giữa hai nút là trình tự bất kỳ không lặp lại nút mà kết nối hai nút.Đường đi ngắn nhất giữa hai nút là con đường kết nối hai nút với số các cạnh ngắnnhất (còn gọi là khoảng cách giữa các nút).Trong ví dụ bên phải, giữa các nút 1 và 4 có hai đường đi ngắn nhất có độ dài 2:{1,2,4} và {1,3,4} Loại khác, con đường dài giữa hai nút là {1,2,3,4}, {1,3,2,4}, {1,2,5,3,4}và {1,3,5,2 , 4} (con đường dài nhất) con đường ngắn hơn là cần thiết khi tốc độ giao tiếp hoặc trao đổi được đòihỏi (thường xảy ra trong nhiều nghiên cứu, nhưng đôi khi không, ví dụ nhưtrong các mạng mà lây lan bệnh).225.3.3. Betweeness centrality.Số lượng các con đường ngắn nhấtđi qua một nút chia cho tất cả các đường đi ngắn nhất trong mạngĐôi khi chuẩn hóa như vậy là giá trị cao nhất là 1.cho thấy các nút có nhiều khả năng là con đường thông tin liên lạc giữa các nútkhác.cũng rất hữu ích trong việc xác định điểm nơi mà các mạng sẽ tan rã (nghĩ rằng aisẽ bị cắt bỏ nếu các nút 3 hoặc 5 sẽ biến mất).5.3.4. Closeness centrality (Sự gần gũi trung tâm)Chiều dài trung bình của tất cả các đường đi ngắn nhất từ một nút đến tất cả cácnút khác trong mạng (tức là bao nhiêu bước nhảy trên trung bình cần để tiếp cận tấtcả các nút khác)Nó là một thước đo của tiếp cận, tức là bao lâu nó sẽ có để tiếp cận các nút khác từmột nút bắt đầu đưa ra.Hữu ích trong trường hợp nơi mà tốc độ của phổ biến thông tin là mối quan tâmchính.Giá trị thấp hơn là tốt hơn khi tốc độ cao hơn là mong đợi.23Nút 3 và 5 có sự gần gũi (tức là tốt nhất) thấp nhất, trong khi nút 2 giá vé gần nhưlà tốtLưu ý: Đôi khi thân thiết được định nghĩa như là nghịch đảo của giá trị này, tức là1 / x, như vậy mà giá trị cao hơn sẽ chỉ tiếp cận cận nhanh hơn5.3.5. Eigenvector centrality (Vec tơ đặc trưng trung tâm)Trung tâm eigenvector của một nút là tỷ lệ thuận với tổng hợp của trung tâmeigenvector của tất cả các nút kết nối trực tiếp với nóNói cách khác, một nút với một trung tâm eigenvector cao được kết nối đến cácnút khác với vai trò trung tâmeigenvector caoĐiều này cũng tương tự như cách Google xếp hạng các trang web liên kết từ caoliên kết đến các trang được tính hơnHữu ích trong việc xác định người được kết nối với các nút được kết nối nhất.Node 3 có trung tâm eigenvector cao nhất, theo sát sau 2 và 5.Note: The term ‘eigenvector’ comes from mathematics (matrix algebra), but it isnot necessary for understanding how to interpret this measure5.3.6. Giải thích các biện pháp :5.3.7. Xác định tập hợp người chơi chủ chốt.Trong mạng bên dưới, nút 10 là trung tâm nhất theo mức độ trung tâmTuy nhiên, các nút 3 và 5 cùng nhau sẽ tiếp cận các nútHơn nữa, mối giữa chúng là rất quan trọng, nếu bị cắt đứt, mạng sẽ phá vỡ thànhhai mạng bị cô lập24Nó sau đó những nút khác là tương đương,Suy nghĩ về việc tập hợp người tham gia chính(keys player) là hữu ích!5.4. Cohesion(sự gắn kết): Làm thế nào để mô tả cấu trúc của một mạnglưới5.4.1. Tương hỗ (mức độ)Tỷ lệ số lượng các quan hệ được chuyển đổi qua lại (tức là có một cạnh trong cảhai hướng) trên tổng số các mối quan hệ trong mạng.Nơi hai đỉnh được cho là liên quan nếu có ít nhất một cạnh giữa chúng.Trong ví dụ này sẽ là 2/5 = 0,4 (cho dù điều này được coi là cao hay thấp phụthuộc vào bối cảnh).Một chỉ số hữu ích của mức độ tính hổ trợ và trao đổi lẫn nhau trong một mạng,liên quan đến sự gắn kết xã hội.Chỉ có ý nghĩa trong đồ thị có hướng.25