Định chủ đề và định từ khóa tài liệu
Giảng viên: Lê Thị Thúy Hiền
Định chủ đề và định từ khóa tài liệu
1/ Khái niệm:
– Chủ đề:
+từ điển tiếng việt: “chủ đề là vấn đề chủ yếu được quán triệt trong nội dung 1tác phẩm văn học nghệ thuật theo một khuynh hướng tư tưởng nhất định” =>chủ đề gắn với 1 tác phẩm vh và chú trọng tính tư tưởng =>không bao quát đc khái niệm chung về tài liệu (vì bất cứ tài liệu nào cũng có chủ đề)
+E.M. Ruchimxkaia & B.V. Cushin: “chủ đề của tài liệu là đề tài chủ yếu chứ không phải toàn bộ nội dung tác phẩm”. =>định nghĩa tương đối ngắn gọn và đầy đủ.
+Lí thuyết về chủ đề và xd ngôn ngữ tìm tin theo chủ đề, từ khóa: Chủ đề tài liệu là vấn đề hoặc đề tài chủ yếu được nghiên cứu hoặc đề cập đến trong nội dung tài liệu
=>tùy vào ngữ cảnh khác nhau, chủ đề được hiểu khi thì như một yếu tố của thực tế, khi thì là một yếu tố trong phạm trù tư duy.
– Định chủ đề:
+Là một quá trình xử lí nội dung tài liệu mà kết quả đc thể hiện dưới dạng đề mục chủ đề.
+Sau quá trình đcđ, chúng ta rút ra đc các đmcđ, phản ánh vấn đề và góc độ nghiên cứu của vấn đề trong nội dung tài liệu
+Để quá trình đcđ đạt hiệu quả, ng cb đcđ phải biết phương pháp đcđ; sử dụng hộp phiếu chủ đề công vụ hoặc xd đc bảng đmcđ=>đảm bảo tính khoa học và thống nhất.
– Đề mục chủ đề: (Anh: Subject Heading/ Pháp: Vedette matière)
+Đề mục chủ đề là một dạng ngôn ngữ tư liệu được sử dụng để mô tả một cách gọn chủ đề và góc độ nội dung của chủ đề cũng như hình thức của tài liệu.
+ Là những dấu hiệu giúp cho các cơ quan TTTV có thể tạo lập các điểm truy cập cho người đọc, người dùng tin tiếp cận với VTL hoặc thông tin theo chủ đề.
+Được xây dựng trên cơ sở ngôn ngữ tự nhiên có kiểm soát về mặt từ vựng. Mỗi đmcđ có thể là tên gọi của một sự vật hiện tượng, một vấn đề thuộc một chuyên ngành tri thức hoặc liên quan đến nhiều bộ môn tri thức. Đmcđ có thể là tên gọi của một vùng, một nước hoặc một chữ viết tắt. Đmcd không phân chia thứ bậc.
+Đmcđ thường được thể hiện bằng danh từ hoặc các dạng kết hợp của danh từ với các loại từ khác hình thành nên các cụm danh từ.
+Đmcđ có 2 loại: đmcđ đơn (chỉ có chủ đề chính) và đmcđ phức(chủ đề chính và phụ đề (nd, ht, địa lí, time) thể hiện theo mqh chính-phụ).
– Từ khóa: (Anh: Keyword/ Pháp: Mot clé hoặc Mot saillant)
+Từ khóa là một dạng ngôn ngữ tư liệu được sử dụng để mô tả nội dung tài liệu. Từ khóa cũng được xd trên cơ sở ngôn ngữ tự nhiên.
+ Tiêu chuẩn Việt Nam 5453 định nghĩa: “từ khóa là từ hoặc cụm từ rút ra từ tài liệu hoặc yêu cầu tin và mang ý nghĩa chủ đạo xét trên quan điểm tìm tin”.
Đại từ điển tiếng Việt: “từ khóa là từ đặc trưng cho nội dung một đoạn văn. Từ có ý nghĩa đặc biệt cho một ngôn ngữ lập trình”.
=>khái quát: từ khóa là một cụm từ đủ nghĩa và ổn định, biểu thị những khái niệm cơ bản của nội dung tài liệu và có thể sử dụng để tìm tài liệu trong CSDL khi có yêu cầu tin chứ từ hay cụm từ đó.
+Từ khóa có hai chức năng chính: thông báo nội dung tài liệu và tìm tin. Về nd TT từ khóa có phạm vi ngữ nghĩa rất đa dạng. Về góc độ phản ánh nd TL, từ khóa có hai loại: từ khóa chủ đề và từ khóa phương diện.
+ Về từ loại: bao gồm các danh từ và cụm danh từ, các dạng cụ thể: Danh từ (bao gồm danh từ chung và danh từ riêng), động từ (theo nghĩa danh từ hóa: tiêu chuẩn hóa…), danh từ kết hợp với danh từ (giao thông đường bộ…), danh từ kết hợp với tính từ (cá nước ngọt…), danh từ kết hợp với động (thiết bị ép…), động từ kết hợp với danh từ (bảo vệ môi trường…), danh từ kết hợp với số từ (thế kỉ XX…), cụm danh từ phức (nước đang phát triển…).
– Định từ khóa:
+ Từ điển khoa học thông tin thư viện trực tuyến (ODLIS): định từ khóa là một dạng định chỉ mục theo chủ đề, trong đó các từ khóa được rút ra từ nhan đề của tài liệu. Các từ này được sử dụng làm tiêu đề để tra tìm tài liệu sau này.
+ TCVN 5453-1991: hoạt động thông tin và tư liệu: thuật ngữ và khái niệm cơ bản, đánh chỉ số (Indexing) là quá trình thể hiện nội dung tài liệu hoặc yêu cầu tin bằng ngôn ngữ tìm tin.
=>Định từ khóa là quá trình thể hiện nội dung tài liệu hoặc yêu cầu tin bằng ngôn ngữ từ khóa. Định từ khóa được sử dụng để định từ khóa TL hoặc định từ khóa yêu cầu tin.
+Định từ khóa tài liệu là quá trình phân tích nội dung tài liệu và mô tả những nội dung chính của tài liệu bằng một tập hợp các từ khóa nhằm phục vụ cho việc lưu trữ và tìm tài liệu trong CSDL. Nói cách khác, định từ khóa là thiết lập một tập hợp từ khóa làm phương tiện chỉ dẫn đến tài liệu, còn được gọi là xây dựng mẫu tìm tài liệu.
+Định từ khóa yêu cầu tin: là thể hiện nội dung cơ bản của yêu cầu tin bằng các từ khóa để thực hiện việc tìm tin trong CSDL, còn được gọi là xd lệnh tìm.
2/ Giới thiệu khái quát bảng LCSH (Library of Congress Subject Headings)
– Được xd trên cơ sở các đề mục chủ đề mà thư viện đã soạn thảo từ năm 1898.
In lần thứ nhất trong khoảng thời gian từ 1909 đến 1914 với tên gọi “Đề mục chủ đề sử dụng cho mục lục kiểu từ điển của Thư viện Quốc hội Mỹ”.
In lần thứ 2 năm 1919.
In lần thứ 8 năm 1975, đổi tên: “Đề mục chủ đề của Thư viện Quốc hội”.
In lần thứ 16 năm 1993, khi đó bảng có 199.000 đmcđ, trong đó có 7000 chủ đề mới và các chỉ dẫn tham chiếu, có 2800 chủ đề có sự thay đổi ít nhiều.
In lần thứ 25 năm 2002: 263.000 đmcđ
In lần thứ 26 năm 2003: 270.000 đmcđ, trong đó có 19.700 đề mục tên riêng, 18.000 tên dòng họ, 5000 đề mục tên cơ quan tổ chức, 44.200 đề mục tên địa danh, 4800 tiêu đề thống nhất, 200.700 đmcđ nội dung; 3800 đề mục sử dụng tham chiếu “see also”, 234.000 đề mục sử dụng tham chiếu “use for”, 256.000 đề mục sử dụng tham chiếu “use”, 5800 có chú giải ngữ nghĩa.
In lần thứ 29 vào năm 2006 với hình thức sách bìa đỏ bao gồm 5 tập, số lượng đmcđ lên tới 280.000 đmcđ: trong đó bao gồm 204.000 đmcđ với các đề tài khác nhau, 45.000 tên địa danh, 20.000 tên cá nhân, 19.000 tên dòng họ, 5700 tên cơ quan tổ chức, 4800 tiêu đề thống nhất…
– Hình thức xuất bản: Sách bìa đỏ, vi phiếu và đĩa CD-ROM. Ngoài ra, còn xuất bản phần bổ sung dưới dạng vi phiếu, tập hợp các đmcđ mới nhất theo quý trong năm. Các phiếu riêng tập hợp các đề mục chủ đề dành cho thư viện thiếu nhi cũng được biên soạn.
– Các đmcđ đc cd trên cơ sở tên nhân vật, tên dòng họ, tên cơ quan tổ chức đoàn thể, các đối tượng địa lí địa danh, tên các sự vật hiện tượng, các vấn đề đề tài nghiên cứu… Về mặt từ loại, đmcđ có thể là một danh từ hoặc cụm danh từ.
– Có 6 dạng đmcđ:
+ Đmcđ là 1 danh từ, thường được để ở dạng số nhiều: dogs, schools, children…
+Đmcđ là 1 danh từ kết hợp với tính từ: aministrative low (luật hành chính), australian literarture (văn học australia)…
+ Đmcđ là 1 danh từ kết hợp với 1 danh từ khác được sử dụng như một tính từ: Energy Industry (công nghiệp năng lượng)
+ Đmcđ là một danh từ kết hợp với một danh từ khác bởi giới từ: Church in art (nhà thờ trong nghệ thuật)
+ Đmcđ là hai danh từ liên kết với nhau bởi liên từ và: Library and Society (thư viện và xã hội)
+ Đmcđ là một cum từ dài: Chicken feed industry (công nghiệp nuôi gà)
– Để cb đcđ phản ánh chính xác nd và hình thức của tài liệu theo các góc độ nghiên cứu khác nhau, có loại phụ đề:
+Phụ đề đề tài, hay còn gọi là phụ đề nội dung (topic subdivisions): Đc sd để mô tả các góc độ, khía cạnh nghiên cứu của chủ đề hoặc phần phân chia chi tiết hơn nữa các góc độ khía cạnh của nó: Agriculture-nông nghiệp (Economic aspects-khía cạnh kinh tế, statistic-thống kê, finance-tài chính…)
+Phụ đề thời gian (Chronological subdivisions): đc sd để mô tả 1 dấu mốc hoặc 1 khoảng thời gian, 1 thời kì đc đề cập đến trong tài liệu: Phylosophy, French-18th century (triết học, pháp thế kỉ 18)
+Phụ đề địa lí (Geographic Subdivisions): đc sd để mô tả mối liên hệ giữa chủ đề hoặc các góc độ, khía cạnh nghiên cứu với một đối tượng địa lí hoặc địa danh có liên quan hoặc được đề cập đến trong nội dung tài liệu, chủ yếu là phụ đề nối, tùy vào nd của tài liệu mà có thể tự do ghép nối: Construction industry- Italia (công nghiệp xây dựng-Italia)
+Phụ đề hình thức (from subdivisions): đc sd để mô tả loại hình và hình thức của tài liệu: United states- History- Periodical (Mĩ- Lịch sử- Xuất bản phẩm định kì)
– Có ba loại quan hệ:
+Quan hệ ngữ nghĩa tương đương: là quan hệ giữa các đmcđ có cách diễn đạt bằng những thuật ngữ khác nhau nhưng cùng biểu đạt một khái niệm: Ability và Aptitude cùng có nghĩa là năng lực
+ Quan hệ thứ bậc: là mqh dựa trên mức độ phân biệt lớp trên và lớp dưới, trong đó những khái niệm thuộc lớp trên đại diện cho nhóm hoặc toàn thể và từ lớp dưới đại diện cho các thành viên hay bộ phận: Programming (lập trình) là một công việc cụ thể trong quá trình Dateprocessing (xử lí dữ liệu)
+ Quan hệ liên đới: là mqh giữa các từ gần gũi với nhau về mặt ngữ nghĩa, nhưng lại không thể đồng nhất với nhau khi diễn đạt đmcđ. Thông thường, đó là những từ luôn gợi cho người định chủ đề và ng sử dụng sau này có thể liên tưởng đến nhau: Agricultural machinery (máy móc nông nghiệp), farm equipment (trang thiết bị nông trường) và machinetractor stations (trạm máy kéo) là những từ có liên quan đến nhau.
-Các chỉ dẫn:
+ Use: sử dụng: Librarianship use: Library science
+ Used for: dùng cho_UF: Library science UF: Librarianship
+Broader terms: Từ rộng_BT: Library science BT Infofmation science
+ Narrower term: từ hẹp_NT: Lighting NT: Exteriro lighting
+ Related terms: từ liên quan_RT: Ornithology RT: Birds
+ See also: Cũng xem_SA: Dog breeds SA: Name of specific breeds
– Dưới phần tên của các đmcđ và trước các phụ đề chia nhỏ và các chỉ dẫn có thể có những lời hướng dẫn cụ thể về phạm vi ngữ nghĩa của đmcđ: Aparthied (xếp vào mục này tất cả các TL về chính sách chính trị, kinh tế và xã hội của chính phủ Nam phi nhằm duy trì sự phân biệt chủng tộc ở Nam phi và Nammibia)
– Đmcđ đc sắp xếp theo thứ tự vần chữ cái tên gọi của đmcđ.
3/ Giới thiệu khái quát Bộ từ khóa của TVQG VN
– đc biên soạn và xb lần đầu năm 1997 với tên gọi “bộ từ khóa quy ước”, trên cơ sở vốn từ khóa tự do của CSDL SACH (được nhập từ năm 1975-1991) của TVQG VN. Đây là bộ từ khóa quy ước đầu tiên đc xd tại TVQG.
– ban đầu có khoảng 10.000 từ. Đến năm 2006, bộ tk đc chỉnh lí bổ sung trên cơ sở chọn lọc từ 43.000 tk đã đc sử dụng trong các CSDL của TVQG VN.
-Diện đề tài bao quát vốn từ vựng của bộ tk là đề tài tổng hợp, phản ánh VTL đa dạng của TVQG. Các tk đc sắp xếp theo thứ tự vần chữ cái, trong đó các từ có thể có phần chú giải đi kèm và có mqh ngữ nghĩa với các từ khác.
– Cấu trúc:
+Lần xb 1997, bộ tk gồm 3 phần (tk về nd và hình thức TL, tk tên nhân vật và tk địa lí).
+Lần xb 2005 gồm có 6 phần: Tk chủ đề, tk nhân vật, tk địa danh, tk viết tắt tên tổ chức- cơ quan quốc tế- khu vực, bảng phân chia thời kì với các tác phẩm vh nghệ thuật- lịch sử của VN và thế giới, hướng dẫn sd bộ tk.
+ TK chủ đề bao gồm các từ chỉ các khái niệm trong các ngành, lĩnh vực và 1 số từ về hình thức tài liệu. Trong phần này, các từ có quan hệ ngữ nghĩa như:
Quan hệ tương đương (đồng nghĩa): với các kí hiệu chỉ dẫn “xem” để chỉ dẫn từ từ quy ước đến từ không quy ước. Kí hiệu chỉ dẫn “dùng cho” (DC) đặt trước từ không quy ước: Đậu nành XEM Đậu tương, đậu tương DC đậu nành
Quan hệ liên đới với kí hiệu chỉ dẫn “cũng xem” (CX) chỉ mqh giữa các khái niệm khác nhau nhưng về ý nghĩa lại có liên quan mật thiết đến nhau: Đường biển CX đường thủy
+ Từ khóa nhân vật: gồm tên một số nhân vật nổi tiếng trong lịch sử và một số tác gia có danh tiếng. Đối với những nhân vật có nhiều bút danh hoặc nhân vật nước ngoài có những cách phiên âm, phiên tự khác nhau sẽ có kí hiệu chỉ dẫn sử dụng tên thống nhất là “xem” và “dùng cho”: