Khối lượng tài nguyên kỹ thuật số bùng nổ nhanh chóng từ cuối thế kỷ 20 đã tạo nên một không gian số năng động và thuận tiện hơn bao giờ hết cho việc tiếp cận thông tin từ hầu hết mọi nơi trên thế giới. Miễn phí, dễ dàng truy cập, đường biên giới gần như bằng không và lưu trữ trong tích tắt, những ưu điểm đáng ngạc nhiên của kỷ nguyên công nghệ số vô tình mở nguồn cho một khái niệm đáng lo ngại, gióng lên hồi chuông cảnh báo trong kỷ nguyên này về tình trạng đánh cắp tài nguyên chất xám hay còn gọi là “Đạo văn” (tiếng Anh: plagiarism).
Khái quát khái niệm: Đạo văn là việc trình bày tác phẩm hoặc ý tưởng của người khác như là của riêng, dù có hoặc không có sự đồng ý của tác giả, bằng cách đưa nó vào tác phẩm của riêng mà không có sự thừa nhận đầy đủ. Tất cả các tài liệu đã xuất bản và chưa xuất bản, dù ở dạng bản thảo, bản in hay điện tử, đều được đề cập theo định nghĩa này. [1]
Hình thức: Đạo văn có thể bắt nguồn từ việc cố ý (có chủ đích) hoặc sơ ý (thiếu thận trọng), như đã định nghĩa, việc “đánh cắp chất xám” có thể mắc phải trong các bài luận, bài báo hoặc các công trình nghiên cứu khoa học trong những tình huống như sau: [2]
- Tuyên bố tác phẩm của người khác là của mình.
- Thừa nhận đóng góp vào tác phẩm của người khác là của mình.
- Tái cấu trúc (xây dựng lại) tác phẩm của người khác và thừa nhận là của mình.
- Ghi nhận sai sự đóng góp của người khác trong tác phẩm của mình (trường hợp đồng sáng tác)
Theo quy định của Đại học Oxford, quy cách về việc thừa nhận sự đóng góp hoặc ý tưởng của người khác không chỉ áp dụng cho văn bản mà còn cho các phương tiện khác, chẳng hạn như mã máy tính, hình minh họa, đồ thị, dữ liệu, bài giảng, luận văn hay bài luận của sinh viên khác v.v…
Thể thức: Đạo văn được phân loại thành hai dạng thức chính gồm: [3]
- Đạo – copy văn bản (Textual plagiarism)
- Đạo – copy mã nguồn (Source Code plagiarism)
Đạo – copy văn bản (Textual plagiarism)
Đạo – copy văn bản thường mắc phải trong môi trường học thuật, trong đó dữ liệu hay tài nguyên gốc bị phân bổ một cách bộ phận hay toàn thể dưới các dạng thức phụ khác nhau như đã được nêu trong phần khái quát khái niệm. Khi đi sâu vào phân tích các trạng thái thường thấy của đạo – copy văn bản, ta sẽ thấy gồm bảy biến thể sẽ được nêu sau đây: [4]
- Cắt – dán, sao chép có chủ ý (Deliberate copy-paste/clone plagiarism): Dạng này đề cập đến các tình huống mà trong đó tài nguyên gốc bị sao chép, lưu dưới tên tác giả khác mà không có ghi nhận nguồn gốc nguyên tác.
- Diễn giải tái cấu trúc (Paraphrasing plagiarism): Hình thức đạo văn này có thể được phân bổ thành hai tình huống gồm:
- Diễn giải tái cấu trúc đơn giản (Simple paraphrasing): Đề cập đến việc sử dụng ý tưởng, từ ngữ hoặc công việc khác và trình bày nó theo những cách khác nhau bằng cách chuyển từ, thay đổi cách xây dựng câu và thay đổi về văn phong, ngữ pháp.
- Diễn giải tái cấu trúc phức hợp (Mosaic/Hybrid/patchwork paraphrasing): Đây là hình thức đạo văn văn bản thường xảy ra khi có việc kết hợp nhiều đóng góp nghiên cứu của một số người khác và trình bày lại nó theo một cách khác (bằng việc tái cấu trúc câu) mà không cần trích dẫn (các) nguồn
- Đạo văn ẩn dụ (Metaphor plagiarism): Sử dụng phương thức ẩn dụ thể hiện ý tưởng của người khác.
- Đạo văn ý tưởng (Idea plagiarism): Ở đây, ý tưởng hoặc giải pháp được mượn từ (các) nguồn khác và xác nhận quyền sở hữu như của riêng trong một bài báo nghiên cứu.
- Đạo văn tự / tái sử dụng (Self/recycled plagiarism): Trong hình thức này, một tác giả sử dụng tài nguyên của chính mình đã xuất bản trước đó để làm việc trong dự án mới khác để xuất bản.
- Lỗi 404 / Đạo văn nguồn bất hợp pháp (404 Error / Illegitimate Source plagiarism): Ở đây, một tác giả trích dẫn một số tài liệu tham khảo nhưng các nguồn không hợp lệ.
- Đạo văn retweet (Retweet plagiarism): Hình thức này xuất phát từ mạng xã hội phổ biến tên “Twitter”, người đạo văn sử dụng lại (retweet) nội dung (câu đùa, dòng trạng thái..) đã được sáng tạo trước đó mà không đề cập đến tác giả và nguồn nội dung.
Đạo – copy mã nguồn (Source Code plagiarism)
Trường hợp đạo – copy mã nguồn có các hành vi tương tự với đạo – copy văn bản nhưng phổ biến trong không gian mạng (đối với các chương trình phần mềm có sử dụng mã code) và được phân thành bốn biến thể tương ứng gồm:
- Thao túng đạo văn Vicinity (Manipulation from Vicinity plagiarism): Ở đây, một nhà phát triển thao túng một chương trình bằng cách chèn, xóa, hoặc thay thế một số mã trong một chương trình hiện có, với hoặc không thừa nhận nguồn gốc và tuyên bố đó là chương trình của riêng mình.
- Sắp xếp lại thứ tự cấu trúc đạo văn (Reordering structure plagiarism): Trong loại này, có sự sắp xếp lại các tuyên bố hoặc chức năng của một chương trình hoặc thay đổi cú pháp của một chương trình mà không dẫn nguồn đến bản gốc.
- Đạo văn trắng (No change plagiarism): Trường hợp này, có việc thêm hoặc xóa các khoảng trắng hoặc nhận xét hoặc thụt lề của chương trình và tuyên bố chương trình là của riêng.
- Đạo văn chuyển đổi ngôn ngữ (Language switching plagiarism): Trong loại này, hành động là đổi ngôn ngữ của một chương trình đã được viết bằng một ngôn ngữ khác.
Với sự phân loại kể trên, người viết, sáng tạo nội dung đặc biệt là trong môi trường học thuật có lẽ sẽ thật sự e ngại việc bị tuýt còi đánh dấu đạo văn có thể diễn ra bất cứ lúc nào. Tuy nhiên, tin vui là một số quy tắc được đề cập dưới đây theo quy định chung từ Cộng đồng các trường Cao đẳng bang Tennessee Hoa Kỳ sẽ giúp bạn thoát khỏi việc bị dán nhãn đạo văn [5].
- Kiến thức phổ thông (Common knowledge)
Đối với người viết, kiến thức phổ thông là một khái niệm quan trọng vì trong một số trường hợp, tài liệu có thể được xem là kiến thức phổ thông mà không cần phải trích dẫn nguồn. Nhưng việc xác định khái niệm này có thể gây nhầm lẫn nếu bạn không nắm rõ cách đánh giá thông tin. Nhìn chung, kiến thức phổ thông nhằm chỉ các thông tin phổ biến trong một thời kỳ và cơ bản cho hầu hết mọi người tiếp cận. Ví dụ một số thông tin được mặc định là kiến thức phổ thông và không cần trích dẫn nguồn như: “Thế vận hội Olympics được tổ chức bốn năm một lần”; “Trung Quốc là quốc gia có dân số đông nhất thế giới”, v.v…
Ai là người quyết định thông tin nào được cho là kiến thức phổ thông ? Câu trả lời cần được ghi nhớ đó chính là độc giả, những người sẽ tiếp cận nội dung của bạn. Trong môi trường học thuật, các đồng nghiệp, giảng viên sẽ là người trực tiếp thực hiện điều này, do đó, trong hầu hết mọi trường hợp, người viết cần xác định đối tượng độc giả, môi trường lưu hành thông tin nhằm quyết định việc trích dẫn nguồn bài viết có thật sự cần thiết hay không.
- Trích dẫn nguồn như thế nào?
Thủ tục xác nhận rằng bạn đã mượn, hoặc tham khảo tài liệu từ người khác và đưa vào tác phẩm của riêng bạn được gọi là trích dẫn. Ngoài kiến thức thông thường, tất cả tài liệu bạn đưa vào bài báo của mình đều phải được trích dẫn. Hầu hết các bài báo yêu cầu hai loại trích dẫn – trích dẫn trong văn bản cung cấp cho người đọc một ghi chú ngay lập tức về tài liệu nguồn và tài liệu tham khảo cuối dẫn người đọc đến tài liệu nguồn với các trích dẫn chi tiết. Định dạng cho từng loại trích dẫn khác nhau dựa trên phong cách trích dẫn mà người đánh giá hoặc chuyên ngành của bạn yêu cầu. Hai cách trích dẫn phổ biến nhất là hướng dẫn phong cách của Hiệp hội Ngôn ngữ Hiện đại (MLA) và Hiệp hội Tâm lý Hoa Kỳ (APA).
Phương pháp phát hiện đạo văn được sử dụng hiện nay trên thế giới:
Cùng với tốc độ phát triển nhanh chóng của không gian mạng, lưu lượng thông tin khổng lồ được trao đổi qua mỗi giây từ người dùng khiến cho việc đạo văn dù dưới bất kỳ hình thức nào cũng dần trở nên khó xác định. Nhưng với yêu cầu gắt gao về tính liêm chính trong học thuật mà trong hai thập kỷ qua, một số các công cụ phần mềm đã được phát triển và tối ưu nhằm phát hiện đạo văn một cách hiệu quả nhất. Các phần mềm được ứng dụng trên thế giới có thể liệt kê gồm: [6]
- SafeAssignment: Công cụ này duy trì một cơ sở dữ liệu mà tài khoản người dùng là bắt buộc để giữ tính duy nhất của các tài liệu đã nộp nhằm tránh bất kỳ quyền sao chép nào. Công cụ này sử dụng các thuật toán tìm kiếm và xếp hạng độc quyền cho đối chiếu với các tài nguyên có sẵn. Kết quả phát hiện đạo văn được hiển thị trong vòng vài phút.
- Docol © : Dịch vụ dựa trên Web này sử dụng các khả năng như tìm kiếm và xếp hạng API của Google. Tài liệu đã gửi được tải lên máy chủ và quá trình đánh giá được thực hiện ở phía máy chủ. Phần mềm cung cấp một bảng điều khiển đơn giản để tìm kiếm phân đoạn với kích thước, ràng buộc ngày tháng, lọc và các tùy chọn khác. Các kết quả đánh giá được gửi đến người dùng thông qua email xác định các phần ăn cắp ý tưởng và các nguồn đạo văn. Điều này hoàn toàn phụ thuộc vào API của Google.
- WCopyfind: Đây là một công cụ phát hiện đạo văn mã nguồn mở để phát hiện các từ hoặc các cụm từ có độ dài xác định trong kho tài liệu cục bộ. Mở rộng của nó phiên bản có khả năng tìm kiếm trên Internet bằng Google API để kiểm tra đạo văn trên mạng.
- GPSP – Chương trình Sàng lọc Đạo văn của Glatt: Hệ thống này sử dụng cách tiếp cận không giống như các dịch vụ đã đề cập khác. Nó tìm và sử dụng phong cách viết của các tác giả để phát hiện đạo văn. Dịch vụ này hoạt động cục bộ và nó yêu cầu tác giả đi thông qua một bài kiểm tra bằng cách điền vào các khoảng trống. Số lượng không gian được điền chính xác và thời gian hoàn thành bài kiểm tra được sử dụng để đưa ra giả thuyết về việc đạo văn. Hệ thống này về cơ bản được phát triển cho giáo viên và nó không thể phát hiện mã nguồn đạo văn.
- Turnitin: Đây là một công cụ dựa trên web thành công khác được cung cấp bởi iParadigms. Người dùng cần tải tài liệu thử nghiệm lên cơ sở dữ liệu hệ thống để hệ thống kiểm tra đạo văn sẽ tạo ra một dấu vân tay của tài liệu và lưu trữ nó. Trong công cụ này, phát hiện và tạo báo cáo được thực hiện từ xa. Turnitin đã được chấp nhận bởi 15.000 tổ chức và 30 triệu sinh viên do giao diện dễ sử dụng, hỗ trợ kho lưu trữ lớn, kiểm tra đạo văn chi tiết và báo cáo được tổ chức tốt. Có thể coi đây là một trong những công cụ kiểm tra đạo văn tốt nhất dành cho giáo viên.
- Plagiarism Scanner: Đây là một công cụ phát hiện đạo văn nhanh chóng và hiệu quả để sinh viên, người hướng dẫn, nhà xuất bản, người viết blog từ năm 2008. Đây là một trang trực tuyến thân thiện với người dùng dụng cụ. Công cụ này thực hiện thông qua việc phát hiện chi tiết hành vi đạo văn của một tài liệu chỉ trong vòng vài phút. Công cụ này chạy trên tất cả các tài nguyên Internet, bao gồm trang web, cơ sở dữ liệu kỹ thuật số và thư viện trực tuyến (chẳng hạn như Questia, ProQuest, v.v.). Nó tạo ra một báo cáo đầy đủ, cho biết xếp hạng độ nguyên gốc tổng thể và tỷ lệ phần trăm các tài liệu bị đạo văn trong văn bản đã nộp.
Toàn cầu hoá và sự bùng nổ của thông tin mở ra rất nhiều cơ hội cho những người làm nội dung, giới học thuật tiếp cận và chia sẻ tri thức, nhưng cũng chính vì vậy mà vấn đề sở hữu trí tuệ và gìn giữ tính chính trực hàn lâm được yêu cầu phải đặt lên hàng đầu. Việc tôn trọng tác quyền là yếu tố cốt lõi nhằm xây dựng một cộng đồng tri thức chất lượng. Với những người theo học và công tác tại các nước nói tiếng Anh, việc nắm vững các quy tắc trình bài và quy định học thuật là một tiêu chuẩn không thể xem nhẹ.
Tại đất nước Hoa Kỳ, các vấn đề về bản quyền tác giả đều thuộc quyền xử lý của Văn phòng Bản quyền Hoa Kỳ (United States Copyright Office). Văn phòng này trực thuộc Thư viện Quốc hội Hoa Kỳ (Library of Congress).
Tạ Hồng Bảo Châu tổng hợp
Nguồn tham khảo:
[1]: University of Oxford, Academic matters
[2]: M. S. Anderson, N. H. Steneck, The problem of plagiarism, in: Urologic Oncology: Seminars and Original Investigations, Vol. 29, Elsevier, 2011, pp. 90-94.
[3]: A. M. E. T. Ali, H. M. D. Abdulla, V. Snasel, Overview and comparison of plagiarism detection tools, in: DATESO, Citeseer, 2011, pp. 161{172.
[4] . N. Charya, K. Doshi, S. Bawkar, R. Shankarmani, Intrinsic plagiarism detection in digital data
[5] The Rules about Plagiarism, Jackson State Community College
[6] H. A. Maurer, F. Kappe, B. Zaka, Plagiarism-a survey., J. UCS 12 (8) (2006) 1050-1084.