Ngữ liệu văn bản (tiếng Anh: text corpus) là 1 dữ liệu tập hợp các văn bản, ngôn ngữ đã được số hoá. Cách dịch thông thường ở Việt Nam là "kho ngữ liệu" ("Vietnamese text corpus"). Ví dụ về corpus như "tuyển tập các tác phẩm của Nam Cao", hay "Truyền kỳ mạn lục",... VietDic Corpus là tập hợp các văn bản chứa trong nó đã được tách từ, câu (word segmentation). Chẳng hạn, khi muốn tìm kiếm từ "văn học" xuất hiện trong Kho văn bản thì ta được kết quả là một tập hợp ngữ cảnh (context) của "văn học". |
Ví dụ: (tra từ: "Văn học") |
Tôi yêu văn học , bởi thế tôi hâm mộ tất cả những nhà văn , tôi cứ nghĩ họ thật siêu nhân vì họ đã viết ra những điều hay ho như thế . |
Còn tuỳ thể loại văn học mà nhà văn đó viết người ta sẽ chia ra là , nhà văn lãng mạn , nhà văn trinh thám , nhà văn viễn tưởng , nhà văn hiện thực . |
Hãy đến với văn học chật vật như Phạm Tiến Duật , dò dẫm hàng năm trời không mỏi mệt , chỉ để đạt được mục đích đem đến cho thơ một tiếng nói mới , độc đáo và riêng biệt... ; chỉ để tìm được ở mỗi người đọc , mọi người đọc một con đường đi vào đáy sâu tâm hồn họ . |