Ngôn Ngữ Học Corpus Là Gì ? Định Nghĩa, Ví Dụ, Giải Thích

SUMMARYThere has been much articlemention the importance of the corpus for the development of corpus linguistics in the last ten years. However, the situation of Vietnam now, not much deeply articleon this issue. The authors noted that corpus is useful for language study, especially for compiling the dictionary. This article presented an overview about the concepts corpus and corpus linguistics, and also tries to present more deeply about how to build common corpus today.

Bạn đang xem: Corpus là gì

TÓM TẮTĐã có nhiều bài viết nói về tầm quan trọng của kho ngữ liệu (corpus) đối với sự phát triển của ngôn ngữ học ngữ liệu (corpus linguistics) trong khoảng 10 năm trở lại đây. Tuy nhiên, trong bối cảnh Việt Nam hiện nay, chưa có nhiều bài nghiên cứu đi sâu vào vấn đề này. Nhận thấy kho ngữ liệu ngày càng trở nên hữu ích cho nghiên cứu ngôn ngữ, đặc biệt là cho biên soạn từ điển, bài báo sẽ giới thiệu khái quát về khái niệm kho ngữ liệu và ngôn ngữ học ngữ liệu, đồng thời cũng cố gắng trình bày sâu hơn về cách thức xây dựng kho ngữ liệu phổ biến hiện nay.
I. Giới thiệu

1. Kho ngữ liệu

1.1. Trên quốc tế, việc kiến thiết xây dựng ngân hàng nhà nước tài liệu ( chứa hình ảnh, âm thanh, lời nói, văn bản, số liệu, bảng biểu, lược đồ, v.v. ) đã có từ lâu, và được gọi chung là databank hoặc database ( cơ sở tài liệu ). Với tài liệu là vật liệu ngôn từ thì thường được tổ chức triển khai thành một loại riêng, gọi là corpus ( kho ngữ liệu, kho văn bản ). Một tập hợp gồm nhiều corpus gọi là corpora ( số nhiều của corpus ). Nổi tiếng nhất phải kể đến là Kho ngữ liệu quốc tế Anh quốc ( ICE : International Corpus of English ), Kho ngữ liệu vương quốc Anh quốc ( BNC : British National Corpus ), Kho ngữ liệu vương quốc Hoa Kì ( ANC : American National Corpus ), v.v… và gần đây là Sketch Engine với một corpora đồ sộ gồm hơn 130 corpus ( tính đến tháng 7 năm 2012 ), trong đó có Kho ngữ liệu BNC, và đặc biệt quan trọng là Kho ngữ liệu tiếng Việt ( VietnameseWaC ) .

Theo Wikipedia, một kho ngữ liệu (corpus hoặc text corpus) được hiểu là một tập hợp đủ lớn các văn bản có cấu trúc đã qua chế biến, và thường được lưu trữ ở dạng điện tử. Người ta sử dụng kho ngữ liệu để phục vụ cho việc phân tích thống kê, xác định tính đúng đắn của một giả thuyết, kiểm tra sự cố hoặc tính hợp lệ của các quy tắc ngôn ngữ trong một bối cảnh đặc thù.

Một kho ngữ liệu hoàn toàn có thể chứa văn bản bằng một thứ tiếng đơn lẻ – gọi là kho ngữ liệu đơn ngữ ( monolingual corpus ), hoặc văn bản bằng nhiều thứ tiếng – gọi là kho ngữ liệu đa ngữ ( multilingual corpus ). Các kho ngữ liệu đa ngữ được định dạng đặc trưng để hoàn toàn có thể so sánh cạnh nhau ( side-by-side ) được gọi là kho ngữ liệu song song có gióng hàng ( aligned parallel corpora ). Sự gióng hàng hoàn toàn có thể ở những mức như : những từ được gióng hàng từng đôi một ( từ của ngôn từ A là từ dịch của ngôn từ B ) ; những ngữ trong được gióng hàng từng đôi một ( ngữ của ngôn từ A là ngữ dịch của ngôn từ B ) ; những câu được gióng hàng từng đôi một ( câu của ngôn từ A là câu dịch của ngôn từ B ), v.v.Để kho ngữ liệu trở nên có ích cho việc nghiên cứu và điều tra ngôn từ, đặc biệt quan trọng là trong việc biên soạn từ điển, những văn bản thường được làm giàu thêm bằng việc chú giải ( annotation ) những thông tin tri thức. Chẳng hạn, những từ trong cụm từ sẽ được chú giải thông tin về từ loại – gọi là gắn nhãn từ loại ( part-of-speech tagging, viết tắt : POS-tagging ). Các cụm từ trong câu sẽ được phân tách và gắn nhãn – gọi là phân đoạn cụm từ ( chunking ). Với những ngôn từ đơn lập như tiếng Việt, do ranh giới của từ không được xác lập rõ ràng bằng hình thức, nên ngữ liệu thường phải trải qua quy trình xác lập đơn vị chức năng từ và gắn nhãn khu biệt – gọi là phân đoạn từ ( word segmentation ), v.v.Một số kho ngữ liệu có Lever cấu trúc sâu hơn để cho sự nghiên cứu và phân tích được hiệu lực hiện hành. Đặc biệt, kho ngữ liệu hoàn toàn có thể được nghiên cứu và phân tích ngữ pháp và gắn nhãn cú pháp không thiếu. Kho ngữ liệu như vậy được gọi là Treebank, nó thường có dung tích nhỏ ( chứa khoảng chừng 1 đến 3 triệu từ ), do việc làm nghiên cứu và phân tích ngữ pháp và gắn nhãn cú pháp đa phần làm bằng tay, yên cầu độ đúng chuẩn cao nên mất rất nhiều công sức của con người cũng như kinh phí đầu tư. Các Lever khác của ngôn từ được chú giải hoàn toàn có thể gồm có cả hình thái, ngữ nghĩa và ngữ dụng .1.2. Corpora là cơ sở tri thức chính trong ngôn ngữ học ngữ liệu. Cách thức nghiên cứu và phân tích và chế biến những loại khác nhau của corpora cũng là chủ đề cho nhiều việc làm đặt ra trong ngôn ngữ học máy tính ( computational linguistics ), nhận dạng lời nói ( speech recognition ) và dịch máy ( machine translation ). Người ta thường sử dụng corpora để tạo ra quy mô Markov ẩn ( hidden Markov model ) Giao hàng cho việc gắn nhãn từ loại và những mục tiêu khác. Corpora phân phối list tần số Open của từ, và hoàn toàn có thể tạo ra từ điển phân bổ từ ( distributional thesaurus ), so sánh hai từ giống nhau và đưa ra list những thành phần tích hợp với chúng, v.v. Đây là nguồn tư liệu rất hữu dụng cho việc nghiên cứu và điều tra và giảng dạy ngôn từ. Corpora ( đơn ngữ hoặc đa ngữ ) hoàn toàn có thể được coi là một loại công cụ tương hỗ cho việc học ngoại ngữ, cung ứng kiến thức và kỹ năng ngữ pháp cho người học trải qua tiếp xúc với văn bản xác nhận, được cho phép người học nắm được phương pháp tạo lập câu trong ngôn từ đích ( target language ) để tạo thành văn bản khả dụng .

2. Ngôn ngữ học ngữ liệu

2.1. Ngôn ngữ học ngữ liệu ( corpus linguistics ) là một nhánh của ngành ngôn ngữ học tương quan tới kĩ thuật xử lí ngữ liệu có dùng máy tính, vận dụng để xử lý những yếu tố được miêu tả với quy mô to lớn .Ngôn ngữ học ngữ liệu giờ đây được coi là nghiên cứu và điều tra những hiện tượng kỳ lạ ngôn từ trải qua những bộ sưu tập to lớn gồm những văn bản máy đọc được ( machine-readable ), gọi là corpora. Corpora được sử dụng trong 1 số ít nghành nghiên cứu và điều tra, từ nghiên cứu và điều tra diễn đạt cú pháp của ngôn từ đến thi pháp hoặc học tiếng … .Việc sử dụng những thí dụ thực tiễn của văn bản trong điều tra và nghiên cứu ngôn từ không phải là một yếu tố mới. Tuy nhiên, do được phân phối những năng lực to lớn trong việc xử lí ngôn từ tự nhiên với máy tính nên ngôn ngữ học ngữ liệu đã tăng trưởng đáng kể trong những thập kỉ gần đây. Tính sẵn sàng chuẩn bị của những văn bản máy đọc được được cho phép máy tính xâm nhập nguồn ngữ liệu một cách nhanh gọn, và cũng thuận tiện trình diễn ngữ liệu trong một định dạng thích hợp để nghiên cứu và phân tích .2.2. Ngôn ngữ học ngữ liệu hẳn nhiên không phải chỉ là việc đi tìm kiếm và tích lũy ngữ liệu trải qua việc sử dụng máy tính. Nhiệm vụ chính của ngôn ngữ học ngữ liệu là nghiên cứu và điều tra và nghiên cứu và phân tích nguồn tài nguyên có được từ những corpus. Máy tính là công cụ hữu dụng, và đôi khi không hề thiếu, được sử dụng trong quy trình này. Như vậy, ngôn ngữ học ngữ liệu hoàn toàn có thể được hiểu là khoa học nghiên cứu và điều tra về “ quốc tế thực ” văn bản, biểu lộ trong corpora. Corpora được sử dụng trong những nội dung sau :○ Nghiên cứu ngôn từ trong thực tiễn : diễn đạt cách tiếp cận, nghiên cứu và điều tra về hiệu suất sử dụng ngôn từ, thực nghiệm ngôn từ .○ Ngôn ngữ học ứng dụng :– Từ điển học : từ điển đơn ngữ, từ điển thuật ngữ, từ điển song ngữ ;– Nghiên cứu ngôn từ : xác định giả thuyết, mày mò tri thức ( từ vựng, hình thái học, cú pháp, … ) ;– Nghiên cứu dịch : những tương tự dịch của cùng một nguồn và ngữ cảnh của chúng, những bộ nhớ dịch, những bản dịch được máy tương hỗ ;– Học tiếng : thí dụ thực tiễn, “ giảng dạy bằng thành ngữ ”, tăng trưởng chương trình giảng dạy ;○ Công nghệ ngôn từ :– Bộ thử nghiệm cho những giải pháp được tăng trưởng ;– Bộ huấn luyện và đào tạo cho học quy nạp ;– Xử lí ngôn từ tự nhiên bằng thống kê .

II. Cách thức xây dựng kho ngữ liệu

1. Dự án ICE <1>

1.1. Vào cuối những năm 1980, khi Sidney Greenbaum có ý tưởng sáng tạo tạo ra một Kho ngữ liệu quốc tế Anh quốc ( ICE ) thì ông cũng đã tưởng tượng ra đội ngũ quốc tế nhữngnhà điều tra và nghiên cứu tích lũy và điện toán hoá ( computerizing ) những kiểu loại văn bản thuộc dạng nói và dạng viết, đại diện thay mặt cho những biến thể tiếng Anh địa phương sống sót trên khắp quốc tế, như Anh-Anh, Anh-Mĩ và Anh-Ấn. Một corpora của những biến thể như vậy đã được tạo ra, ngữ liệu được gắn nhãn và nghiên cứu và phân tích cú pháp một cách chi tiết cụ thể. Một corpora tổng hợp sẽ được cho phép không chỉ để so sánh những biến thể khác nhau của tiếng Anh quốc tế tăng trưởng trên khắp quốc tế, mà còn để sự nghiên cứu và phân tích ngôn từ có công dụng trong thực tiễn dựa trên một nguồn ngữ liệu có độ dài lớn và rất là thoáng đãng được tạo ra từcác bài phát biểu và những bài viết .Thật không may, Sidney khôngcòn sống để nhìn thấy sự thành công xuất sắc của ICE, nhưngước mơ của ôngv ề việc tạo ra những kho ngữ liệu được số hoá của những biến thể tiếng Anh địa phương đã được những thành viên của dự án Bất Động Sản ICE ở những vương quốc hoặc khu vực biến thành hiện thực. Các vương quốc hoặc khu vực gồm có : nước Australia, Ireland ( North and South ), Canada Malaysia, Caribbean ( Jamaica ), New Zealand, East Africa ( Kenya, Tanzania ), Philippines, Fiji, Nước Singapore, Great Britain ( England, Scotland, Wales ), South Africa, Hong Kong, Sri Lanka, India, USA .Những cuộc tranh luận lớn nổ ra giữa những nhóm điều tra và nghiên cứu về việc quyết định hành động xem loại văn bản nào của tiếng Anh sẽ là đại diện thay mặt cho kho ngữ liệu và mỗi loại văn bản sẽ có số lượng là bao nhiêu trong kho ngữ liệu ? Cuối cùng, họ đã quyết định hành động là kho ngữ liệu sẽ tập hợp 500 văn bản, trong đó có 300 văn bản nói và 200 văn bản viết, mỗi một văn bản chứa khoảng chừng 2000 từ. Với văn bản nói thì phải đọc từng văn bản và ghi lại thành dạng văn bản viết, những chỗ ngừng nghỉ hoặc có đặc thù đưa đẩy trong khi nói cũng được ghi lại rõ ràng. Trong hai loại văn bản này, lại được tổ chức triển khai trong một cấu trúc tầng bậc. Chúng được trình diễn như bảng dưới đây ( tạm dịch nguyên văn ) :*Khung phong cách thiết kế kho ngữ liệu ICEHiện nay, có hai mươi nhóm điều tra và nghiên cứu trên khắp quốc tế đang chuẩn bị sẵn sàng kho ngữ liệu điện tử tiếng Anh của nhiều vương quốc hoặc khu vực. Mỗi kho ngữ liệu ICE gồm có một triệu từ thuộc văn bản nói và viết tiếng Anh Open sau năm 1989. Đối với hầu hết những nước tham gia, dự án Bất Động Sản ICE sẽ khuyến khích việc điều tra và nghiên cứu thứ nhất mang tính mạng lưới hệ thống đa vương quốc. Để bảo vệ tính thích hợp giữa những thành phần của kho ngữ liệu, mỗi nhóm nghiên cứu và điều tra đều tuân thủ một một khung phong cách thiết kế tổng quát cho kho ngữ liệu, cũng như một sơ đồ chung cho những chú thích ngữ pháp .1.2. ICE của Vương quốc Liên hiệp Anh và Bắc Ireland ( ICE-Great Britain – viết tắt là ICE-GB ) là bộ phận vương quốc tiên phong của dự án Bất Động Sản ICE đã được phát hành. Giống như tổng thể những kho ngữ liệu ICE khác, ICE-GB tích lũy một triệu từ thuộc 200 văn bản viết và 300 văn bản nói, có tuân thủ khung phong cách thiết kế tổng quát vận dụng cho kho ngữ liệu. Mỗi văn bản đều được chú giải ngữ pháp, được cho phép nghiên cứu và điều tra phức tạp và chi tiết cụ thể trên toàn kho ngữ liệu. Tất cả những văn bản đều có chứa tiêu đề tập tin, cung ứng thông tin miêu tả chung, đóng vai trò là một đoạn có tính nhận dạng. Văn bản được chia thành những đoạn, những câu, lưu lại những điểm giống nhau về cấu trúc cú pháp của văn bản viết, hoặc những trường hợp khác nhau của văn nói để link trong khi nói .Trong ICE-GB cũng có một vài dạng nghiên cứu và phân tích cấu trúc và nghiên cứu và phân tích những điểm đặc biệt quan trọng trong khi nói và khi viết. Ở văn bản nói, có những cấu trúc riêng khi nói như yếu tố bao trùm lên nhau ( siêu đoạn ), và vì vậy những điểm ngắt nghỉ trong chuỗi lời nói đã được chỉ ra. Ở văn bản viết có ghi lại những cấu trúc của những đoạn và chỉ ra sự đổi khác của những đoạn. Đối với những đoạn văn, một cây nghiên cứu và phân tích từ loại và ngữ pháp đã được tạo lập, phân phối những tín hiệu nhận diện lời nói, nhận diện những từ khác nhau trong cây nghiên cứu và phân tích, những ngữ đặc biệt quan trọng và những mệnh đề, công dụng mà những từ đảm nhiệm trong câu như tân ngữ, bổ ngữ, v.v. Trong ICE-GB, có 2000 mẫu vận dụng cho việc nghiên cứu và phân tích ngữ pháp. Một tập nhãn ( tagset ) gồm có 20 lớp từ chính và một bộ nghiên cứu và phân tích ngữ pháp với hơn 90 tính năng cùng những nhãn kí hiệu tương ứng đã được sử dụng để gắn nhãn cho từ ngữ. Hiện nay, ICE-GB chứa khoảng chừng 83.394 cây nghiên cứu và phân tích ngữ pháp, trong đó có 59.640 thuộc ngữ liệu lời nói .Vì dự án Bất Động Sản ICE được yêu cầu từ cuối những năm 80 của thế kỉ 20 nên cấu trúc nghiên cứu và phân tích mà nó sử dụng không phản ánh cũng như không update được những yêu cầu theo tiêu chuẩn lúc bấy giờ của TEI ( Text Encoding Initiative – một sáng tạo độc đáo mã hoá văn bản ). Tuy nhiên, do cấu trúc nghiên cứu và phân tích được sử dụng trong ICE-GB là cấu trúc của SGML ( Standard Generalized Markup Language – ngôn từ lưu lại tổng quát ) nên hoàn toàn có thể quay lại mã hoá theo TEI một cách thuận tiện .1.3. Một kho ngữ liệu chỉ thật sự có giá trị khi nó đã trải qua khâu kiểm nghiệm. Để nghiên cứu và phân tích những văn bản có lưu lại về thông tin từ loại và ngữ pháp trong ICE-GB, một chương trình nghiên cứu và phân tích văn bản đặc biệt quan trọng có tên là ICECUP ( International Corpus of English Corpus Utility Program ) đã được tăng trưởng. Chương trình này hoàn toàn có thể triển khai những trách nhiệm như nối những ứng dụng đã được nghiên cứu và phân tích, tra từ khoá trong ngữ cảnh. ICECUP cũng hoàn toàn có thể giúp thực thi những cuộc khảo sát số lượng giới hạn có hiệu suất cao. Một người sử dụng đang muốn nghiên cứu và điều tra về những năng lực tích hợp của từ ví dụ điển hình, thì không chỉ nghiên cứu và điều tra riêng những tích hợp nhỏ mà còn điều tra và nghiên cứu cả cây cấu trúc chứa những phối hợp. Thí dụ, hoàn toàn có thể làm một cuộc tìm kiếm để lấy lại tổng thể những minh hoạ về năng lực phối hợp của ngữ danh từ trong kho ngữ liệu. Một chính sách tìm kiếm thêm sẽ được cho phép tìm lại cả những phần không rõ ràng hay là phần bị sai của cây cấu trúc, v.v.*ICECUP III hiển thị cây nghiên cứu và phân tích ngữ phápICECUP đã qua 4 phiên bản hoàn hảo từ khi mới mở màn. ICECUP 1 đã được Akiva Quinn viết để thao tác trên một kho ngữ liệu thô, không được gắn nhãn. Từ sự khởi đầu của lớp từ gắn nhãn trong ICE-GB, ICECUP 2 đã được Nick Porter tăng trưởng nhằm mục đích phân phối những điều kiện kèm theo tìm kiếm dựa trên tập ngữ liệu đã gắn nhãn ( Porter và Quinn, 1996 ). ICECUP 3 ( III ) là một chương trình mới do Sean Wallis ( 1998 ) phong cách thiết kế với mục tiêu tiên phong cho việc khảo sát phần nghiên cứu và phân tích cú pháp. Và lúc bấy giờ là ICECUPIVβ ( bản bêta ) .

2. Dự án Sketch Engine <2>

2.1. Sketch Engine ( SkE ) là một chương trình khai thác những kho ngữ liệu dựa trên nền tảng web, do tiến sỹ Adam Kilgarriff <3 > ý tưởng năm 2003. Nguyên liệu nguồn vào của SkE là nguồn ngữ liệu của bất kỳ một ngôn từ nào ở dạng đã được gắn nhãn ngôn ngữ học thích hợp. Hiện nay SkE có hơn 130 kho ngữ liệu, đại diện thay mặt cho 42 ngôn từ trên quốc tế, như Arabic, Bulgarian, Chinese, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Hebrew, Hindi, Hungarian, Indonesian, Italian, Japanese, Korean, Latin, Latvian, Malay, Polish, Portuguese, Romanian, Russian, Serbian, Slovak, Slovenian, Spanish, Swedish, Thai, Vietnamese, v.v. Kho ngữ liệu tiếng Việt VietnameseWaC chứa tới 106.464.835 từ, được phân đoạn từ và gán nhãn từ loại một cách tự động hóa < 4 > .SkE được phong cách thiết kế để cho bất kể ai muốn điều tra và nghiên cứu xem những từ hành chức như thế nào. Nó là một mạng lưới hệ thống truy vấn trực tiếp vào kho ngữ liệu để tập hợp thành lược đồ từ ( word sketch ) một cách tự động hóa, dựa trên bộ quy tắc tóm tắt về hành vi ngữ pháp và năng lực tổng hợp của từ. Lược đồ từ do SkE tạo ra lần tiên phong đượcsử dụng trong từ điển của Macmillan ( Macmillan English Dictionary for Advanced Learners ), bản năm 2002 và 2007 .SkE được sử dụng hàng ngày cho công tác làm việc từ điển học ở OxfordUniversity Press, Cambridge University Press, Collins, Macmillan, v.v. Nó cũng được sử dụng cho mục tiêu giảng dạy và điều tra và nghiên cứu tại những trường ĐH, những phòng điều tra và nghiên cứu thực nghiệm trên toàn quốc tế .2.2. SkE có một số ít tính năng nghiên cứu và phân tích ngôn từ cốt lõi như sau :2.2.1. ConcordancerConcordancer là một chương trình nghiên cứu và phân tích và hiển thị toàn bộ những lần Open của một chuỗi kí tự trong kho ngữ liệu cho một lần truy vấn nhất định. Chương trình này có năng lực xử lí rất can đảm và mạnh mẽ với một loạt những kiểu và phương pháp truy vấn khác nhau, giúp người dùng khám phá sâu về cách sử dụng của từ trong ngữ cảnh. Khi một từ được truy vấn, ngữ cảnh của từ sẽ được trình diễn như hình dưới đây ( sử dụng kho ngữ liệu VietnameseWaC ) :*

Từ “đối chứng” là từ chính cần tìm, được trình bày ở giữa hàng, hai bên là các từ hoặc tổ hợp từ thể hiện ý nghĩa của “đối chứng”, tất cả tập hợp đó gọi là ngữ cảnh (context). Khi click vào từ “đối chứng” thì một khung hiển thị ngữ cảnh chi tiết được mở ra để tiện quan sát. Cách thể hiện đó được gọi là trình bày dưới dạng KWIC (Key Word In Context). Việc trình bày các KWIC theo một trật tự sắp xếp nào đó (sort) gọi là Concordance.

Các kiểu truy vấn ( Query Type ) :

– Character: sử dụng để tìm các từ có chứa khuôn vần hoặc kí tự bất kì. Chẳng hạn tìm tr sẽ cho kết quả: bi tráng, chiến trường, hoành tráng, phát triển, thăng trầm, thành trì, trá hàng, trải, trăng, trận, trên, trời đất, trong, trông, trung tâm, trưng bày, trước, trước mắt… ; tìm ăn sẽ cho kết quả: ăn, bản năng, căn, căn bản, căn cơ, căn cứ, căng thẳng, chạy ăn, chăn, chăng, chức năng, công ăn việc làm, khả năng, năng lực, tăng cường, thăng trầm, thơ văn, trăng, văn thơ, văn võ, Võ Văn Kiệt… .

Xem thêm: Các Loại Từ Loại Là Gì ? Nghĩa Của Từ Từ Loại Trong Tiếng Việt

– Simple : sử dụng để tìm bất kể từ nào không yên cầu ràng buộc, không phân biệt chữ hoa và chữ thường. Chẳng hạn tìm từ ăn cho hiệu quả 60183 lần Open trong corpus, trong đó ăn Open 57718 lần, Ăn Open 2449 lần, ĂN Open 16 lần .– Word Form : sử dụng để tìm từ theo từ loại, có phân biệt chữ hoa và chữ thường. Chẳng hạn tìm từ cày sẽ cho tác dụng Open 1974 lần, trong đó cày là danh từ Open 31 lần, cày là động từ Open 1941 lần, cày là tính từ ( chắc do gắn nhãn tự động hóa sai ? ) Open 1 lần, cày là từ viết tắt ( chắc do gắn nhãn tự động hóa sai ? ) Open 1 lần. Nếu ngữ liệu được phân đoạn từ và gắn nhãn từ loại đúng chuẩn thì tính năng này rất có ích cho công tác làm việc biên soạn từ điển .– Ngoài ra còn có những kiểu truy vấn Lemma ( hình thái cơ bản của một từ, như dạng số ít của danh từ hoặc dạng nguyên mẫu của động từ, nó thường được biểu lộ ởngay đầu của một mục từ từ điển ), Phrase ( ngữ, tổng hợp từ ), CQL ( Corpus Querying Language ) .2.2.2. Word SketchChương trình này phân phối một bảng tóm tắt địa thế căn cứ ngữ liệu dựa trên hành vi ngữ pháp và quan hệ tích hợp của một từ. Thí dụ, truy vấn từ bắt ta có tác dụng như bảng sau :*Từ bảng trên ta thấy :– bắt có tần số Open 35663 lần ( freq = 35663 ) .– bắt đóng vai trò vị ngữ ( predicate ) = 18645 trường hợp, phối hợp sau bắt là : giam ( bắt giam = 2004 trường hợp ), kịp ( bắt kịp = 526 trường hợp ), tạm ( bắt tạm giam = 354 trường hợp ), quả tang ( bắt quả tang = 233 trường hợp ), v.v.– bắt đóng vai trò là tham tố của một động từ hoặc tổng hợp động từ khác ( verb argument ) = 14961 trường hợp, phối hợp trước bắt là : bị ( bị bắt = 8968 trường hợp ), lùng ( lùng bắt = 251 trường hợp ), đuổi ( đuổi bắt = 295 trường hợp ), ra lệnh ( ra lệnh bắt = 154 trường hợp ), v.v.– bắt tích hợp sau những từ hoặc ngữ chỉ mức độ ( modifies ) = 4060 trường hợp, phối hợp trước bắt là : cứ ( cứ bắt = 116 trường hợp ), Không thể ( Không thể bắt = 13 trường hợp ), liền ( liền bắt = 31 trường hợp ), không thể nào ( không thể nào bắt = 18 trường hợp ), v.v.2.2.3. Thes aurusChương trình này kiểm tra những từ Open có cùng những yếu tố khả kết ( collocate ) giống như những từ khác, và sẽ tạo ra một từ điển về năng lực phân bổ của từ ( distributional thesaurus ). Từ điển phân bổ này hoàn toàn có thể hiểu là một loại từ điển đồng nghĩa tương quan về năng lực tổng hợp từ. Nó được tạo ra một cách tự động hóa, dựa trên năng lượng tìm kiếm những từ có cùng xu thế Open trongngữ cảnh tương tự như như từ được truy vấn. Từ điển này không phải là từ điển của những từ đồng nghĩa tương quan ( synonym ). Thí dụ, khi truy vấn từ đàn bà, ta được bảng hiệu quả sau :*Bảng tác dụng chỉ ra rằng, đàn bà có năng lực phối hợp tương tự như như phụ nữ, đàn ông, con gái … Khi click vào đàn ông ta lại thu được bảng tác dụng sau :*Bảng hiệu quả này chỉ ra rằng, đàn bà và đàn ông tương tự như nhau về năng lực phối hợp :○ đàn bà / đàn ông tích hợp sau những từ chỉ mức độ : nhiều đàn bà ( tần số = 23 ), nhiều đàn ông ( tần số = 80 ) ; giống đàn bà ( tần số = 5 ), giống đàn ông ( tần số = 9 ) ; hơn đàn bà ( tần số = 8 ), hơn đàn ông ( tần số = 12 ) ; gần đàn bà ( tần số = 14 ), gần đàn ông ( tần số = 4 ) ..○ đàn bà / đàn ông tích hợp sau những động từ khác ( đóng vai trò là tham tố bổ trợ nghĩa ) : yêu đàn bà ( tần số = 5 ), yêu đàn ông ( tần số = 11 ) ; làm đàn bà ( tần số = 21 ), làm đàn ông ( tần số = 38 ) ; là đàn bà ( tần số = 200 ), là đàn ông ( tần số = 302 ) ; thích đàn bà ( tần số = 12 ), thích đàn ông ( tần số = 18 ), v.v.○ đàn bà / đàn ông phối hợp trước những động từ khác : đàn bà thích ( tần số = 8 : thích tiền, thích của lạ, thích đồ ngọt … ) ; đàn ông thích ( tần số = 41 : thích gái đẹp, thích đàn bà nồng nhiệt, thích sống độc thân … ), v.v.○ Ngoài ra, chương trình cũng tạo ra bảng những từ và tổng hợp từ chỉ tích hợp với đàn bà và bảng những từ và tổng hợp từ chỉ tích hợp với đàn ông :– hãm hiếp đàn bà ( tần số = 27 ), hiếp đàn bà ( tần số = 6 ), chút phận đàn bà ( tần số = 7 ), dụ dỗ đàn bà ( tần số = 7 ), đàn bà vô sinh ( tần số = 6 ), đàn bà goá ( tần số = 5 ), đàn bà chửa ( tần số = 5 ), v.v.– cạch đàn ông ( tần số = 9 ), Gã đàn ông ( tần số = 8 ), dương vật đàn ông ( tần số = 4 ), trả thù đàn ông ( tần số = 4 ), đàn ông đích thực ( tần số = 9 ), đàn ông lực lưỡng ( tần số = 8 ), đàn ông chân chính ( tần số = 7 ), v.v.Các bảng hiệu quả được tạo ra có độ đáng tin cậy cao hay thấp là trọn vẹn phụ thuộc vào vào dung tích và chủng loại văn bản xuất hiện trong kho ngữ liệu. Nếu ngữ liệu được tổ chức triển khai hợp lý, công cụ phân đoạn từ và gắn nhãn từ loại đạt độ đúng mực cao thì đây sẽ là một nguồn tài nguyên có ích cho việc điều tra và nghiên cứu và giảng dạy ngôn từ nói chung, cũng như biên soạn những loại từ điển ngôn từ nói riêng .

4. Kết luận

Chúng ta có vẻ như đang tận mắt chứng kiến một sự đổi khác to lớn trong cách tiếp cận nghiên cứu và điều tra của những nhà ngôn ngữ học tân tiến. Đó là việc họ đã tìm thấy và sử dụng kho ngữ liệu như thể nguồn tài nguyên chính để đi sâu vào mày mò, tìm cảm hứng cho những giải đáp về những yếu tố hóc búa của ngôn ngữ học .Ngôn ngữ học ngữ liệu là một trong những phương pháp luận tăng trưởng nhanh nhất trong ngôn ngữ học tân tiến. Việc sử dụng năng lượng đo lường và thống kê của máy tính đã cung ứng cho những nhà ngôn ngữ học nói chung, những nhà từ điển học nói riêng, những công cụ can đảm và mạnh mẽ trong việc tàng trữ, xử lí và trình diễn ngữ liệu. Qua đó hoàn toàn có thể miêu tả được tổng thể những góc nhìn của ngôn ngữtự nhiên, đặc biệt quan trọng là từ vựng, giúp cho việc nghiên cứu và điều tra thâm thúy hơn, và việc trình diễn hiệu quả trong từ điển đúng chuẩn hơn .

TÀI LIỆU THAM KHẢO

<1> Adam Kilgarriff. The Sketch Engine. Proc EURALEX (2004).<2> Đinh Điền, Hồ Hải Thuỵ. Ngôn ngữ học máy tính và việc xây dựng từ điển. Tạp chí Từ điển học & Bách khoa thư, số 4 (2011).<3> R. R. K Hartmann and Gregory James. Dictionary of Lexicography. Routledge, London and New York (1998).<4> sketchengine.co.uk<5> Stefan Th. Gries. What is Corpus Linguistics? Language and Linguistics Compass 3(2009).<6> Tomaž Erjavec. Corpus Linguistics. nl.ijs.si/et/teach/jsi06-hlt.<7> Tony McEnery and Andrew Wilson. Corpus Linguistics. lancs.ac.uk/fss/courses/ling/corpus.<8> Wikipedia. The free encyclopedia. en.wikipedia.org.<9> www.essex.ac.uk.

Xem thêm: Mở Và Phát Tệp Trong Quicktime Là Gì, Hướng Dẫn Sử Dụng Quicktime Player Cho Máy Mac

<10> www.ucl.ac.uk/english-usage/projects/ice-gb.

Follow Us

Có gì mới

  • Pelvis là gìPelvis là gì

    admin

  • Persuade là gìPersuade là gì

    admin

  • Top 4 địa chỉ lấy sỉ giày dép giá chất lượng tốt, giá rẻTop 4 địa chỉ lấy sỉ giày dép giá chất lượng tốt, giá rẻ

    admin

  • Disposition là gìDisposition là gì

    admin

  • Tiện ích phần mềm thủ thuật máy tính di độngTiện ích phần mềm thủ thuật máy tính di động

    admin

Trending

  • Trò chơi cởi đồTrò chơi cởi đồ

    admin

  • Bảng xếp hạng cờ tướng thế giớiBảng xếp hạng cờ tướng thế giới

    admin

  • Child porn là gìChild porn là gì

    admin

  • Oan tu xi coi aoOan tu xi coi ao

    admin

  • Cách làm đồ chơi tình dục cho namCách làm đồ chơi tình dục cho nam

    admin

Nhà cái
Nhà cái THABET Nhà cái KUBET

ĐÁNH GIÁ post
Bài viết liên quan

Tư vấn miễn phí (24/7) 094 179 2255