Zadania w 3 dowolnych jezykach(jeden musi byc c++)
Potrzebuje czysty kod + statystki czas wykonia itp
Jak ktos moze zrobic tylko jedno lub dwa zadania prosze w komentarzach napisac propozycje
Bardzo wazny jest czas (najlepiej w niedziele chcialbym to dostac)
Zadanie 1 - statystyka wyrazów
Celem zadania jest napisanie programu sporządzającego statystykę występowania wyrazów w pliku
tekstowym. Jako dane należy wykorzystać plik potop.txt. Program powinien wypisywać
20 najczęściej występujących wyrazów wraz z liczba ich wystąpień. Przez wyraz rozumiemy
spójny ciąg liter a-z, A-Z (razem 70 liter), wszystkie inne znaki należy traktować jako separatory.
Wyrazy pisane z malej i wielkiej litery należy traktować jako identyczne. Problem należy rozwiązać
w min. dwóch językach programowania. Jedno z rozwiązań należy zrealizować w prostym języku
(Pascal, C/C++, itp.) z samodzielna implementacja wyszukiwania połówkowego. W sprawozdaniu
proszę wysłać kody źródłowe programów oraz porównanie czasów ich wykonania, a także
wielkości kodów źródłowych. Proszę zwrócić uwagę, czy wszystkie programy dają identyczny
rezultat.
zad2
Zadanie 2 - korektor tekstu
Korzystając z kodu funkcji dist.c i listy form [login to view URL] jakie występują w języku polskim napisać
prosty program dokonujący korekty wprowadzonych wyrazów. Język implementacji dowolny.
zad3
Zadanie 5 - ekstrakcja osób z Wikipedii
Proszę napisać program, który przeglądając zasoby polskojęzycznej Wikipedii stworzy listę osób
(nazwisko imię) tam występujących. Lista powinna zawierać wszystkie osoby uporządkowane
w kolejności alfabetycznej wg. Nazwisk. Dla realizacji programu przydatna będzie lista imion
zawarta w pliku imiona.txt. Jako rozwiązanie proszę przysłać listę osób oraz skrypt, który ją
utworzył. Język implementacji - dowolny.
lub
Proszę zbudować model N-gramowy kolejności występowania liter albo wyrazów w tekstach
uczących dla N w zakresie od 1 do 6 i zebrać statystyki dla tekstów. Zastosować nauczone modele
do generacji przypadkowych tekstów. Określić wpływ wartości N na jakość generowanego tekstu.
Język implementacji dowolny.