Частотный словарь

Задача: Получив на входе корпус языка (огромный набор атрибутированных текстов на каком-нибудь языке) построить частотный словарь. Знаки препинания, скобки, кавычки и числа должны быть удалены. Слова, содержащие в себе не буквенные символы, игнорируются целиком.

Реализация: Код на ideone

import java.util.*;
import java.lang.*;
import java.text.*;
import java.io.*;
import java.util.regex.Pattern;

class Ideone
{
	static HashMap<String, Integer> vocabulary = new HashMap<String, Integer>();
	static Scanner sc = new Scanner(System.in);
	
	public static boolean isEngLetter(char c){
		return 'a' <= c && c <= 'z' || 'A' <= c && c <= 'Z'; 
	}
	
	public static boolean isWord(String s){
		for(int i = 0; i < s.length(); i++){
			if(!(	
					isEngLetter(s.charAt(i)) 				||
					Character.isDigit(s.charAt(i)) 			||
					Pattern.matches("\\p{Punct}", s)
				)
			)
			{
				return false;
			}
		}
		return true;
	}
	
	public static String toAlpha(String s){
		return s.replaceAll("[^a-zA-Z]","");
	}
	
	public static void main (String[] args) throws java.lang.Exception
	{
		while(sc.hasNext()){
			String s = sc.next();
			if(isWord(s)){
				s = toAlpha(s);
				if(!s.isEmpty()){
					vocabulary.put(s, vocabulary.containsKey(s) ? vocabulary.get(s) + 1 : 1);
				}
			}
		}
		int sum = 0;
		for(int value : vocabulary.values()){
			sum += value;
		}
		NumberFormat formatter = new DecimalFormat("#0.0000");
		for(String s : vocabulary.keySet()){
			System.out.println(s + " " + formatter.format((double)vocabulary.get(s)/sum));
		}
	}
}

import java.util.*;

import java.lang.*;

import java.text.*;

import java.io.*;

import java.util.regex.Pattern;

class Ideone

{

static HashMap<String, Integer> vocabulary = new HashMap<String, Integer>();

static Scanner sc = new Scanner(System.in);

public static boolean isEngLetter(char c){

return 'a' <= c && c <= 'z' || 'A' <= c && c <= 'Z';

}

public static boolean isWord(String s){

for(int i = 0; i < s.length(); i++){

if(!(

isEngLetter(s.charAt(i)) ||

Character.isDigit(s.charAt(i)) ||

Pattern.matches("\\p{Punct}", s)

)

{

return false;

}

return true;

}

public static String toAlpha(String s){

return s.replaceAll("[^a-zA-Z]","");

}

public static void main (String[] args) throws java.lang.Exception

{

while(sc.hasNext()){

String s = sc.next();

if(isWord(s)){

s = toAlpha(s);

if(!s.isEmpty()){

vocabulary.put(s, vocabulary.containsKey(s) ? vocabulary.get(s) + 1 : 1);

}

int sum = 0;

for(int value : vocabulary.values()){

sum += value;

}

NumberFormat formatter = new DecimalFormat("#0.0000");

for(String s : vocabulary.keySet()){

System.out.println(s + " " + formatter.format((double)vocabulary.get(s)/sum));

}

Facebook
X
Shares

2 thoughts on “Частотный словарь”

Сам код — правильное решение первой подзадачи. По коду претензий нет, все верно.

К сожалению, нет тестового ввода и вывода (можно для очень маленького файла) и пояснения — какие структуры данных используются. В частности, как упорядочены слова в Вашем словаре (если упорядочены вообще)?

Конечно Вы хорошо назвали свои методы, но все же для стороннего наблюдателя toAlpha могло бы быть не понятно что делает — нужно пояснение, в виде комментариев (еще лучше Javadoc) или краткое пояснение в отчете.

Ответить

Александр Антоненко says: 15/12/2015 at 16:24

Пока что, 12 баллов (код есть, пояснений, примеров входа, выхода нет).

Ответить

java@Cat

Учебные материалы по изучению основ языка програvмирования Java

Частотный словарь

2 thoughts on “Частотный словарь”

Добавить комментарий Отменить ответ