Анализатор текстов, Частотный, семантический анализ текстов |
Анализатор текстов, Частотный, семантический анализ текстов |
ProtasSoft |
23.08.2005 16:27
Сообщение
#1
|
Новичок Группа: Пользователи Сообщений: 33 Пол: Мужской Репутация: 0 |
Коллеги, есть ли какие-нибудь исходники по обработке текстовых файлов.
Обработка блоков тестков разделенных набором символов. Поиск слов (словосочетаний) в этих блоках. Подсчет частоты встречаемости. Работа с лексемами и т.д. Жду Ваших предложений |
volvo |
23.08.2005 16:37
Сообщение
#2
|
Гость |
Здесь посмотри, кое-что было: Частотный словарь
Если нужно нечто более серьезное - уточняй, что именно... |
ProtasSoft |
23.08.2005 16:58
Сообщение
#3
|
Новичок Группа: Пользователи Сообщений: 33 Пол: Мужской Репутация: 0 |
Есть текстовый файл с текстом, состоящием из отдельных блоков, разделенных набором символов, например следующей последовательностью: **??**.
Необходимо составить словарь (список в отдельном текстовом файле) слов и словосочетаний (последовательности слов) всего текста и каждого блока в отдельности с указанием частоты встречаемости. Желательно иметь возможность создания лексем. В частности под механизмом создания лексемы я понимаю мехнизм нахождения в тексте слов, имеющих одинаковую подпоследовательность символов мощности >N и отличающихся от этой подпоследовательности на <<N символов. |
ProtasSoft |
26.08.2005 13:27
Сообщение
#4
|
Новичок Группа: Пользователи Сообщений: 33 Пол: Мужской Репутация: 0 |
Можно ли скопировать один текстовый файл в другой
следующим образом: procedure create_vocabulary (file1,file2:string); |
volvo |
26.08.2005 14:39
Сообщение
#5
|
Гость |
Нет. Читай здесь: FAQ: Файлы - Копирование файлов
|
ProtasSoft |
26.08.2005 18:02
Сообщение
#6
|
Новичок Группа: Пользователи Сообщений: 33 Пол: Мужской Репутация: 0 |
все компилируется, но результата нет.
подскажите где проблема program RFP; |
volvo |
26.08.2005 18:31
Сообщение
#7
|
Гость |
Я не знаю, что именно ты задумывал в этой программе, и какие у тебя были файлы данных, но с моими файлами она в 2-х местах входила в бесконечный цикл:
1) в процедуре file_preprocess замени while not eof (f) doна while not seekeof (f) do 2) while j<=i do begin {2}без отмеченной строчки будет выполняться очень долго, так что увеличение j все-таки добавь... |
ProtasSoft |
27.08.2005 9:38
Сообщение
#8
|
Новичок Группа: Пользователи Сообщений: 33 Пол: Мужской Репутация: 0 |
После внесения исправлений результирущих файлов по-прежнему нет
|
volvo |
27.08.2005 11:28
Сообщение
#9
|
Гость |
Ну, так что, мы по прежнему должны ДОГАДЫВАТЬСЯ, что именно у тебя хранится в файле данных? Или ты уже научишься, задавая вопрос, присоединять не только (и не столько) программу, но и файл данных? Я же сказал, что с моим файлом все отработало, значит проблема - в твоем DATA.TXT...
|
ProtasSoft |
27.08.2005 13:34
Сообщение
#10
|
Новичок Группа: Пользователи Сообщений: 33 Пол: Мужской Репутация: 0 |
В качестве содержимого data.txt может быть любой текст, в т.ч. и англоязычный.
Пример: Цитата лkljdfgl;k ждлапждл длвашщ ждлвапджл ждлвапджл оллошгкеш iuretiu 8 jkh 7 jh jh 78 орорпа б.ьцуждчсмшщзг 45 жлчсм 34 opiop43poi poi po poi poipoispo 90,.nxcv87wlkjagrpu9 90908 9098 kj23490sdk;jl8cv -8-09 0-9-09 op;p=-034=-0 'kl;klsfg98908 lkjfg9034... Кроме того, подскажите где посмотреть ASCII коды русских букв. Сообщение отредактировано: ProtasSoft - 27.08.2005 13:36 |
volvo |
27.08.2005 15:01
Сообщение
#11
|
Гость |
И ты хочешь сказать, что при запуске программы с моими исправлениями у тебя нет результирующих файлов (или они пустые?)... Очень интересно. Тогда посмотри, что получилось у меня (результ. файлы) - и заодно попробуй у себя запустить программу (test.pp).
Мне почему-то кажется, что у тебя какая-то проблема с опциями компилятора Прикрепленные файлы _protas.rar ( 1.66 килобайт ) Кол-во скачиваний: 223 |
ProtasSoft |
27.08.2005 17:39
Сообщение
#12
|
Новичок Группа: Пользователи Сообщений: 33 Пол: Мужской Репутация: 0 |
Спасибо за inc(j).
Вот, что у меня получилось: program RFP; Теперь у меня проблема с размерностью массива. Не могу его увеличить даже до 8000 - при таком размере комп не выдает результатов. HELP Прикрепленные файлы data.txt ( 1.49 килобайт ) Кол-во скачиваний: 233 |
volvo |
27.08.2005 18:23
Сообщение
#13
|
Гость |
Цитата Спасибо за inc(j) Я еще в посте №7 сказал, что это надо было сделать... Без этого программа входит в бесконечный цикл...По поводу 8000 элементов: ты наступаешь второй раз - на те же грабли Вынеси описание const из процедуры и сделай этот массив глобальным, у тебя просто не хватает стека, чтобы затолкать в него больше 3-х Мб данных (если массив описан локально)... У меня прекрасно отработало при max_count = 100000;, но на всякий случай счетчики i, j, k я сделал типа LongInt ... |
ProtasSoft |
30.08.2005 11:15
Сообщение
#14
|
Новичок Группа: Пользователи Сообщений: 33 Пол: Мужской Репутация: 0 |
:flowers:
Огромное спасибо за помощь. Следуя Вашим советам, все заработало! |
Текстовая версия | 26.09.2024 6:52 |