Россия (бесплатно): 8 /800/ 77-50-795

Мой опыт подбора программ статистической обработки текста

06.12.201008:1706.12.2010 08:17:48

Расскажу о своем опыте подбора программ для решения довольно нестандартной для переводчиков задачи - статистической обработки текста. На самом деле, такие программы не очень распространены в переводческой среде. И напрасно: с их помощью можно быстро выделить в тексте ключевые слова и выражения и, соответственно, оценить тематику и уровень сложности текста перед тем, как взять заказ, а во время перевода - обратить особое внимание именно на ключевые слова. Также потребность в подобных программах возникает, если переводчики не пользуются программами переводческой памяти, но требуется отслеживать употребление и перевод ключевых терминов.

Первая программа статистической обработки текста, с которой я столкнулась в Интернете - Wordstat (распространяется бесплатно).

Пользоваться программой предельно просто - выбираете файл (правда, поддерживаются только форматы txt и html\htm), нажимаете на кнопку и через секунду получаете файл - опять в формате txt - с ключевыми словами:

Как можно заметить по результатам, алгоритм программы также предельно прост: программа считает количество употреблений каждого слова, и на основании этих данных строит свой список-рейтинг. В результате - на первое место попадают предлоги, союзы, артикли - совсем не то, что в действительности несет важную информацию. К тому же, слова анализируются только "в розницу" - это минус, ведь в глоссарий ключевых терминов нужно включать и словосочетания.

Таким образом, я продолжила свой поиск и нашла программу TextAnalyst (распространяется бесплатно), обладающую более совершенным алгоритмом, учитывающую, наряду с частотностью, целый ряд лингвистических параметров: положение слова в предложении, положение предложения в тексте, связь слов между собой, семантические параметры.

И, хотя в результатах получается много "шума", важные термины действительно выделяются и могут быть использованы для создания глоссария ключевых слов. К сожалению, чудо-программка поддерживает только русский язык.

Если исходный текст - на английском языке (или другом языке, с письменностью кириллицей или латиницей), то можно воспользоваться моей следующей находкой - программой Textanz. По сравнению с отечественной программой TextAnalyst, программа Textanz использует более "грубые методы" и ограничивается только анализом частотности. Единственная лингвистическая премудрость этой программы - способность не учитывать предлоги, союзы и артикли и прочие слова, занесенные в специальный список. Очевидно, именно простота алгоритма и позволяет программе работать со многими языками.

Разумеется, если Вам необходимо создать профессиональный глоссарий текста большого объема, лучше воспользоваться специализированной программой. Упомянутые выше программы подойдут, скорее, для беглого изучения содержания текста перед переводом (чтобы лучше оценить тематику), выделения ключевых терминов и отслеживания их перевода "для себя".

Модератушка

06.12.201008:1706.12.2010 08:17:48

Просмотров:5192 Комментариев:12